CN105335416A

CN105335416A - 内容提取方法、内容提取装置和用于内容提取的系统

Info

Publication number: CN105335416A
Application number: CN201410380780.7A
Authority: CN
Inventors: 胡钦谙; 黄耀海; 张碧川; 那森
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2014-08-05
Filing date: 2014-08-05
Publication date: 2016-02-17
Anticipated expiration: 2034-08-05
Also published as: CN105335416B

Abstract

本发明涉及内容提取方法、内容提取装置和用于内容提取的系统。内容提取方法包括：提取输入文档中的多个主题内容区域；对于至少一部分主题内容区域中的每个主题内容区域，确定该主题内容区域的结构类型，其中所述结构类型通过该主题内容区域中包含的元素确定；对于所述每个主题内容区域，根据该主题内容区域的结构类型识别该主题内容区域中的兴趣内容，其中该主题内容区域中的兴趣内容指示该主题内容区域中最可能被用户注意的至少一个元素；以及根据用户输入动作和所述每个主题内容区域中的兴趣内容，提取响应于用户输入动作的主题内容区域。通过使用主题内容区域和兴趣内容，可以在能够向用户提供有意义的内容的同时提高内容提取的准确度。

Description

内容提取方法、内容提取装置和用于内容提取的系统

技术领域

本公开涉及文本处理领域，更具体地，涉及文本处理领域中的内容提取方法、内容提取装置和用于内容提取的系统。

背景技术

用户通常在他们通过文档显示设备介绍文档时使用输入动作(例如用户手势)来让他们被其它用户理解。文档显示设备可以是屏幕中的文档窗口、触摸面板或投影仪的投影。例如，可以通过在屏幕中移动鼠标、对触摸面板执行触摸或滑动操作、或者在投影上使用用户手势，来直接对正被显示的文档进行一些动作。在用户手势用于提取文档中的内容以介绍该文档的情况下，帮助系统通常被提出，其使得能够接收用户手势并将用户的选择定位在文档显示设备上。

例如，在旅游机构中，职员通常使用文档显示设备来向顾客解释不同的旅游计划。文档显示设备被设计为接收具有关于旅游计划的内容的输入文档和用户手势，并输出由用户手势点击或选择的内容。

提出了多种方法来根据用户手势选择文档中的文本区域，这些方法将文档中的文本的坐标与用户手势的坐标进行比较以确定用户手势选择了哪个文本并然后输出所确定的文本。例如，在相关技术中，记录用户手势的位置，并选择与用户手势距离最小的文本作为输出。

然而，这样的方法根据坐标距离的信息可能仅仅获得文本的一些分段，并通常可能不输出用户想要指向的有意义的内容。

此外，由于这样的方法仅仅使用坐标距离的信息，因此靠近用户手势的所有单词(文本)可能被获得，因为这些单词可能具有小于预定阈值的到用户手势的距离。因此，所选择的单词通常不是用户实际想要选择的，从而导致根据用户手势获得的内容不准确。例如，如果用户想要选择文档的第一行中的第一个单词，那么，当用户使用手势在该第一个单词下方划过时，通常可能同时选择第一行中的该第一个单词以及第二行中的第一个和/或第二个单词，因为所有这些所选择的单词可能具有到手势的最小距离。再例如，如果用户想要选择第一行和第二行以对它们进行比较，那么用户将指向这些行中的每一个单词，这对于用户而言是非常单调乏味且浪费时间的。如果用户仅仅在边上指向第一行和第二行，那么第一行和第二行中靠近手势的单词可能被选择而不是整个行。

因此，存在当用户想要从文档提取内容时改进准确性的需要。

发明内容

本公开内容公开了内容提取方法、内容提取装置和用于内容提取的系统，其能够在改进内容提取的准确性同时还向用户提供有意义的内容。

根据本发明的一个方面，提供了一种内容提取方法，包括：提取输入文档中的多个主题内容区域，其中每个主题内容区域由输入文档中的关于同一主题的一个或多个元素组成；对于至少一部分主题内容区域中的每个主题内容区域，确定该主题内容区域的结构类型，其中所述结构类型通过该主题内容区域中包含的元素确定；对于所述至少一部分主题内容区域中的每个主题内容区域，根据该主题内容区域的结构类型识别该主题内容区域中的兴趣内容，其中该主题内容区域中的兴趣内容指示该主题内容区域中最可能被用户注意的至少一个元素；以及根据用户输入动作和所述至少一部分主题内容区域中的每个主题内容区域中的兴趣内容，提取响应于用户输入动作的主题内容区域。

根据本发明的另一方面，提供了一种内容提取装置，包括：区域提取单元，被配置为提取输入文档中的多个主题内容区域，其中每个主题内容区域由输入文档中的关于同一主题的一个或多个元素组成；确定单元，被配置为对于至少一部分主题内容区域中的每个主题内容区域，确定该主题内容区域的结构类型，其中所述结构类型通过该主题内容区域中包含的元素确定；识别单元，被配置为对于所述至少一部分主题内容区域中的每个主题内容区域，根据该主题内容区域的结构类型识别该主题内容区域中的兴趣内容，其中该主题内容区域中的兴趣内容指示该主题内容区域中最可能被用户注意的至少一个元素；以及内容提取单元，被配置为根据用户输入动作和所述至少一部分主题内容区域中的每个主题内容区域中的兴趣内容，提取响应于用户输入动作的主题内容区域。

根据本发明的再一方面，提供了一种用于内容提取的系统，包括：文档获取装置，被配置为获取输入文档；以及如上所述的内容提取装置。

根据上述技术方案，由于每个主题内容区域包括关于同一主题的元素，因此由用户输入动作选择的主题内容区域可以向用户提供有意义的内容。此外，由于响应于用户输入动作提取的内容是一个主题内容区域中的所有内容，并且是基于用户输入动作与兴趣内容之间的关系、而不是基于用户输入动作和分别分离的单词之间的坐标距离，因此，所提取的内容可以更准确并向用户提供他想要选择的内容。借助于主题内容区域和兴趣内容，内容提取的准确性可以提高，同时可以向用户提供有意义的内容。

从参照附图的以下描述中，本发明的其它特性特征和优点将变得清晰。

附图说明

并入说明书并且构成说明书的一部分的附图图示了本发明的实施例，并且与描述一起用于说明本发明的原理。

图1是示出能够实施本发明的实施例的计算机系统的示例性硬件配置的框图。

图2示出了根据本发明的实施例的内容提取方法的流程图。

图3示出了根据本发明的实施例的提取主题内容区域的处理的流程图。

图4A－4D示出了分别具有单信息强调型、比较强调型、群信息强调型和对应强调型的主题内容区域的一些例子。

图5示出了根据本发明的实施例的确定主题内容区域的结构类型的处理的流程图。

图6示出了给出分别用于单信息强调型、比较强调型、群信息强调型和对应强调型的提示词和焦点词的一些例子的表格。

图7示出了根据本发明的实施例的识别输入文档中的提示词的处理的流程图。

图8A示出了历史文档中的与不同结构类型有关的单词和/或短语的一些例子。

图8B示出了与不同结构类型有关的历史提示词信息的一些例子。

图9示出了根据本发明的实施例的识别输入文档中的提示词的处理的另一流程图。

图10A和10B示出了用于更好解释图9中的处理的一些例子。

图11示出了计算用户输入动作和兴趣内容之间的距离的例子的示图。

图12示出了根据本发明的实施例的基于用户输入动作的速度提取内容的处理的流程图。

图13示出了根据本发明的实施例的内容提取装置的结构框图。

图14示出了根据本发明的实施例的内容提取装置的另一结构框图。

图15示出了根据本发明的实施例的用于内容提取的系统的结构框图。

具体实施方式

以下将参照附图详细描述本发明的实施例。

请注意，类似的参考数字和字母指的是图中的类似的项目，因而一旦在一幅图中定义了一个项目，就不需要在之后的图中讨论了。

在本公开中，术语“第一”和“第二”等仅用于区分要素或步骤，但是不意图表示时间次序、优选性或重要性。

图1是示出能够实施本发明的实施例的计算机系统1000的硬件配置的框图。

如图1中所示，计算机系统包括计算机1110。计算机1110包括经由系统总线1121连接的处理单元1120、系统存储器1130、固定非易失性存储器接口1140、可移动非易失性存储器接口1150、用户输入接口1160、网络接口1170、视频接口1190和输出外围接口1195。

系统存储器1130包括ROM(只读存储器)1131和RAM(随机存取存储器)1132。BIOS(基本输入输出系统)1133驻留在ROM1131中。操作系统1134、应用程序1135、其它程序模块1136和某些程序数据1137驻留在RAM1132中。

诸如硬盘之类的固定非易失性存储器1141连接到固定非易失性存储器接口1140。固定非易失性存储器1141例如可以存储操作系统1144、应用程序1145、其它程序模块1146和某些程序数据1147。

诸如软盘驱动器1151和CD-ROM驱动器1155之类的可移动非易失性存储器连接到可移动非易失性存储器接口1150。例如，软盘1152可以被插入到软盘驱动器1151中，以及CD(光盘)1156可以被插入到CD-ROM驱动器1155中。

诸如鼠标1161和键盘1162之类的输入设备被连接到用户输入接口1160。

计算机1110可以通过网络接口1170连接到远程计算机1180。例如，网络接口1170可以经由局域网1171连接到远程计算机1180。或者，网络接口1170可以连接到调制解调器(调制器－解调器)1172，以及调制解调器1172经由广域网1173连接到远程计算机1180。

远程计算机1180可以包括诸如硬盘之类的存储器1181，其存储远程应用程序1185。

视频接口1190连接到监视器1191。

输出外围接口1195连接到打印机1196和扬声器1197。

图1所示的计算机系统仅仅是说明性的并且决不意图对本发明、其应用或用途进行任何限制。

图1所示的计算机系统可以被实施于任何实施例，可作为独立计算机，或者也可作为装置中的处理系统，可以移除一个或更多个不必要的组件，也可以向其添加一个或更多个附加的组件。

现在，参考图2，将描述根据本发明的实施例的内容提取方法200。

内容提取方法200从输入文档提取分别包括关于同一主题的元素的主题内容区域。关于所提取的主题内容区域中的至少一部分主题内容区域中的每一个，内容提取方法200确定该主题内容区域的结构类型，然后通过使用该结构类型识别该主题内容区域中的一个或多个兴趣内容。基于用户输入动作和兴趣内容之间的关系，内容提取方法200可以确定用户想要选择哪个主题内容区域，并提取该主题内容区域以用于例如显示、编辑、存储等。因为主题内容区域由于所包括的关于同一主题的元素而具有有意义的内容，并且用户输入动作和兴趣内容之间的关系被使用，因此可以更准确地提取用户想要选择的内容，并可以以有意义的方式将该内容提供给用户。下面，将描述内容提取方法200的细节。

在步骤S210中，提取输入文档中的多个主题内容区域，其中每个主题内容区域由输入文档中的关于同一主题的一个或多个元素组成。这里，每个元素可以选自包括单词、短语、句子、段落、图片和表格中的至少一个的组。

具体而言，主题内容区域包括用户想要例如强调、高亮显示、选择、谈论等的内容，其可以表达能够被人们理解的完整含义。例如，如果一些句子与富士山有关，那么可以构成主题内容区域的完整信息可以包括富士山的位置、高度和历史。如果一些句子与旅游计划相关，那么完整信息可以包括旅游的旅游方法、时间、距离、成本和食物。

一个主题内容区域是用户可能想要在例如进行介绍或进行拷贝以填表时选择或高亮显示的输入文档(或显示文档)中的主题内容的区域。主题内容区域可以包括用户想要一次预览的内容，并且可以尽可能得小。主题内容区域不需要是文档中的连续的物理区域。主题内容区域可以是逻辑意义上的区域，其可以由物理上存在的元素构成，物理上存在的元素包括文档中的单词、短语、句子、段落、图片和/或表格。构成的元素可能形成文档中的连续的物理区域，也可能形成文档的不同部分中的分离的物理区域。不管同一主题内容区域中的元素位于文档中的什么地方，这些元素关于同一主题。例如，这些元素可以描述同一关键词(例如“富士山”)，或者可以指示应该被关注的重要信息(例如“地震”)，或者可以提供关于同一活动的多条比较信息(例如，当选择哪个房屋更适合购买时的信息)，或者可以针对关于同一图片或表格的信息。

根据本发明的实施例，文档中的主题内容区域可以由用户预先定义，从而当文档被使用或显示时，可以自动提取预先定义的主题内容区域。

例如，在用户进行介绍之前，用户可能选择一些要高亮显示的关键词。当用户进行介绍时，用户可以在这些关键词附近使用手势以使这些关键词被高亮显示。以银行中的使用情形为例。银行职员可以预先将文档中的一些文本部分、图片和/或表格信息定义为主题内容区域，并可以在向顾客解释该文档时选择这些主题内容区域中的任何一个。

根据本发明的实施例，可以存储用户和文档之间的历史交互信息。在历史交互信息中，可以记录用户(该用户可以是同一用户或不同用户)曾经指定了的主题内容区域。然后，当文档被使用或显示时，可以基于历史交互信息提取以前指定的主题内容区域。

根据本发明的实施例，可以对输入文档进行解析以提取其主题内容区域。下面参考图3描述解析方式。

图3示出了提取主题内容区域的处理300的流程图。该流程图给出了不需要在同一实施例中执行的详细的流程。

在步骤S3301中，在输入文档中检测单词、短语、句子、段落、图片和/或表格。

在步骤S3302中，确定用户是否预先定义了主题内容区域。如果用户预先定义了主题内容区域，则处理300前进到步骤S3311。如果没有预先定义的主题内容区域，则处理300前进到步骤S3303。

在步骤S3311中，提取用户定义的主题内容区域。

在步骤S3303中，确定在用户和输入文档之间是否存在历史交互信息。如果存在这样的信息，则处理300前进到步骤S3321。如果没有这样的信息，则处理300前进到步骤S3331。

在步骤S3321中，获取用户日志，用户日志记录有用户如何与输入文档进行交互的信息，包括历史交互信息。

在步骤S3322中，根据用户日志提取历史上交互过的主题内容区域。

在步骤S3331中，从输入文档提取语义单元，其中每个语义单元选自包含单词、短语、句子、段落、图片(包括图像)和表格中的至少一种的组。

在步骤S3332中，对所提取的语义单元进行排序。

在步骤S3333中，选择较高排序的语义单元。换句话说，选择排序级别高于阈值的语义单元，并将其用作构成主题内容区域的元素。

在步骤S3334中，提取元素(即，所选择的较高排序的语义单元)之间的关系。

在步骤S3335中，根据元素之间的关系提取主题内容区域。

除了提取主题内容区域的上述方式之外，可以通过现有的NLP(自然语言处理)技术来提取主题内容区域，例如命令实体识别技术、主题提取技术、关键词提取技术、总结技术等。从文本中进行提取是传统的NLP方法中的方法，包括提取具有完整含义的表格内容、单词、短语、句子、段落作为主题内容并选择重要的主题内容。提取语义单元的方式与现有的信息提取技术类似。对语义单元进行排序的方式与总结技术中的重要性计算步骤类似。此外，可以使用现有的布局技术来提取图片(包括图像)。

返回图2。在步骤S220中，对于至少一部分主题内容区域中的每个主题内容区域，确定该主题内容区域的结构类型，其中所述结构类型通过该主题内容区域中包含的元素确定。

在本发明的不同实施例中，步骤S210中提取的所有主题内容区域可以在步骤S220至S240中涉及，或者步骤S210中提取的所有主题内容区域中的仅仅一部分可以在步骤S220至S240中涉及。换句话说，如果在步骤S210中提取的主题内容区域的数量为N，需要由步骤S220至S240处理的所提取的主题内容区域的数量是M，则M可以等于N，或者M可以小于N。

更具体而言，最初，可以从输入文档中提取多个主题内容区域，然后，将根据例如用户输入动作、用户的预览范围或屏幕中的显示范围来选择主题内容区域的一部分，并且该部分将经受步骤S220至S240的处理。例如，如果用户手势在输入文档(或显示文档)的上侧划过，则文档的上半部分中的主题内容区域将被认为是其结构类型需要被确定、其兴趣内容需要被识别、并且其中之一将最终被提取的主题内容区域。再例如，与通过将用户手势的轨迹扩展一定距离而得到的范围相重合的主题内容区域将被认为需要被步骤S220至S240处理。以下描述主要针对处理所提取的每个主题内容区域的情况，但是本领域技术人员将容易理解，可以在内容提取期间根据所公开的方法仅仅处理所提取的主题内容区域中的一部分。

根据本发明的实施例，可以通过元素的关系来检测信息组织方式，并可以定义结构类型来反映信息组织方式。结构类型可以包括单信息强调性、比较强调型、群信息强调型和对应强调型中的至少一种。

单信息强调型的主题内容区域可以包含一个元素。换句话说，单信息强调型具有由该唯一一个元素反映的孤立信息。比较强调型的主题内容区域可以包含具有比较关系的多个元素。换句话说，比较强调型具有由该多个元素反映的信息的相似性和区别的比较。群信息强调型的主题内容区域可以包含与同一关键词关联的多个元素。换句话说，群信息强调型具有由该多个元素反映的相关信息。对应强调型的主题内容区域可以包含指示文本及其对应图片和/或表格的多个元素。换句话说，对应强调型具有由该多个元素反映的文本信息和对应图片或表格信息。

例如，图4A至4D示出了关于不同结构类型的一些例子。虽然在这些图中分别用黑体和下划线示出了主题内容区域(主题内容区域由元素构成)和兴趣内容(兴趣内容为元素中的至少一部分并将在下面详细描述)，但是当显示输入文档时，可以不像这些图中那样明确地示出主题内容区域和兴趣内容。也就是说，最开始，当用户预览输入文档时，用户不能识别出主题内容区域和兴趣内容。在这些图中的表达方式仅仅为了使得更好地理解本公开。

在图4A中，示出了具有一个主题内容区域的输入文档的一部分。黑体形式的该主题内容区域是单信息强调型的主题内容区域，并具有作为用下划线示出的兴趣内容的唯一一个元素。

在图4B中，示出了具有一个主题内容区域的输入文档的一部分。黑体形式的该主题内容区域是比较强调型的主题内容区域，并具有用下划线示出的多个兴趣内容。

在图4C中，示出了具有一个主题内容区域的输入文档的一部分。黑体形式的该主题内容区域是群信息强调型的主题内容区域，并具有用下划线示出的多个兴趣内容。

在图4D中，示出了具有一个主题内容区域的输入文档的一部分。黑体形式的该主题内容区域是对应强调型的主题内容区域，并具有用下划线示出的多个兴趣内容。

为了确定主题内容区域的结构类型，可以使用根据本发明的实施例的图5所示的处理500。

在步骤S5411中，提取包括在主题内容区域中的每个元素的词汇特征。

元素的词汇特征可以包括元素的表面形式(例如形态学(morphology)特征)，包括该元素是否是数字、缩略语、首字母缩写词等。元素的词汇特征可以是语音特征的一部分，包括元素是否是名词、动名词短语、不定式短语等。例如，如果一个主题内容区域具有许多数字单词，则该主题内容区域可能是比较强调型的主题内容区域。

在步骤S5412中，提取包括在主题内容区域中的每个元素的上下文特征。

元素的上下文特征基于该元素周围的文本内容(例如单词)来确定，例如线索词特征(包括“figure”、“table”、“above”、“following”、“compared”、“consist”、“while”、“however”、“but”等)、标点符号特征和位置特征(包括该元素是否出现在表格列中、表格行中、句子开始、句子结尾等)。例如，如果一个主题内容区域具有短语“forexample”或短语“asfollows”，则该主题内容区域可能是群信息强调型的主题内容区域。

在步骤S5413中，提取包括在主题内容区域中的每个元素的篇章特征。

元素的篇章特征反映文档的全面组织方式，例如段落主题特征(包括元素是否涉及介绍部分、比较部分、说明部分、大事年表等)和文档内容特征(包括元素是否出现在目录映射中、文档开始中或文档结束中，元素是否包含图片、表格或图形，等等)。例如，在一个文档的开头，可能不存在诸如比较强调型的主题内容区域的详细信息。

尽管图5示出了步骤S5411、S5412和S5413串行执行，但是这些步骤可以同时执行，或者以不同于所示顺序的顺序执行。此外，在一些实施例中，这些步骤中的一些可以省略。

在步骤S5414中，根据所提取的特征计算主题内容区域中包括的每两个元素之间的比较可能性。

两个元素之间的比较可能性指这两个元素可以相互比较的概率。例如，作为数字的两个元素之间的比较可能性高于其中一个元素是短语且另一个元素是数字的两个元素之间的比较可能性，作为具有相同单位的数字的两个元素之间的比较可能性高于作为具有不同单位的数字的两个元素之间的比较可能性。

在步骤S5415中，根据所提取的特征计算主题内容区域中包括的每两个元素之间的关联程度。

两个元素之间的关联程度指这两个元素之间的相关性。例如，在关于旅游计划的文档中，其中一个元素描述价格且另一个元素描述航班号的两个元素之间的关联程度高于其中一个元素描述价格且另一个元素描述树木的两个元素之间的关联程度。

尽管图5示出了步骤S5414在步骤S5415之前执行，但是步骤S5415可以在步骤S5414之后执行，或者步骤S5414和S5415可以同时执行。

在计算主题内容区域中的每两个元素之间的比较可能性和关联程度之后，可以例如使用以下步骤S5416－S5422来确定主题内容区域的结构类型。

在步骤S5416中，确定主题内容区域中是否存在比较可能性达到第一阈值的至少两个元素。如果存在这样的元素，则处理500前进到步骤S5422。如果不存在这样的元素，则处理500前进到步骤S5417。

在步骤S5422中，确定主题内容区域为比较强调型的主题内容区域。

在步骤S5417中，确定主题内容区域中是否存在与其它元素的关联程度低于第二阈值的元素。如果存在这样的元素，则处理500前进到步骤S5418。如果不存在这样的元素，则处理500前进到步骤S5421。

在步骤S5421中，确定与其它元素的关联程度低于第二阈值的该元素单独对应于一个单信息强调型的主题内容区域。

在步骤S5418中，确定主题内容区域中是否存在包括图片和/或表格的元素。如果存在这样的元素，则处理500前进到S5419。如果不存在这样的元素，则处理500前进到S5420。

在步骤S5419中，确定主题内容区域是对应强调型的主题内容区域。

在步骤S5420中，确定主题内容区域是群信息强调型的主题内容区域。

返回图2。在步骤S230中，对于至少一部分主题内容区域中的每个主题内容区域，根据该主题内容区域的结构类型识别该主题内容区域中的兴趣内容，其中该主题内容区域中的兴趣内容指示该主题内容区域中最可能被用户注意的至少一个元素。

主题内容区域中的兴趣内容是该主题内容区域中的所有元素或一部分元素，并通常是单词或短语。一个主题内容区域可以具有至少一个兴趣内容。在用户想要从文档获得信息时在统计上最可能被用户注意的至少一个元素可以成为兴趣内容。兴趣内容可以是传递重要信息或有效信息的单词和/或短语，或者可以是容易被聚焦到的单词和/或短语，或者可以是与其它单词和/或短语相比更显眼的单词和/或短语。事实上，文档的作者以特定方式组织文档信息，例如，对类似对象的信息进行比较的方式、将图像或表格与单词和/或短语相链接以更好地进行说明的方式、介绍一个对象的各种方面的方式等。容易被读者注意到的单词和/或短语通常是反映信息组织方式的单词和/或短语以及由文档的作者组织的具体信息。这些单词和/或短语可以被称为“兴趣内容”。例如，对于描述关于富士山的不同方面的主题内容区域，短语“Mt.Fuji”可以是兴趣内容，描述富士山的高度的单词“3776m”可以是兴趣内容。

根据本发明的实施例，可以在主题内容区域中包含的元素之中识别与该主题内容区域的结构类型对应的提示词和焦点词作为兴趣内容。提示词可以是用于反映结构类型的单词和/或短语，焦点词可以是由结构类型强调的单词和/或短语。所有的提示词和焦点词用作兴趣内容。

具体而言，提示词可以决定合适的结构类型，焦点词易于被用户注意并具有与结构类型有关的有效含义。

对于单信息强调型的主题内容区域，可以将该主题内容区域中的唯一一个元素确定为兴趣内容，例如，在图4A中，唯一一个元素“non-stopovernightflight”是兴趣内容。

对于比较强调型的主题内容区域，可以将重复结构中包含的相同的单词和/或短语确定为提示词，并可以将重复结构中包含的其它单词和/或短语确定为焦点词。例如，在图4B中，重复结构是“Price:……(adult)/……(6-11yrs)”。因此，相同的单词/短语“Price”、“adult”和“6-11yrs”是提示词，重复结构中的其它单词/短语“$180”、“$80”、“$150”、“$70”等是焦点词。提示词和焦点词中的每一个可以被用作兴趣内容，或者两个或更多个相邻的焦点词和/或焦点词的组合可以产生一条兴趣内容。

对于群信息强调型的主题内容区域，可以将包含有专有名词的单词和/或短语确定为提示词，并可以将从该主题内容区域提取的元素中作为除了提示词之外的关键词的单词和/或短语确定为焦点词。这里，如何从文档提取关键词是本领域技术人员公知的，其可以包括具有数字、独特修饰语等的单词和短语。例如，在图4C中，因为短语“Mt.Fuji”包括专有名词，所以该短语为提示词，具有数字的单词“3776m”和具有独特修饰语的短语“beautifulconicalvolcanoes”是焦点词。

诸如NER(命名实体识别器)技术和KE(关键词提取)技术的一些相关技术可以提取命名实体和高排序的单词或短语以用于输出。然而，本发明的实施例可以使用这些NER或KE结果作为输入，并通过使用结构类型来仅仅选择这些结果中的一些作为兴趣内容。更具体而言，本发明的实施例可以根据主题内容区域的结构类型从提取的命令实体和关键词中识别提示词和焦点词。不是命名实体或关键词的一些单词或短语可以被用作兴趣内容，一些命名实体或关键词可以不被用作兴趣内容。例如，在图4B中，尽管单词“adult”不是命名实体或关键词，但是由于它出现在重复结构中，所以它是提示词并属于兴趣内容。

对于对应强调型的主题内容区域，可以将用于指示文本与图片和/或表格之间的对应关系的单词和/或短语确定为提示词，并可以将出现在该主题内容区域中的不同位置中的相同的单词和/或短语确定为焦点词。例如，在图4D中，由于单词“fig.8”指示文本和图片之间的对应关系，所以单词“fig.8”是提示词。由于单词“Sushi”出现在该主题内容区域中的不同位置中，所以单词“Sushi”是焦点词。

图6给出了对于不同结构类型的提示词和焦点词的类型的一些例子。

如图6所示，例如，对于群信息强调型，作为主题内容区域的中心的核心词(核心词可以是大写的词、缩略语、段落的第一句中的第一个单词/短语、或者在主题内容区域中出现最多的单词/短语)是提示词。对于比较强调型，重复结构(或重复模板)具有要作为提示词的重复单词/短语。对于单信息强调型，可以将唯一一个元素视为提示词。对于对应强调型，将文本与图片或表格相链接的单词/短语是提示词。基于所提取的提示词，可以如图6所示那样容易地提取焦点词。

本领域技术人员还可以想到通过定义不同的准则来识别提示词和焦点词的其他方式。提示词可以被定义为与对应的结构类型最相关的单词/短语，焦点词可以被定义为在所确定的结构类型中适于出现并传递有效信息的单词/短语。

根据本发明的实施例，识别焦点词的准则有时可以比识别提示词的准则更加灵活，但没有识别提示词的准则重要。

关于提示词的识别，例如，可以通过使用基于历史文档收集的历史提示词信息来识别输入文档中包含的提示词。图7示出了根据本发明的实施例的识别输入文档中的提示词的处理700的流程图。

在步骤S7451中，获取历史文档中每种结构类型涉及的单词和/或短语。图8A给出了历史文档中不同结构类型涉及的单词和/或短语的一些例子。

在步骤S7452中，对所获取的每种结构类型涉及的单词和/或短语进行排序。例如，单词或短语出现得越多，其排序级别越高。

在步骤S7453中，通过使用排序级别高于阈值的单词和/或短语来构建或生成对应结构类型的历史提示词信息。图8B示出了以每种结构类型的提示词字典的形式组织的所构建的历史提示词信息。

在步骤S7461中，通过使用所构建的历史提示词信息来识别输入文档中的提示词。

图9示出了根据本发明的实施例的识别输入文档中的提示词的处理900的流程图。图10A和10B示出了用于更好解释处理900的一些例子。

在步骤S9471中，在输入文档中提取每个主题内容区域中的单词和/或短语。

通常，在同一文档中，如果两个主题内容区域彼此相似，则这两个主题内容区域的提示词可能为同一类型。例如，图10A示出了其元素用黑体示出并且关于旅游地的信息的两个主题内容区域。

在步骤S9472中，识别所提取的每个单词和/或短语所属于的类别类型。类别类型可以表明该单词和/或短语描述的特性或方面。

图10B仅示出了一些元素的类别类型。实际上，将确定所提取的每个单词和/或短语的类别类型。图10B示出了来自一个区域的“Mt.Fuji”和来自另一区域的“SumidaRiverCruise”属于类别类型“地点”，来自一个区域的“3776”和来自另一区域的“12”和“100”属于类别类型“数字”，来自一个区域的“conicalvolcanoes”和来自另一区域的“mountain”和“River”属于类别类型“风景”，来自一个区域的“Price”属于类别类型“特性”、而另一区域不具有这种类别类型的单词或短语。

在步骤S9473中，识别具有相同结构类型的主题内容区域共有的类别类型。

共有的类别类型表示该类别类型在具有相同结构类型的所有主题内容区域中存在。在图10B所示的例子中，“地点”类型、“数字”类型和“风景”类型分别在两个主题内容区域中存在。因此，“地点”类型、“数字”类型和“风景”类型是共有的类别类型。

在步骤S9474中，在具有相同结构类型的主题内容区域中的每一个中将属于共有的类别类型的单词和/或短语确定为对应主题内容区域中的提示词。

在图10A和10B所示的例子中，“Mt.Fuji”、“3776”和“conicalvolcanoes”是一个区域中的提示词，“SumidaRiverCruise”、“12”、“100”和“mountain”是另一区域中的提示词。

返回图2。在步骤S240中，根据用户输入动作和至少一部分主题内容区域中的每个主题内容区域中的兴趣内容，提取响应于用户输入动作的主题内容区域。

例如，可以将具有最多个数的与用户输入动作的轨迹重叠的兴趣内容的主题内容区域确定为响应于用户输入动作的主题内容区域以供提取。例如，当用户在输入文档上使用手势时，由手势导致的轨迹可以扫过多个兴趣内容。如果一主题内容区域具有最多个数的经扫过的兴趣内容，则该主题内容区域是响应于用户输入动作的主题内容区域以供提取。请注意，这里使用的术语“重叠”表示“至少部分重叠”。

再例如，可以将具有与用户输入动作输入的信息对应的兴趣内容的主题内容区域确定为响应于用户输入动作的主题内容区域以供提取。例如，用户可以输入一些词。如果输入的词与某一兴趣内容相一致，则包括该兴趣内容的主题内容区域是响应于用户输入动作的主题内容区域以供提取。

又例如，可以根据用户输入动作的位置和至少一部分主题内容区域中的每个主题内容区域中的兴趣内容的位置之间的距离，提取响应于用户输入动作的主题内容区域。

可以使用以下方式来确定用户输入动作的位置和每个主题内容区域中的兴趣内容的位置之间的距离。

首先，检测与用户输入动作对应的坐标位置和与主题内容区域中的兴趣内容对应的坐标位置。

用户输入动作可以是由对鼠标、键盘等的操作引起的光标移动。用户输入动作还可以是用户手势。用户手势可以包括点击手势、拖动手势、扫过手势、抓取手势、释放手势、按压手势和画圈手势中的至少一个。用户手势还可以是传统用户接口的光标轨迹或眼睛移动。光标轨迹可以包括点击轨迹、拖动轨迹、扫过轨迹、抓取轨迹、释放轨迹、按压轨迹和画圈轨迹中的至少一个。眼睛移动可以包括点击扫描路径、拖动扫描路径、扫过扫描路径、抓取扫描路径、释放扫描路径、按压扫描路径和画圈扫描路径中的至少一个。

然后，如果由与用户输入动作对应的坐标位置构成的范围和由与该主题内容区域中的兴趣内容对应的坐标位置构成的范围存在重叠，则确定用户输入动作的位置和该主题内容区域中的兴趣内容的位置之间的距离为零。如果由与用户输入动作对应的坐标位置构成的范围和由与该主题内容区域中的兴趣内容对应的坐标位置构成的范围不存在重叠，则通过使用与用户输入动作对应的坐标位置中的至少一个和与该主题内容区域中的兴趣内容对应的坐标位置中的至少一个来计算用户输入动作的位置和该主题内容区域中的兴趣内容的位置之间的距离。

与用户输入动作对应的坐标位置可以是动作的开始位置、动作的结束位置、动作的中间位置、动作的经周期采样的多个位置等。与兴趣内容对应的坐标位置可以是兴趣内容的开始位置、兴趣内容的结束位置、兴趣内容的中间位置、兴趣内容的具有均一间隔的多个位置等。由多个位置构成的范围可以是这些位置通过连接相邻位置的直线或曲线所包围的范围。

图11示出了计算用户输入动作和兴趣内容之间的距离的例子的示图。在图11中，存在用虚线分开的两个主题内容区域，兴趣内容用下划线示出，并且要计算的距离的一些例子用实线和双点划线描绘。任何一个主题内容区域中的每个兴趣内容和用户输入动作之间的距离可以被计算。例如，可以使用兴趣内容的中间位置的坐标和用户输入动作的中间位置的坐标来计算距离。再例如，可以使用兴趣内容的位置的多个坐标和用户输入动作的位置的多个坐标来计算每两个坐标之间的距离，通过对这些距离进行平均得到的结果可以作为兴趣内容和用户输入动作之间的最终距离。

根据本发明的实施例，可以根据接收用户输入动作的设备的分辨率误差来校正用户输入动作的位置，以根据用户输入动作的校正后的位置和至少一部分主题内容区域中的每个主题内容区域中的兴趣内容的位置之间的距离来提取响应于用户输入动作的主题内容区域。例如，接收用户输入动作的设备可以具有在它接收用户输入动作时的固有的分辨率误差，从而可以使用该分辨率误差来校正由该设备确定的用户输入动作的初始位置以得到用户输入动作的真实位置，从而进一步提高内容提取的准确性。

在确定了距离之后，可以将具有最多个数的与用户输入动作的位置的距离为零的兴趣内容的主题内容区域确定为响应于用户输入动作的主题内容区域。可替代地，可以将其中所有兴趣内容的位置中的每一个与用户输入动作的位置之间的距离的平均值最小的主题内容区域确定为响应于用户输入动作的主题内容区域。

为了获取用户输入动作的位置，例如，可以检测用户输入动作的速度，然后可以将速度低于第一预定值的用户输入动作所对应的位置确定为用户输入动作的位置。再例如，可以检测用户输入动作中具有重叠轨迹的动作部分的重复次数，并可以将重复次数高于第二预定值的动作部分所对应的位置确定为用户输入动作的位置。

有时，用户可能不想提取主题内容区域，而可能仅仅想要聚焦于单个单词或短语。为了与这样的情况相兼容，图12示出了根据本发明的实施例的基于用户输入动作的速度来提取内容的处理1200的流程图。

在步骤S1210中，接收并显示输入文档。

在步骤S1220中，接收关于输入文档的用户输入动作(例如用户手势)。

在步骤S1230中，检测用户输入动作的速度。如果用户输入动作的速度低于阈值，则处理1200前进到步骤S1240。如果用户输入动作的速度不低于该阈值，则处理1200前进到步骤S1262。

在步骤S1240中，计算文本和用户输入动作的位置之间的距离。

在步骤S1250中，提取与用户输入动作的距离最小的内容。

步骤S1262至S1268基本上与步骤S210至S240相同，为了简单起见，省略对它们的描述。

在步骤S1270中，输出响应于接收到的用户输入动作的提取内容或主题内容区域。

根据本发明的实施例，有多种用于处理所提取的主题内容区域的方式。

例如，可以以高亮显示、尺寸改变和颜色变化中的至少一种方式对响应于用户输入动作的主题内容区域进行输出。以对所选择的内容进行高亮显示为例。在图4C中，当用户通过手势在文本“Mt.Fuji”下方扫过时，相关技术可能对该文本或者下面的文本“most”或“popular”进行高亮显示。相对照地，所公开的内容提取方法将对用黑体示出的整个主题内容区域进行高亮显示。在图4B中，当用户在右侧垂直地从第一行扫到第二行时，相关技术可能对第一行和第二行中的两个文本“6-11yrs”都进行高亮显示。相对照地，所公开的内容提取方法将对用黑体示出的整个主题内容区域进行高亮显示。

再例如，可以对响应于用户输入动作的主题内容区域进行编辑或由用户对其添加评论。

又例如，可以将响应于用户输入动作的主题内容区域呈现或保存在用户指定的位置中。例如，当用户想要填写表格时，用户可以将整个主题内容区域放置到表格的对应空格中，以避免输入多条信息的麻烦。再例如，在用户是旅行社的职员和顾客的情况下，在进行一些讨论之后，他们想要填写旅游计划的表格。表格中的项目的内容已经存在于文档中，用户可以通过使用如下手势来容易地对表格进行填写：将一只手移动到文档以靠近内容(例如“non-stopovernightflight”)，使用抓取手势，将抓取的手移动到表格项目(例如“flight”)，使用释放手势。作为结果，内容(例如“non-stopovernightflight”)被填写到与表格项目(例如“flight”)对应的空格中。

虽然上述描述以英文文档作为例子，但是本领域技术人员可以容易地想到所公开的方案也可以用在使用诸如中文、日文等的其他语言的文档中、以及使用不同语言组合的文档中。它们都落入由权利要求限制的本发明的范围中。

基于根据本发明的实施例的内容提取方法，通过提取主题内容区域来理解用户与文档交互的潜在目的，其中主题内容区域是文本、表格、图片等语义单元的完整表现。然后，通过使用每个主题内容区域的结构类型来识别兴趣内容，其中兴趣内容是当用户想要获得相应的主题内容区域时最可能被用户注意到的。当接收到用户输入动作(例如手势)时，计算兴趣内容和用户手势之间的距离，并选择对应的一个或多个兴趣内容。最后，获取包括所选择的兴趣内容的主题内容区域。由于主题内容区域和兴趣内容的使用，可以在向用户提供有意义的内容的同时提高内容提取的准确度。

此外，相关技术仅仅能够处理文档中的每个单词，但是根据本发明的实施例的内容提取方法可以提取将用作构成主题内容区域的元素的语义单元。当用户想要选择显示文档中的内容时，在大多数情况下用户的目的是选择语义单元，从而所公开的内容提取方法可以向用户提供更完整的信息或内容。

此外，相关技术计算文本和手势的坐标的距离，但是根据本发明的实施例的内容提取方法可以计算兴趣内容和手势的坐标的距离。当用户与文档交互时，用户优选使用恰当且简单的手势，而不是指向文档中的每一个单词。相关技术可能不能返回精确的结果。相对照地，所公开的内容提取方法可以通过使用主题内容区域的兴趣内容来处理该问题。该功能对于低分辨率UI(用户界面)环境是特别希望的。

此外，根据本发明的实施例的内容提取方法可以向用户提供具有完整语义含义的所选主题内容区域，而不单纯是在不考虑含义的情况下的文档片段。并且，由于兴趣内容的使用，所公开的内容提取方法可以准确地提取用户想要选择的内容，而不单纯是靠近用户手势的单词。此外，基于主题内容区域和兴趣内容，使得用户能够使用较少的动作来选择他想要的内容。

上面描述了内容提取方法。接下来，将参考图13至15来描述根据本发明的实施例的内容提取装置和用于内容提取的系统。

如图13所示，内容提取装置1300包括区域提取单元1310、确定单元1320、识别单元1330和内容提取单元1340。区域提取单元1310可被配置为提取输入文档中的多个主题内容区域，其中每个主题内容区域由输入文档中的关于同一主题的一个或多个元素组成。确定单元1320可被配置为对于至少一部分主题内容区域中的每个主题内容区域，确定该主题内容区域的结构类型，其中所述结构类型通过该主题内容区域中包含的元素确定。识别单元1330可被配置为对于所述至少一部分主题内容区域中的每个主题内容区域，根据该主题内容区域的结构类型识别该主题内容区域中的兴趣内容，其中该主题内容区域中的兴趣内容指示该主题内容区域中最可能被用户注意的至少一个元素。内容提取单元1340可被配置为根据用户输入动作和所述至少一部分主题内容区域中的每个主题内容区域中的兴趣内容，提取响应于用户输入动作的主题内容区域。

区域提取单元1310、确定单元1320、识别单元1330和内容提取单元1340的上述和/或其他操作和功能可以参考上面关于步骤S210至S240的描述，为了避免重复在此不再赘述。

因为根据本发明的实施例的内容提取装置利用主题内容区域和兴趣内容来提取由用户选择的一个主题内容区域中的所有内容，因此可以在向用户提供有意义的内容的同时提高内容提取的准确度。

图14示出了根据本发明的实施例的内容提取装置1400的结构框图。内容提取装置1400中的区域提取单元1410、确定单元1420、识别单元1430和内容提取单元1440与内容提取装置1300中的区域提取单元1310、确定单元1320、识别单元1330和内容提取单元1340相似。以下的描述将主要集中在内容提取装置1400和内容提取装置1300之间的不同之处。

根据本发明的实施例，区域提取单元1410可以包括第一提取子单元1412、第二提取子单元1414和第三提取子单元1416中的至少一个。第一提取子单元1412可被配置为提取输入文档中由用户预先定义的主题内容区域。第二提取子单元1414可被配置为通过使用用户与输入文档之间的历史交互信息来提取输入文档中的主题内容区域。第三提取子单元1416可被配置为通过对输入文档进行解析来提取输入文档中的主题内容区域。例如，对输入文档进行解析可以包括：从输入文档提取语义单元，其中每个语义单元选自包含单词、短语、句子、段落、图片和表格中的至少一种的组；对所提取的语义单元进行排序；选择排序级别高于阈值的语义单元作为元素；以及根据元素之间的关系提取主题内容区域。

根据本发明的实施例，结构类型可以包括单信息强调型、比较强调型、群信息强调型和对应强调型中的至少一种。单信息强调型的主题内容区域可以包含一个元素。比较强调型的主题内容区域可以包含具有比较关系的多个元素。群信息强调型的主题内容区域可以包含与同一关键词关联的多个元素。对应强调型的主题内容区域可以包含指示文本及其对应图片和/或表格的多个元素。

根据本发明的实施例，确定单元1420可以包括提取子单元1422、计算子单元1424和确定子单元1426。提取子单元1422可被配置为提取该主题内容区域中包含的每个元素的词汇特征、上下文特征和篇章特征中的至少一种。计算子单元1424可被配置为根据所提取的词汇特征、上下文特征和篇章特征中的至少一种，计算该主题内容区域中包含的每两个元素之间的比较可能性和关联程度。确定子单元1426可被配置为根据比较可能性和关联程度来确定该主题内容区域的结构类型。

根据本发明的实施例，确定子单元1426可以包括第一确定部件1426-2、第二确定部件1426-4、第三确定部件1426-6和第四确定部件1426-8。第一确定部件1426-2可被配置为如果在该主题内容区域中存在比较可能性达到第一阈值的至少两个元素，则确定该主题内容区域为比较强调型的主题内容区域。第二确定部件1426-4可被配置为如果在该主题内容区域中不存在比较可能性达到第一阈值的至少两个元素、而存在与其它元素的关联程度低于第二阈值的元素，则确定该元素单独对应一个单信息强调型的主题内容区域。第三确定部件1426-6可被配置为如果在该主题内容区域中不存在比较可能性达到第一阈值的至少两个元素、并且不存在与其它元素的关联程度低于第二阈值的元素、并且该主题内容区域中的元素不包含图片和表格，则确定该主题内容区域为群信息强调型的主题内容区域。第四确定部件1426-8可被配置为如果在该主题内容区域中不存在比较可能性达到第一阈值的至少两个元素、并且不存在与其它元素的关联程度低于第二阈值的元素、并且该主题内容区域中的元素包含图片和/或表格，则确定该主题内容区域为对应强调型的主题内容区域。

根据本发明的实施例，识别单元1430可进一步被配置为在该主题内容区域中包含的元素中识别与所述结构类型对应的提示词和焦点词作为兴趣内容，其中所述提示词是用于反映结构类型的单词和/或短语，所述焦点词是由结构类型强调的单词和/或短语。

根据本发明的实施例，识别单元1430可以包括第一确定子单元1432、第二确定子单元1434、第三确定子单元1436和第四确定子单元1438中的至少一个。第一确定子单元1432可被配置为对于单信息强调型，将唯一一个元素确定为兴趣内容。第二确定子单元1434可被配置为对于比较强调型，将重复结构中包含的相同的单词和/或短语确定为提示词，并将重复结构中包含的其它单词和/或短语确定为焦点词。第三确定子单元1436可被配置为对于群信息强调型，将包含有专有名词的单词和/或短语确定为提示词，并将从该主题内容区域提取的元素中作为除了提示词之外的关键词的单词和/或短语确定为焦点词。第四确定子单元1438可被配置为对于对应强调型，将用于指示文本与图片和/或表格之间的对应关系的单词和/或短语确定为提示词，并将出现在该主题内容区域中的不同位置中的相同的单词和/或短语确定为焦点词。

根据本发明的实施例，识别提示词可以由第一识别部件和第二识别部件中的至少一个执行。第一识别部件可被配置为通过使用基于历史文档收集的历史提示词信息来识别输入文档中包含的提示词。第二识别部件可被配置为通过如下方式识别输入文档中包含的提示词：提取每个主题内容区域中的单词和/或短语；识别所提取的每个单词和/或短语所属于的类别类型；识别具有相同结构类型的主题内容区域共有的类别类型；以及在所述具有相同结构类型的主题内容区域中的每一个中将属于共有的类别类型的单词和/或短语确定为对应主题内容区域中的提示词。

根据本发明的实施例，第一识别部件可以包括获取子部件、排序子部件和构建子部件。获取子部件可被配置为获取历史文档中每种结构类型涉及的单词和/或短语。排序子部件可被配置为对所获取的每种结构类型涉及的单词和/或短语进行排序。构建子部件可被配置为通过使用排序级别高于阈值的单词和/或短语来构建对应结构类型的历史提示词信息。

根据本发明的实施例，内容提取单元1440可以包括第一内容提取子单元1442、第二内容提取子单元1444和第三内容提取子单元1446中的至少一个。第一内容提取子单元1442可被配置为将具有最多个数的与用户输入动作的轨迹重叠的兴趣内容的主题内容区域确定为响应于用户输入动作的主题内容区域以供提取。第二内容提取子单元1444可被配置为将具有与用户输入动作输入的信息对应的兴趣内容的主题内容区域确定为响应于用户输入动作的主题内容区域以供提取。第三内容提取子单元1446可被配置为根据用户输入动作的位置和所述至少一部分主题内容区域中的每个主题内容区域中的兴趣内容的位置之间的距离，提取响应于用户输入动作的主题内容区域。

根据本发明的实施例，所述用户输入动作的位置和所述至少一部分主题内容区域中的每个主题内容区域中的兴趣内容的位置之间的距离可以是通过如下方式确定的：检测与用户输入动作对应的坐标位置和与该主题内容区域中的兴趣内容对应的坐标位置；如果由与用户输入动作对应的坐标位置构成的范围和由与该主题内容区域中的兴趣内容对应的坐标位置构成的范围存在重叠，则确定用户输入动作的位置和该主题内容区域中的兴趣内容的位置之间的距离为零；以及如果由与用户输入动作对应的坐标位置构成的范围和由与该主题内容区域中的兴趣内容对应的坐标位置构成的范围不存在重叠，则通过使用与用户输入动作对应的坐标位置中的至少一个和与该主题内容区域中的兴趣内容对应的坐标位置中的至少一个来计算用户输入动作的位置和该主题内容区域中的兴趣内容的位置之间的距离。

根据本发明的实施例，内容提取装置1400还可以包括校正单元1460。校正单元1460可被配置为根据接收用户输入动作的设备的分辨率误差来校正用户输入动作的位置，以根据用户输入动作的校正后的位置和所述至少一部分主题内容区域中的每个主题内容区域中的兴趣内容的位置之间的距离来提取响应于用户输入动作的主题内容区域。

根据本发明的实施例，第三内容提取子单元1446可以包括第一内容提取部件1446-2和第二内容提取部件1446-4中的至少一个。第一内容提取部件1446-2可被配置为将具有最多个数的与用户输入动作的位置的距离为零的兴趣内容的主题内容区域确定为响应于用户输入动作的主题内容区域。第二内容提取部件1446-4可被配置为将其中所有兴趣内容的位置中的每一个与用户输入动作的位置之间的距离的平均值最小的主题内容区域确定为响应于用户输入动作的主题内容区域。

根据本发明的实施例，用户输入动作的位置可以是通过如下方式中的至少一种获取的：检测用户输入动作的速度，并将速度低于第一预定值的用户输入动作所对应的位置确定为用户输入动作的位置；以及检测用户输入动作中具有重叠轨迹的动作部分的重复次数，并将重复次数高于第二预定值的动作部分所对应的位置确定为用户输入动作的位置。

根据本发明的实施例，第三内容提取子单元1446可以包括检测部件1446-7、第三内容提取部件1446-8和第四内容提取部件1446-9。检测部件1446-7可被配置为检测用户输入动作的速度。第三内容提取部件1446-8可被配置为如果用户输入动作的速度低于阈值，则提取与用户输入动作的位置具有最小距离的内容作为用于向用户输出的内容。第四内容提取部件1446-9可被配置为如果用户输入动作的速度不低于该阈值，则根据用户输入动作的位置和所述至少一部分主题内容区域中的每个主题内容区域中包含的兴趣内容的位置之间的距离，提取响应于用户输入动作的主题内容区域。

根据本发明的实施例，内容提取装置1400还可以包括输出单元1480、修改单元1490和保存单元1495中的至少一个。输出单元1480可被配置为以高亮显示、尺寸改变和颜色变化中的至少一种方式对响应于用户输入动作的主题内容区域进行输出。修改单元1490可被配置为对响应于用户输入动作的主题内容区域进行编辑或添加评论。保存单元1495可被配置为将响应于用户输入动作的主题内容区域呈现或保存在用户指定的位置中。

上述单元、子单元、部件和子部件的上述和/或其他操作和功能参考图2至13进行了具体描述，为了避免重复，在此不再赘述。

此外，所有上述单元、子单元、部件和子部件可以由不同处理器的任何组合实现，或者可以由单个处理器实现。可替代地，它们中的一些可以由一个处理器实现，同时它们中的一些可以由另一处理器实现。可替代地，所有上述单元、子单元、部件和子部件可以由特定电路或者电路和处理器的组合实现。内容提取装置1300和1400可以是单个设备或者通过网络进行通信的多个设备，或者可以由一个服务器或通过网络进行通信的多个服务器托管。本发明不限制内容提取装置以及所有上述单元、子单元、部件和子部件的具体形式。能够实现所限定的操作或功能的所有形式落入本发明的范围内。

在图15中示出了根据本发明的实施例的用于内容提取的系统1500的结构框图。系统1500可以包括文档获取装置1510和内容提取装置1520。文档获取装置1510可以被配置为获取输入文档。内容提取装置1520可以被配置为在输入文档中提取响应于用户输入动作的主题内容区域。内容提取装置1520可以是内容提取装置1300，或者可以是内容提取装置1400。文档获取装置1510和内容提取装置1520可以存在于不同的设备中，或者可以存在于同一设备中。当文档获取装置1510和内容提取装置1520存在于不同的设备中时，文档获取装置1510可以向内容提取装置1520传送输入文档，然后内容提取装置1520可以基于所接收的用户输入动作和所识别的兴趣内容的匹配程度来提取所希望的一个主题内容区域，使得内容提取准确度可以得以提高。由于主题内容区域具有可以被用户理解的完整含义，所以所提取的主题内容区域可以向用户提供有意义的内容。

可以通过许多方式来实施本发明的方法和设备。例如，可以通过软件、硬件、固件、或其任何组合来实施本发明的方法和设备。上述的方法步骤的次序仅是说明性的，本发明的方法步骤不限于以上具体描述的次序，除非以其他方式明确说明。此外，在一些实施例中，本发明还可以被实施为记录在记录介质中的程序，其包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于实现根据本发明的方法的程序的记录介质。

虽然已通过示例详细展示了本发明的一些具体实施例，但是本领域技术人员应当理解，上述示例仅意图是说明性的而不限制本发明的范围。本领域技术人员应该理解，上述实施例可以被修改而不脱离本发明的范围和实质。本发明的范围是通过所附的权利要求限定的。

Claims

1.一种内容提取方法，包括：

提取输入文档中的多个主题内容区域，其中每个主题内容区域由输入文档中的关于同一主题的一个或多个元素组成；

对于至少一部分主题内容区域中的每个主题内容区域，确定该主题内容区域的结构类型，其中所述结构类型通过该主题内容区域中包含的元素确定；

对于所述至少一部分主题内容区域中的每个主题内容区域，根据该主题内容区域的结构类型识别该主题内容区域中的兴趣内容，其中该主题内容区域中的兴趣内容指示该主题内容区域中最可能被用户注意的至少一个元素；以及

根据用户输入动作和所述至少一部分主题内容区域中的每个主题内容区域中的兴趣内容，提取响应于用户输入动作的主题内容区域。

2.根据权利要求1所述的内容提取方法，其中，所述提取输入文档中的多个主题内容区域包括如下至少一种：

提取输入文档中由用户预先定义的主题内容区域；

通过使用用户与输入文档之间的历史交互信息来提取输入文档中的主题内容区域；以及

通过对输入文档进行解析来提取输入文档中的主题内容区域，其中所述对输入文档进行解析包括：

从输入文档提取语义单元，其中每个语义单元选自包含单词、短语、句子、段落、图片和表格中的至少一种的组；

对所提取的语义单元进行排序；

选择排序级别高于阈值的语义单元作为元素；以及

根据元素之间的关系提取主题内容区域。

3.根据权利要求1所述的内容提取方法，其中，所述结构类型包括如下至少一种：

单信息强调型，单信息强调型的主题内容区域包含一个元素；

比较强调型，比较强调型的主题内容区域包含具有比较关系的多个元素；

群信息强调型，群信息强调型的主题内容区域包含与同一关键词关联的多个元素；以及

对应强调型，对应强调型的主题内容区域包含指示文本及其对应图片和/或表格的多个元素。

4.根据权利要求1或3所述的内容提取方法，其中，所述确定该主题内容区域的结构类型包括：

提取该主题内容区域中包含的每个元素的词汇特征、上下文特征和篇章特征中的至少一种；

根据所提取的词汇特征、上下文特征和篇章特征中的至少一种，计算该主题内容区域中包含的每两个元素之间的比较可能性和关联程度；以及

根据比较可能性和关联程度来确定该主题内容区域的结构类型。

5.根据权利要求4所述的内容提取方法，其中，所述根据比较可能性和关联程度来确定该主题内容区域的结构类型包括：

如果在该主题内容区域中存在比较可能性达到第一阈值的至少两个元素，则确定该主题内容区域为比较强调型的主题内容区域；

如果在该主题内容区域中不存在比较可能性达到第一阈值的至少两个元素、而存在与其它元素的关联程度低于第二阈值的元素，则确定该元素单独对应一个单信息强调型的主题内容区域；

如果在该主题内容区域中不存在比较可能性达到第一阈值的至少两个元素、并且不存在与其它元素的关联程度低于第二阈值的元素、并且该主题内容区域中的元素不包含图片和表格，则确定该主题内容区域为群信息强调型的主题内容区域；以及

如果在该主题内容区域中不存在比较可能性达到第一阈值的至少两个元素、并且不存在与其它元素的关联程度低于第二阈值的元素、并且该主题内容区域中的元素包含图片和/或表格，则确定该主题内容区域为对应强调型的主题内容区域。

6.根据权利要求1或3所述的内容提取方法，其中，所述根据该主题内容区域的结构类型识别该主题内容区域中的兴趣内容包括：

在该主题内容区域中包含的元素中识别与所述结构类型对应的提示词和焦点词作为兴趣内容，其中所述提示词是用于反映结构类型的单词和/或短语，所述焦点词是由结构类型强调的单词和/或短语。

7.根据权利要求6所述的内容提取方法，其中，所述根据该主题内容区域的结构类型识别该主题内容区域中的兴趣内容包括如下至少一种：

对于单信息强调型，将唯一一个元素确定为兴趣内容；

对于比较强调型，将重复结构中包含的相同的单词和/或短语确定为提示词，并将重复结构中包含的其它单词和/或短语确定为焦点词；

对于群信息强调型，将包含有专有名词的单词和/或短语确定为提示词，并将从该主题内容区域提取的元素中作为除了提示词之外的关键词的单词和/或短语确定为焦点词；以及

对于对应强调型，将用于指示文本与图片和/或表格之间的对应关系的单词和/或短语确定为提示词，并将出现在该主题内容区域中的不同位置中的相同的单词和/或短语确定为焦点词。

8.根据权利要求6所述的内容提取方法，其中，识别提示词包括如下至少一种：

通过使用基于历史文档收集的历史提示词信息来识别输入文档中包含的提示词；

通过如下方式识别输入文档中包含的提示词：

提取每个主题内容区域中的单词和/或短语；

识别所提取的每个单词和/或短语所属于的类别类型；

识别具有相同结构类型的主题内容区域共有的类别类型；以及

在所述具有相同结构类型的主题内容区域中的每一个中将属于所述共有的类别类型的单词和/或短语确定为对应主题内容区域中的提示词。

9.根据权利要求8所述的内容提取方法，其中，所述通过使用基于历史文档收集的历史提示词信息来识别输入文档中包含的提示词包括：

获取历史文档中每种结构类型涉及的单词和/或短语；

对所获取的每种结构类型涉及的单词和/或短语进行排序；以及

通过使用排序级别高于阈值的单词和/或短语来构建对应结构类型的历史提示词信息。

10.根据权利要求1所述的内容提取方法，其中，所述根据用户输入动作和所述至少一部分主题内容区域中的每个主题内容区域中的兴趣内容、提取响应于用户输入动作的主题内容区域包括如下至少一种：

将具有最多个数的与用户输入动作的轨迹重叠的兴趣内容的主题内容区域确定为响应于用户输入动作的主题内容区域以供提取；

将具有与用户输入动作输入的信息对应的兴趣内容的主题内容区域确定为响应于用户输入动作的主题内容区域以供提取；以及

根据用户输入动作的位置和所述至少一部分主题内容区域中的每个主题内容区域中的兴趣内容的位置之间的距离，提取响应于用户输入动作的主题内容区域。

11.根据权利要求10所述的内容提取方法，还包括：

根据接收用户输入动作的设备的分辨率误差来校正用户输入动作的位置，以根据用户输入动作的校正后的位置和所述至少一部分主题内容区域中的每个主题内容区域中的兴趣内容的位置之间的距离来提取响应于用户输入动作的主题内容区域。

12.根据权利要求10所述的内容提取方法，其中，所述根据用户输入动作的位置和所述至少一部分主题内容区域中的每个主题内容区域中的兴趣内容的位置之间的距离、提取响应于用户输入动作的主题内容区域包括如下一种：

将具有最多个数的与用户输入动作的位置的距离为零的兴趣内容的主题内容区域确定为响应于用户输入动作的主题内容区域；以及

将其中所有兴趣内容的位置中的每一个与用户输入动作的位置之间的距离的平均值最小的主题内容区域确定为响应于用户输入动作的主题内容区域。

13.根据权利要求10所述的内容提取方法，其中，所述根据用户输入动作的位置和所述至少一部分主题内容区域中的每个主题内容区域中的兴趣内容的位置之间的距离、提取响应于用户输入动作的主题内容区域包括：

检测用户输入动作的速度；

如果用户输入动作的速度低于阈值，则提取与用户输入动作的位置具有最小距离的内容作为用于向用户输出的内容；以及

如果用户输入动作的速度不低于该阈值，则根据用户输入动作的位置和所述至少一部分主题内容区域中的每个主题内容区域中包含的兴趣内容的位置之间的距离，提取响应于用户输入动作的主题内容区域。

14.根据权利要求10所述的内容提取方法，其中，所述用户输入动作的位置和所述至少一部分主题内容区域中的每个主题内容区域中的兴趣内容的位置之间的距离是通过如下方式确定的：

检测与用户输入动作对应的坐标位置和与该主题内容区域中的兴趣内容对应的坐标位置；

如果由与用户输入动作对应的坐标位置构成的范围和由与该主题内容区域中的兴趣内容对应的坐标位置构成的范围存在重叠，则确定用户输入动作的位置和该主题内容区域中的兴趣内容的位置之间的距离为零；以及

如果由与用户输入动作对应的坐标位置构成的范围和由与该主题内容区域中的兴趣内容对应的坐标位置构成的范围不存在重叠，则通过使用与用户输入动作对应的坐标位置中的至少一个和与该主题内容区域中的兴趣内容对应的坐标位置中的至少一个来计算用户输入动作的位置和该主题内容区域中的兴趣内容的位置之间的距离。

15.根据权利要求10所述的内容提取方法，其中，用户输入动作的位置是通过如下方式中的至少一种获取的：

检测用户输入动作的速度，并将速度低于第一预定值的用户输入动作所对应的位置确定为用户输入动作的位置；以及

检测用户输入动作中具有重叠轨迹的动作部分的重复次数，并将重复次数高于第二预定值的动作部分所对应的位置确定为用户输入动作的位置。

16.根据权利要求1所述的内容提取方法，还包括如下至少一种：

以高亮显示、尺寸改变和颜色变化中的至少一种方式对响应于用户输入动作的主题内容区域进行输出；

对响应于用户输入动作的主题内容区域进行编辑或添加评论；以及

将响应于用户输入动作的主题内容区域呈现或保存在用户指定的位置中。

17.一种内容提取装置，包括：

区域提取单元，被配置为提取输入文档中的多个主题内容区域，其中每个主题内容区域由输入文档中的关于同一主题的一个或多个元素组成；

确定单元，被配置为对于至少一部分主题内容区域中的每个主题内容区域，确定该主题内容区域的结构类型，其中所述结构类型通过该主题内容区域中包含的元素确定；

识别单元，被配置为对于所述至少一部分主题内容区域中的每个主题内容区域，根据该主题内容区域的结构类型识别该主题内容区域中的兴趣内容，其中该主题内容区域中的兴趣内容指示该主题内容区域中最可能被用户注意的至少一个元素；以及

内容提取单元，被配置为根据用户输入动作和所述至少一部分主题内容区域中的每个主题内容区域中的兴趣内容，提取响应于用户输入动作的主题内容区域。

18.根据权利要求17所述的内容提取装置，其中，所述区域提取单元包括第一提取子单元、第二提取子单元和第三提取子单元中的至少一个，其中

第一提取子单元被配置为提取输入文档中由用户预先定义的主题内容区域；

第二提取子单元被配置为通过使用用户与输入文档之间的历史交互信息来提取输入文档中的主题内容区域；以及

第三提取子单元被配置为通过对输入文档进行解析来提取输入文档中的主题内容区域，其中所述对输入文档进行解析包括：

对所提取的语义单元进行排序；

选择排序级别高于阈值的语义单元作为元素；以及

根据元素之间的关系提取主题内容区域。

19.根据权利要求17所述的内容提取装置，其中，所述结构类型包括如下至少一种：

20.根据权利要求17或19所述的内容提取装置，其中，所述确定单元包括：

提取子单元，被配置为提取该主题内容区域中包含的每个元素的词汇特征、上下文特征和篇章特征中的至少一种；

计算子单元，被配置为根据所提取的词汇特征、上下文特征和篇章特征中的至少一种，计算该主题内容区域中包含的每两个元素之间的比较可能性和关联程度；以及

确定子单元，被配置为根据比较可能性和关联程度来确定该主题内容区域的结构类型。

21.根据权利要求20所述的内容提取装置，其中，所述确定子单元包括：

第一确定部件，被配置为如果在该主题内容区域中存在比较可能性达到第一阈值的至少两个元素，则确定该主题内容区域为比较强调型的主题内容区域；

第二确定部件，被配置为如果在该主题内容区域中不存在比较可能性达到第一阈值的至少两个元素、而存在与其它元素的关联程度低于第二阈值的元素，则确定该元素单独对应一个单信息强调型的主题内容区域；

第三确定部件，被配置为如果在该主题内容区域中不存在比较可能性达到第一阈值的至少两个元素、并且不存在与其它元素的关联程度低于第二阈值的元素、并且该主题内容区域中的元素不包含图片和表格，则确定该主题内容区域为群信息强调型的主题内容区域；以及

第四确定部件，被配置为如果在该主题内容区域中不存在比较可能性达到第一阈值的至少两个元素、并且不存在与其它元素的关联程度低于第二阈值的元素、并且该主题内容区域中的元素包含图片和/或表格，则确定该主题内容区域为对应强调型的主题内容区域。

22.根据权利要求17或19所述的内容提取装置，其中，所述识别单元进一步被配置为在该主题内容区域中包含的元素中识别与所述结构类型对应的提示词和焦点词作为兴趣内容，其中所述提示词是用于反映结构类型的单词和/或短语，所述焦点词是由结构类型强调的单词和/或短语。

23.根据权利要求22所述的内容提取装置，其中，所述识别单元包括第一确定子单元、第二确定子单元、第三确定子单元和第四确定子单元中的至少一个，其中

第一确定子单元被配置为对于单信息强调型，将唯一一个元素确定为兴趣内容；

第二确定子单元被配置为对于比较强调型，将重复结构中包含的相同的单词和/或短语确定为提示词，并将重复结构中包含的其它单词和/或短语确定为焦点词；

第三确定子单元被配置为对于群信息强调型，将包含有专有名词的单词和/或短语确定为提示词，并将从该主题内容区域提取的元素中作为除了提示词之外的关键词的单词和/或短语确定为焦点词；以及

第四确定子单元被配置为对于对应强调型，将用于指示文本与图片和/或表格之间的对应关系的单词和/或短语确定为提示词，并将出现在该主题内容区域中的不同位置中的相同的单词和/或短语确定为焦点词。

24.根据权利要求22所述的内容提取装置，其中，识别提示词由第一识别部件和第二识别部件中的至少一个执行，其中

第一识别部件被配置为通过使用基于历史文档收集的历史提示词信息来识别输入文档中包含的提示词；

第二识别部件被配置为通过如下方式识别输入文档中包含的提示词：

提取每个主题内容区域中的单词和/或短语；

识别所提取的每个单词和/或短语所属于的类别类型；

25.根据权利要求24所述的内容提取装置，其中，所述第一识别部件包括：

获取子部件，被配置为获取历史文档中每种结构类型涉及的单词和/或短语；

排序子部件，被配置为对所获取的每种结构类型涉及的单词和/或短语进行排序；以及

构建子部件，被配置为通过使用排序级别高于阈值的单词和/或短语来构建对应结构类型的历史提示词信息。

26.根据权利要求17所述的内容提取装置，其中，所述内容提取单元包括第一内容提取子单元、第二内容提取子单元和第三内容提取子单元中的至少一个，其中

第一内容提取子单元被配置为将具有最多个数的与用户输入动作的轨迹重叠的兴趣内容的主题内容区域确定为响应于用户输入动作的主题内容区域以供提取；

第二内容提取子单元被配置为将具有与用户输入动作输入的信息对应的兴趣内容的主题内容区域确定为响应于用户输入动作的主题内容区域以供提取；以及

第三内容提取子单元被配置为根据用户输入动作的位置和所述至少一部分主题内容区域中的每个主题内容区域中的兴趣内容的位置之间的距离，提取响应于用户输入动作的主题内容区域。

27.根据权利要求26所述的内容提取装置，还包括：

校正单元，被配置为根据接收用户输入动作的设备的分辨率误差来校正用户输入动作的位置，以根据用户输入动作的校正后的位置和所述至少一部分主题内容区域中的每个主题内容区域中的兴趣内容的位置之间的距离来提取响应于用户输入动作的主题内容区域。

28.根据权利要求26所述的内容提取装置，其中，所述第三内容提取子单元包括第一内容提取部件和第二内容提取部件中的至少一个，其中

第一内容提取部件被配置为将具有最多个数的与用户输入动作的位置的距离为零的兴趣内容的主题内容区域确定为响应于用户输入动作的主题内容区域；以及

第二内容提取部件被配置为将其中所有兴趣内容的位置中的每一个与用户输入动作的位置之间的距离的平均值最小的主题内容区域确定为响应于用户输入动作的主题内容区域。

29.根据权利要求26所述的内容提取装置，其中，所述第三内容提取子单元包括：

检测部件，被配置为检测用户输入动作的速度；

第三内容提取部件，被配置为如果用户输入动作的速度低于阈值，则提取与用户输入动作的位置具有最小距离的内容作为用于向用户输出的内容；以及

第四内容提取部件，被配置为如果用户输入动作的速度不低于该阈值，则根据用户输入动作的位置和所述至少一部分主题内容区域中的每个主题内容区域中包含的兴趣内容的位置之间的距离，提取响应于用户输入动作的主题内容区域。

30.根据权利要求26所述的内容提取装置，其中，所述用户输入动作的位置和所述至少一部分主题内容区域中的每个主题内容区域中的兴趣内容的位置之间的距离是通过如下方式确定的：

31.根据权利要求26所述的内容提取装置，其中，用户输入动作的位置是通过如下方式中的至少一种获取的：

32.根据权利要求17所述的内容提取装置，还包括输出单元、修改单元和保存单元中的至少一个，其中

输出单元被配置为以高亮显示、尺寸改变和颜色变化中的至少一种方式对响应于用户输入动作的主题内容区域进行输出；

修改单元被配置为对响应于用户输入动作的主题内容区域进行编辑或添加评论；以及

保存单元被配置为将响应于用户输入动作的主题内容区域呈现或保存在用户指定的位置中。

33.一种用于内容提取的系统，包括：

文档获取装置，被配置为获取输入文档；以及

根据权利要求17至32中任一项所述的内容提取装置。