CN113033163A

CN113033163A - 一种数据处理方法、装置和电子设备

Info

Publication number: CN113033163A
Application number: CN202110316373.XA
Authority: CN
Inventors: 杨鹏; 涂曼姝; 龚能
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2021-03-24
Filing date: 2021-03-24
Publication date: 2021-06-25
Anticipated expiration: 2041-03-24
Also published as: CN113033163B

Abstract

本发明实施例提供了一种数据处理方法、装置和电子设备，其中，所述方法包括：获取待处理文本；对所述待处理文本进行分段处理，得到多个文本段落；依据预设的摘要确定模型分别确定各文本段落对应的摘要；由于摘要确定模型提取出的摘要涵盖了文本资料的关键信息，且相对于关键词而言，摘要包含的信息量更多，进而基于提取出的摘要，用户能够快速的获取文本资料中更多有价值的信息。

Description

一种数据处理方法、装置和电子设备

技术领域

本发明涉及数据处理技术领域，特别是涉及一种数据处理方法、装置和电子设备。

背景技术

随着互联网的快速发展，互联网已经成为了人们获取信息的主要渠道；而随着信息时代的发展，互联网上的电子文档的数量也正急剧增长。面对越来越多的文本资料，如何有效的阅读和筛选有价值的信息已经成为我们关注的重点。

为了能够使得用户能够快速的获取文档资料中有价值的信息，现有技术通常会从文本资料中提取关键词提供给用户。然而关键词本身的信息量是有限的，因此用户通过关键词能够获取到的有价值的信息也是有限的。

发明内容

本发明实施例提供一种数据处理方法，以从文本资料中提取出准确的摘要，使得用户通过摘要能够快速的获取文本资料中更多有价值的信息。

相应的，本发明实施例还提供了一种数据处理装置和一种电子设备，用以保证上述方法的实现及应用。

为了解决上述问题，本发明实施例公开了一种数据处理方法，具体包括：获取待处理文本；对所述待处理文本进行分段处理，得到多个文本段落；依据预设的摘要确定模型分别确定各文本段落对应的摘要。

可选地，所述对待处理文本进行分段处理，得到多个文本段落，包括：统计所述待处理文本的全文关键词，并构建所述全文关键词的词汇链；依次从所述待处理文本中确定长度相同的两个相邻语句，得到多个语句对；针对每个语句对，依据所述词汇链确定所述语句对中两个相邻语句的差异信息；若所述差异信息大于或者等于差异阈值，则从所述语句对中两个相邻语句连接处进行分段。

可选地，所述依据预设的摘要确定模型分别确定各文本段落对应的摘要，包括：针对每一文本段落，将所述文本段落输入至所述摘要确定模型中，由所述摘要确定模型输出包含至少一个语句的摘要；其中，所述语句包括完整句子和/或不完整句子。

可选地，所述的方法还包括：对各文本段落对应的摘要与其他文本进行区别显示；所述其他文本是所述待处理文本中除摘要之外的文本。

可选地，所述对各文本段落对应的摘要与其他文本进行区别显示，包括：查找预设的反向索引，确定所述摘要在所述待处理文本中的位置；基于所述摘要在待处理文本中的位置，对所述摘要与其他文本进行区别显示。

可选地，所述获取待处理文本，包括：获取录音音频数据；对所述录音音频数据进行语音识别，得到待处理文本。

可选地，所述获取待处理文本，包括：获取原语言文本；将所述原语言文本翻译为目标语言文本，得到待处理文本。

可选地，所述获取待处理文本，包括：获取所述网页中网页内容作为待处理文本。

可选地，所述获取待处理文本，包括：接收用户在当前界面中执行的摘要查看操作；获取当前界面中的文本作为待处理文本。

本发明实施例还公开了一种数据处理装置，具体包括：获取模块，用于获取待处理文本；分段模块，用于对所述待处理文本进行分段处理，得到多个文本段落；摘要确定模块，用于依据预设的摘要确定模型分别确定各文本段落对应的摘要。

可选地，所述分段模块，包括：词汇链构建子模块，用于统计所述待处理文本的全文关键词，并构建所述全文关键词的词汇链；语句确定子模块，用于依次从所述待处理文本中确定长度相同的两个相邻语句，得到多个语句对；差异信息确定子模块，用于针对每个语句对，依据所述词汇链确定所述语句对中两个相邻语句的差异信息；文本分段子模块，用于若所述差异信息大于或者等于差异阈值，则从所述语句对中两个相邻语句连接处进行分段。

可选地，所述摘要确定模块，用于针对每一文本段落，将所述文本段落输入至所述摘要确定模型中，由所述摘要确定模型输出包含至少一个语句的摘要；其中，所述语句包括完整句子和/或不完整句子。

可选地，所述的装置还包括：显示模块，用于对各文本段落对应的摘要与其他文本进行区别显示；所述其他文本是所述待处理文本中除摘要之外的文本。

可选地，所述显示模块，包括：位置确定子模块，用于查找预设的反向索引，确定所述摘要在所述待处理文本中的位置；区别显示子模块，用于基于所述摘要在待处理文本中的位置，对所述摘要与其他文本进行区别显示。

可选地，所述获取模块，包括：录音文本获取子模块，用于获取录音音频数据；对所述录音音频数据进行语音识别，得到待处理文本。

可选地，所述获取模块，包括：翻译文本获取子模块，用于获取原语言文本；将所述原语言文本翻译为目标语言文本，得到待处理文本。

可选地，所述获取模块包括：网页文本获取子模块，用于获取所述网页中网页内容作为待处理文本。

可选地，所述获取模块，包括：界面文本获取子模块，用于接收用户在当前界面中执行的摘要查看操作；获取当前界面中的文本作为待处理文本。

本发明实施例还公开了一种可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如本发明实施例任一所述的数据处理方法。

本发明实施例还公开了一种电子设备，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：获取待处理文本；对所述待处理文本进行分段处理，得到多个文本段落；依据预设的摘要确定模型分别确定各文本段落对应的摘要。

可选地，还包含用于进行以下操作的指令：对各文本段落对应的摘要与其他文本进行区别显示；所述其他文本是所述待处理文本中除摘要之外的文本。

本发明实施例包括以下优点：

本发明实施例中，在获取待处理文本后，可以对待处理文本进行分段处理，得到多个文本段落；然后依据预设的摘要确定模型分别确定各文本段落对应的摘要；由于摘要确定模型提取出的摘要涵盖了文本资料的关键信息，且相对于关键词而言，摘要包含的信息量更多，进而基于提取出的摘要，用户能够快速的获取文本资料中更多有价值的信息。

附图说明

图1是本发明的一种数据处理方法实施例的步骤流程图；

图2是本发明的一种数据处理方法可选实施例的步骤流程图；

图3是本发明实施例的一种显示待处理文本中摘要的示意图；

图4是本发明的一种数据处理装置实施例的结构框图；

图5是本发明的一种数据处理装置可选实施例的结构框图；

图6根据一示例性实施例示出的一种用于数据处理的电子设备的结构框图；

图7是本发明根据另一示例性实施例示出的一种用于数据处理的电子设备的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明实施例的核心构思之一是，先对文本进行分段，然后基于预设的摘要确定模型为每段文本段落，确定出准确的摘要；使得用户通过摘要能够快速的获取文本资料中更多有价值的信息。

参照图1，示出了本发明的一种数据处理方法实施例的步骤流程图，具体可以包括如下步骤：

步骤102、获取待处理文本。

本发明实施例中，当需要为某篇文本确定摘要时，可以获取该篇文本，然后执行步骤104～步骤106，确定该文本的摘要。

其中，为了便于说明，可以将需要确定摘要的文本称为待处理文本。

其中，所述待处理文本可以是指包含的文本数大于设定值的文本；所述设定值可以按照需求设置，本发明实施例对此不作限制。

其中，所述待处理文本可以是各种语种的文本，如英文文本、中文文本、韩文文本；也可以如中英文混合文本，等等；本发明实施例对此不作限制。当然，所述待处理文本也可以是各种类型的文本，如网页中的网页内容、录音文本、翻译文本等等，本发明实施例对此也不作限制。

步骤104、对待处理文本进行分段处理，得到多个文本段落。

步骤106、依据预设的摘要确定模型分别确定各文本段落对应的摘要。

本发明实施例中，可以预先训练摘要确定模型；然后采用摘要确定模型对待处理文本进行处理，来确定出待处理文本的摘要。其中，摘要确定模型的训练方法可以在后续进行说明。

由于摘要确定模型无法对长文本进行处理，确定对应的摘要；因此可以在获取到待处理文本后，对待处理文本进行分段处理，将待处理文本划分为多个文本段落。然后再采用训练后的摘要确定模型依次对这多个文本段落进行处理，确定各文本段落对应的摘要。相对于关键词而言，摘要包含的信息量更多，进而基于提取出的摘要，用户能够快速的获取文本资料中更多有价值的信息。

综上，本发明实施例中，在获取待处理文本后，可以对待处理文本进行分段处理，得到多个文本段落；然后依据预设的摘要确定模型分别确定各文本段落对应的摘要；由于摘要确定模型提取出的摘要涵盖了文本资料的关键信息，且相对于关键词而言，摘要包含的信息量更多，进而基于提取出的摘要，用户能够快速的获取文本资料中更多有价值的信息。

其中，可以参照如下步骤X22～步骤X26，对摘要确定模型进行训练：

步骤X22、收集训练样本，所述训练样本包括多个，每个训练样本包括一段文本。

一个示例中，可以从网页中获取网页内容，然后对该网页内容进行分段，得到多段文本；再将一段文本作为一个训练样本。所述网页可以是各种类型的网页，如体育类网页、娱乐类网页、新闻类网页、房产类网页等等，可以按照需求确定，本发明实施例对此不作限制。

另一个示例中，可以从电子版的书籍中获取多段文本，并将每一段文本作为一个训练样本。其中，所述书籍的类型也可以包括多种，如计算机类、电子类、医学类、文学类、金融类等等，以按照需求确定，本发明实施例对此不作限制。

当然还可以获取录音文本、翻译文本等，从这些文本中收集训练样本；本发明实施例对此不作限制。

步骤X24、确定训练样本的对应的样本标签。

本发明实施例中，针对每个训练样本，可以对该训练样本进行分析，确定该训练样本的摘要；然后将该训练样本的摘要作为该训练样本的样本标签。其中，针对一个训练样本，可以对该训练样本包含的文本进行分析，将该文本中部分语句作为该文本的摘要。

步骤X26、基于所述训练样本和对应的样本标签，对摘要确定模型进行训练。

然后可以采用多个训练样本和对应的样本标签，对摘要确定模型进行训练。针对每一个训练样本，可以将该训练样本和样本标签输入至摘要确定模型中，由该摘要确定模型基于该训练样本进行前向计算，输出对应的摘要。其中，摘要确定模型输出的摘要是从训练样本中选取的。然后将其输出的摘要与该训练样本的样本标签进行对比，对其模型参数进行调整。

本发明的一个可续实施例中，可以将摘要确定模型的输出，设置为以语句为单位的输出。其中，一个示例中，所述语句可以是指处于相邻的两个句末标点符号之间的语句，即摘要确定模型输出的摘要中每个语句都是一个完整的句子；如两个句号之间的语句，一个感叹号和一个句号之间的语句等等。另一个示例中，所述语句可以是指两个相邻的标点符号之间的语句，即摘要确定模型输出的摘要中的语句可以一个完整的句子，也可以是一个不完整的句子；例如两个逗号之间的语句，两个顿号之间的语句、逗号和句号之间的语句等等。进而避免将包含多个分句的完整句子中没有价值的分句确定为摘要，能够进一步提高后续采用摘要确定模型提取摘要的准确性。

本发明实施例中，在确定待处理文本中各文本段落对应的摘要后，还可以对摘要与其他文本进行区别显示，以便用户快速阅读摘要，从而快速获取待处理文本中有价值的信息。

参照图2，示出了本发明的一种数据处理方法可选实施例的步骤流程图，具体可以包括如下步骤：

步骤202、获取待处理文本。

很多情况下，需要对录音音频数据进行整理，整理成录音文本；当录音文本较长时，用户很难从中获取有价值的信息。因此本发明实施例的一个应用场景可以是，提取录音文本的摘要，便于用户能够快速的从录音文本中获取有价值的信息。对应的，一种获取待处理文本的方式可以包括如下子步骤 S22～子步骤S24：

子步骤S22、获取录音音频数据。

子步骤S24、对所述录音音频数据进行语音识别，得到待处理文本。

其中，可以从录音设备如录音笔，或移动终端中获取历史录音得到的录音音频数据。然后可以对录音音频数据进行语音识别，得到对应的语音识别文本；然后可以将该语音识别文本确定为待处理文本。

很多情况下用户可能需要对文本进行翻译，再阅读翻译得到的翻译文本。当翻译文本较长时，用户很难从中获取有价值的信息。因此本发明实施例的一个应用场景可以是，提取翻译文本的摘要，便于用户能够快速的从翻译文本中获取有价值的信息。对应的，一种获取待处理文本的方式可以包括如下子步骤S42～子步骤S44：

子步骤S42、获取原语言文本。

子步骤S44、将所述原语言文本翻译为目标语言文本，得到待处理文本。

本发明实施例中，获取原语言文本的方式可以包括多种，如从网页中获取网页内容作为原语言文本，又如从电子书籍中获取原语言文本；又如获取录音音频数据，通过对录音音频数据进行识别，得到原语言文本。

然后可以获取用户所要求的目标语言，并将原语言文本翻译为目标语言的文本，即翻译文本；再将该翻译文本作为待处理文本。

在搜索场景或者信息浏览的场景中，用户往往需要看完某个网页中的内容，才能够知道该网页是否是用户自身所需的网页；因此为了提高用户的搜索效率、浏览效率，本发明的一个应用场景是，确定网页中的网页内容的摘要，便于用户快速该网页中有价值的信息。对应的，一种获取待处理文本的方式可以包括：获取所述网页中网页内容作为待处理文本。

当然，本发明实施例中，还可以根据用户需求来确定是否需要确定当前界面中文本的摘要；以避免针对无需获取当前界面中文本摘要的用户造成干扰，且还可以减少计算资源浪费。对应的，一种获取待处理文本的方式可以包括如下子步骤S62～子步骤S64：

子步骤S62、接收用户在当前界面中触发的摘要查看操作。

子步骤S64、获取当前界面中的文本作为待处理文本。

其中，当前界面可以是网页页面，也可以是录音音频数据的语音识别文本的展示界面，还可以是翻译界面等等，本发明实施例对此不作限制。当前界面中可以预先设置一摘要查看控件；当用户需要查看当前界面中文本的摘要时，可以触发该摘要查看控件，来执行摘要查看操作。待用户在当前界面中触发的摘要查看操作后，可以获取当前界面中的文本作为待处理文本，然后执行步骤204～214。

其中，上述步骤104：对待处理文本进行分段处理，得到多个文本段落；可以包括如下步骤204～步骤210：

步骤204、统计所述待处理文本的全文关键词，并构建所述全文关键词的词汇链。

步骤206、依次从所述待处理文本中确定长度相同的两个相邻语句，得到多个语句对。

步骤208、针对每个语句对，依据所述词汇链确定所述语句对中两个相邻语句的差异信息。

步骤210、若所述差异信息大于或等于差异阈值，则从所述语句对中两个相邻语句连接处进行分段。

其中，可以统计待处理文本的关键词；并从待处理文本中，选取出现频次最高的前N个关键词，作为全文关键词，所述N为正整数，可以按照需求设置，本发明实施例对此不作限制。然后针对每一个全文关键词，可以从待处理文本中，查找与该全文关键词所描述主题类似且相关的词语，与该全文关键词组成词汇链；进而可以得到多个词汇链。其中，词汇链可以是指围绕着一个主题的一系列相关的词语组成的集合；词汇链中的词语之间存在着一定的语义相关性。

然后可以在待处理文本中从前到后，依次确定长度相同的两个相邻语句，得到多个语句对；其中，一个语句对可以包括两个相邻的语句。再针对每个语句对，依据所述词汇链确定所述语句对中两个相邻语句的差异信息。

现以针对一个语句对中的两个相邻语句，依据一个词汇链确定所述语句对中两个相邻语句的差异信息为例进行说明：可以根据该词汇链，计算这两个相邻语句之间的差异信息，进而得到这个语句对中两个相邻语句针对该词汇链的差异信息。其中，可以计算该词汇链中每个词汇的分值，然后依据该词汇链中各词汇的分值，分别确定这两个相邻语句对应的分值；再根据这两个相邻语句各自对应的分值，确定这两个相邻语句的差异信息。其中，词汇链中每个词汇的分值可以根据该词汇在待处理文本中出现的频次、待处理文本的长度和词汇链的长度确定。

其中，针对该语句对中两个相邻语句中的每一个语句，可以确定该语句所包含的该词汇链中的词语；然后将该语句中所包含的该词汇链中的词语所对应分值之和，作为该语句的分值。一个示例中，可以根据这两个相邻语句各自对应的分值，计算这两个相邻语句的余弦距离，将得到的余弦距离作为这两个相邻语句的差异信息。

通过上述过程中，每个语句对中的两个相邻语句，可以对应N个差异分值后；针对每个语句对，可以分别判断该语句对中两个相邻语句之间的N个差异信息是否均大于或等于差异阈值。若这两个相邻语句之间的N个差异信息均大于或等于差异阈值，则从这个语句对中两个相邻语句连接处进行分段。若这个语句对中两个相邻语句之间的N个差异信息中，存在小于差异阈值的差异信息，则针对下一个语句对中两个相邻的语句，执行步骤206中的依据所述词汇链确定两个相邻语句的差异信息；以及执行步骤208～步骤210。进而可以将待处理文本划分为多个文本段落。

步骤212、针对每一文本段落，将所述文本段落输入至所述摘要确定模型中，由所述摘要确定模型输出包含至少一个语句的摘要；其中，所述语句包括完整句子和/或不完整句子。

然后针对每一文本段落，可以将该文本段落输入至训练后的摘要确定模型中，由摘要确定模型对该文本段落进行处理，输出包含至少一个语句的摘要。

其中，每个语句可以是两个相邻句末标点符号之间的语句，也就是一个完整的句子；也可以是相邻的两个任意类型标点符号之间的语句，可以是不完整的句子，也可以是完整的句子；这可以由训练摘要确定模型中的设置决定。当摘要确定模型输出包括至少一个相邻的两个任意类型两个标点符号之间语句的摘要时，能够避免将包括多个分句的完整句子中没有价值的分句作为摘要，能够进一步提高后续采用摘要确定模型提取摘要的准确性。

步骤214、对各文本段落对应的摘要与其他文本进行区别显示，所述其他文本是所述待处理文本中除摘要之外的文本。

本发明实施例中，可以对各文本段落对应的摘要与其他文本进行区别显示；进而可以将摘要与待处理文本中其他文本区别开，以便用户快速阅读摘要，从而快速获取待处理文本中有价值的信息。

可参照图3，示出了本发明实施例的一种显示待处理文本中摘要的示意图。图3是一小说的部分章节，该章节被划分成了两个文本段落。根据图3 可知，用户根据突出显示的摘要，能够快速获取该章节中有价值的信息。

本发明实施例中，所述步骤214可以包括如下子步骤S82～子步骤S84：

子步骤S82、查找预设的反向索引，确定所述摘要在所述待处理文本中的位置。

子步骤S84、基于所述摘要在待处理文本中的位置，对所述摘要与其他文本进行区别显示。

本发明实施例中，在获取待处理文本的同时，可以获取该待处理文本对应的反向索引；所述反向索引可以是指待处理文本中各文本与其在待处理文本中位置的索引。其中，各文本在待处理文本中位置可以是指该文本在待处理文本中的排列位置如序号；例如待处理文本中的第10个文本“美”，则 “美”这个文本在待处理文本中的位置是“10”。

进而在确定摘要后，可以查找反向索引，确定摘要中每个文本在待处理文本中的位置。然后在展示待处理文本时，基于显示界面的尺寸和显示界面的显示规则，确定待处理文本中各文本对应在显示界面中的显示位置；进而可以确定摘要中每个文本在显示界面中的目标显示位置。然后可以对目标显示位置的文本，与其他显示位置的文本进行区别显示。

本发明的一个示例中，所述基于所述摘要在待处理文本中的位置，对所述摘要与其他文本进行区别显示的一种方式，可以是基于所述摘要在待处理文本中的位置，采用与待处理文本中其他文本不同的显示样式，对摘要进行显示。

其中，所述显示样式包括多种，如文本自身的显示样式，又如文本背景的显示样式等等。其中，所述文本自身的显示样式包括文本的字体、颜色、字号等等；所述文本背景的显示样式可以包括颜色、图案等等，本发明实施例对此不做限制。进而可以采用与其他文本不同的显示样式，对在显示界面中目标显示位置显示的文本进行显示，和/或，对目标显示位置的背景进行显示。

综上，本发明实施例中，对待处理文本进行分段处理，得到多个文本段落；然后确定各文本段落对应的摘要，能够使得待处理文本的摘要分布均匀，进而避免摘要过于集中而遗漏待处理文本中有价值的信息。

其次，本发明实施例中，统计所述待处理文本的全文关键词，并构建所述全文关键词的词汇链；然后依次从所述待处理文本中确定长度相同的两个相邻语句，得到多个语句对；再针对每个语句对，依据所述词汇链确定所述语句对中两个相邻语句的差异信息，若所述差异信息大于差异阈值，则从所述语句对中两个相邻语句连接处进行分段；进而通过词汇链分段的方式，准确的划分出段落，有利于后续为每个文本段落确定对应的摘要。

进一步，本发明实施例中，针对每一文本段落，将所述文本段落输入至所述摘要确定模型中，由所述摘要确定模型输出包含至少一个语句的摘要；其中，所述语句可以包括不完整句子；进而避免将包括多个分句的完整句子中没有价值的分句作为摘要。

再次，本发明实施例中，还可以对各文本段落对应的摘要与其他文本进行区别显示；进而能够将摘要与待处理文本中的其他文本区别开，以便用户快速阅读摘要，从而快速获取待处理文本中有价值的信息。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图4，示出了本发明的一种数据处理装置实施例的结构框图，具体可以包括如下模块：

获取模块402，用于获取待处理文本；

分段模块404，用于对所述待处理文本进行分段处理，得到多个文本段落；

摘要确定模块406，用于依据预设的摘要确定模型分别确定各文本段落对应的摘要。

参照图5，示出了本发明的一种数据处理装置可选实施例的结构框图。

本发明一个可选的实施例中，所述分段模块404，包括：

词汇链构建子模块4042，用于统计所述待处理文本的全文关键词，并构建所述全文关键词的词汇链；

语句确定子模块4044，用于依次从所述待处理文本中确定长度相同的两个相邻语句，得到多个语句对；

差异信息确定子模块4046，用于针对每个语句对，依据所述词汇链确定所述语句对中两个相邻语句的差异信息；

文本分段子模块4048，用于若所述差异信息大于或者等于差异阈值，则从所述语句对中两个相邻语句连接处进行分段。

本发明一个可选的实施例中，所述摘要确定模块406，用于针对每一文本段落，将所述文本段落输入至所述摘要确定模型中，由所述摘要确定模型输出包含至少一个语句的摘要；其中，所述语句包括完整句子和/或不完整句子。

本发明一个可选的实施例中，所述的装置还包括：

显示模块408，用于对各文本段落对应的摘要与其他文本进行区别显示；所述其他文本是所述待处理文本中除摘要之外的文本。

本发明一个可选的实施例中，所述显示模块408，包括：

位置确定子模块4082，用于查找预设的反向索引，确定所述摘要在所述待处理文本中的位置；

区别显示子模块4084，用于基于所述摘要在待处理文本中的位置，对所述摘要与其他文本进行区别显示。

本发明一个可选的实施例中，所述获取模块402，包括：

录音文本获取子模块4022，用于获取录音音频数据；对所述录音音频数据进行语音识别，得到待处理文本。

本发明一个可选的实施例中，所述获取模块402，包括：

翻译文本获取子模块4024，用于获取原语言文本；将所述原语言文本翻译为目标语言文本，得到待处理文本。

本发明一个可选的实施例中，所述获取模块402包括：

网页文本获取子模块4026，用于获取所述网页中网页内容作为待处理文本。

本发明一个可选的实施例中，所述获取模块402，包括：

界面文本获取子模块4028，用于接收用户在当前界面中执行的摘要查看操作；获取当前界面中的文本作为待处理文本。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

图6是根据一示例性实施例示出的一种用于数据处理的电子设备600的结构框图。例如，电子设备600可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理，智能穿戴设备等。

参照图6，电子设备600可以包括以下一个或多个组件：处理组件602，存储器604，电力组件606，多媒体组件608，音频组件610，输入/输出(I/ O)的接口612，传感器组件614，以及通信组件616。

处理组件602通常控制电子设备600的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件602可以包括一个或多个处理器620来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件602可以包括一个或多个模块，便于处理组件602和其他组件之间的交互。例如，处理部件602可以包括多媒体模块，以方便多媒体组件608和处理组件602之间的交互。

存储器604被配置为存储各种类型的数据以支持在电子设备600的操作。这些数据的示例包括用于在电子设备600上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器604可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件606为电子设备600的各种组件提供电力。电力组件606可以包括电源管理系统，一个或多个电源，及其他与为电子设备600生成、管理和分配电力相关联的组件。

多媒体组件608包括在所述电子设备600和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板 (TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件608包括一个前置摄像头和/或后置摄像头。当电子设备600处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件610被配置为输出和/或输入音频信号。例如，音频组件610 包括一个麦克风(MIC)，当电子设备600处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器604或经由通信组件616发送。在一些实施例中，音频组件610还包括一个扬声器，用于输出音频信号。

I/O接口612为处理组件602和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件614包括一个或多个传感器，用于为电子设备600提供各个方面的状态评估。例如，传感器组件614可以检测到电子设备600的打开/ 关闭状态，组件的相对定位，例如所述组件为电子设备600的显示器和小键盘，传感器组件614还可以检测电子设备600或电子设备600一个组件的位置改变，用户与电子设备600接触的存在或不存在，电子设备600方位或加速/减速和电子设备600的温度变化。传感器组件614可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件614 还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件614还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件616被配置为便于电子设备600和其他设备之间有线或无线方式的通信。电子设备600可以接入基于通信标准的无线网络，如WiFi，2G 或3G，或它们的组合。在一个示例性实施例中，通信部件614经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件614还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA) 技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备600可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器604，上述指令可由电子设备600的处理器620 执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是 ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行一种数据处理方法，所述方法包括：获取待处理文本；对所述待处理文本进行分段处理，得到多个文本段落；依据预设的摘要确定模型分别确定各文本段落对应的摘要。

图7是本发明根据另一示例性实施例示出的一种用于数据处理的电子设备700的结构示意图。该电子设备700可以是服务器，该服务器可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)722(例如，一个或一个以上处理器)和存储器732，一个或一个以上存储应用程序742或数据744的存储介质730(例如一个或一个以上海量存储设备)。其中，存储器732和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器722可以设置为与存储介质730通信，在服务器上执行存储介质 730中的一系列指令操作。

服务器还可以包括一个或一个以上电源726，一个或一个以上有线或无线网络接口750，一个或一个以上输入输出接口758，一个或一个以上键盘 756，和/或，一个或一个以上操作系统741，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

在示例性实施例中，服务器经配置以由一个或者一个以上中央处理器 722执行一个或者一个以上程序包含用于进行以下操作的指令：获取待处理文本；对所述待处理文本进行分段处理，得到多个文本段落；依据预设的摘要确定模型分别确定各文本段落对应的摘要。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

此外，本申请实施例所涉及的年龄(性别、身份证号、护照号等(根据需求调整))等不适针对个人信息的使用，而是通用的描述。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种数据处理方法、一种数据处理装置和一种电子设备，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种数据处理方法，其特征在于，包括：

获取待处理文本；

对所述待处理文本进行分段处理，得到多个文本段落；

依据预设的摘要确定模型分别确定各文本段落对应的摘要。

2.根据权利要求1所述的方法，其特征在于，所述对待处理文本进行分段处理，得到多个文本段落，包括：

统计所述待处理文本的全文关键词，并构建所述全文关键词的词汇链；

依次从所述待处理文本中确定长度相同的两个相邻语句，得到多个语句对；

针对每个语句对，依据所述词汇链确定所述语句对中两个相邻语句的差异信息；

若所述差异信息大于或者等于差异阈值，则从所述语句对中两个相邻语句连接处进行分段。

3.根据权利要求1所述的方法，其特征在于，所述依据预设的摘要确定模型分别确定各文本段落对应的摘要，包括：

针对每一文本段落，将所述文本段落输入至所述摘要确定模型中，由所述摘要确定模型输出包含至少一个语句的摘要；

其中，所述语句包括完整句子和/或不完整句子。

4.根据权利要求1所述的方法，其特征在于，所述的方法还包括：

对各文本段落对应的摘要与其他文本进行区别显示；

所述其他文本是所述待处理文本中除摘要之外的文本。

5.根据权利要求4所述的方法，其特征在于，所述对各文本段落对应的摘要与其他文本进行区别显示，包括：

查找预设的反向索引，确定所述摘要在所述待处理文本中的位置；

基于所述摘要在待处理文本中的位置，对所述摘要与其他文本进行区别显示。

6.根据权利要求1所述的方法，其特征在于，所述获取待处理文本，包括：

获取录音音频数据；

对所述录音音频数据进行语音识别，得到待处理文本。

7.根据权利要求1所述的方法，其特征在于，所述获取待处理文本，包括：

获取原语言文本；

将所述原语言文本翻译为目标语言文本，得到待处理文本。

8.一种数据处理装置，其特征在于，包括：

获取模块，用于获取待处理文本；

分段模块，用于对所述待处理文本进行分段处理，得到多个文本段落；

摘要确定模块，用于依据预设的摘要确定模型分别确定各文本段落对应的摘要。

9.一种电子设备，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

获取待处理文本；

对所述待处理文本进行分段处理，得到多个文本段落；

依据预设的摘要确定模型分别确定各文本段落对应的摘要。

10.一种可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如方法权利要求1-7任一所述的数据处理方法。