CN111199151A - 数据处理方法、及数据处理装置 - Google Patents

数据处理方法、及数据处理装置 Download PDF

Info

Publication number
CN111199151A
CN111199151A CN201911425760.6A CN201911425760A CN111199151A CN 111199151 A CN111199151 A CN 111199151A CN 201911425760 A CN201911425760 A CN 201911425760A CN 111199151 A CN111199151 A CN 111199151A
Authority
CN
China
Prior art keywords
sentence
chinese text
layer
evaluation
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911425760.6A
Other languages
English (en)
Inventor
沈强
谭松波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CN201911425760.6A priority Critical patent/CN111199151A/zh
Publication of CN111199151A publication Critical patent/CN111199151A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users

Abstract

本公开提供了一种数据处理方法。所述方法包括首先获取一中文文本,然后将所述中文文本输入到句子评价模型,接着基于所述句子评价模型输出的评分最高的一组句子,输出所述中文文本的摘要。其中,所述句子评价模型被设置为包括语言解析层和评价层。所述语言解析层对所述中文文本进行解析,以得到所述中文文本中的句子的信息;所述评价层基于所述句子的信息对所述句子在所述中文文本中的重要程度进行评分。本公开还提供了一种数据处理装置。

Description

数据处理方法、及数据处理装置
技术领域
本公开涉及一种数据处理方法和一种数据处理装置。
背景技术
目前在互联网或企业中存在丰富的文档信息,有的文档中信息是非结构化和无序的,想要短时间内获取核心内容,较为困难。一种可行的解方案是可以通过抽取文档的摘要的方式来获取文档的关键信息。抽取文档的摘要可以广泛应用于互联网阅读、搜索、检索等场景中。
当前抽取文档摘要时主要是基于统计学、图排序、深度学习方法等。基于统计学的方法,如TF-IDF等,一般只单纯利用了单词表层特征,没有充分挖掘词义关系和语义特征,局限性很大。基于图排序方法,如LexRank,TextRank等,通常只考虑了句子节点间的相似关系,而忽略了文档整篇文章及句子上下文的信息,相似度的好坏决定了关键词和句子重要性排序正确与否,也有较大的局限性。基于深度学习的方法,如DCA(deep countautoencoder network,深度计数自动编码器网络)、BERTSUM等,一般可解释性差,对计算机的性能有一定要求,而且通常只能抽取英文摘要。
发明内容
本公开的一个方面提供了一种数据处理方法。所述方法包括:获取一中文文本;将所述中文文本输入到句子评价模型;以及基于所述句子评价模型输出的评分最高的一组句子,输出所述中文文本的摘要。其中,所述句子评价模型被设置为包括语言解析层和评价层。所述语言解析层对所述中文文本进行解析,以得到所述中文文本中的句子的信息。所述评价层基于所述句子的信息对所述句子在所述中文文本中的重要程度进行评分。
可选地,所述句子评价模型被设置为还包括筛选层。所述筛选层按照所述句子所满足的条件设置对应的权重系数,以通过所述权重系数调整所述评价层对所述句子的评分。
可选地,所述句子所满足的条件包括以下至少之一:所述句子的长度;或者所述句子在所述中文文本的所有句子中所处的位置。
可选地,所述语言解析层包括BERT模型。
可选地,所述评价层包括Transformer模型。
可选地,所述方法还包括利用BERT模型对对所述中文文本进行预处理。所述将所述中文文本输入到句子评价模型,包括将预处理后的所述中文文本输入至所述句子评价模型。
可选地,所述利用BERT模型对对所述中文文本进行预处理,包括:对所述中文文本中的每个字进行格式化处理;标记所述中文文本中每个字在对应的句子中的位置;以及标记所述中文文本中每个句子的起始位置和结束位置。
可选地,所述方法还包括训练所述句子评价模型。所述训练所述句子评价模型包括获取至少一个已标注中文文本、以及对所述已标注中文文本中的每个句子标注的评分,以及以所述至少一个已标注中文文本作为所述语言解析层的训练输入,以对所述已标注中文文本中的每个句子标注的评分作为所述评价层的输出参考,反复训练所述句子评价模型。
本公开的另一方面提供了一种数据处理装置。所述装置包括获取模块、句子评价模块、以及摘要输出模块。所述获取模块用于获取一中文文本。所述句子评价模块用于将所述中文文本输入到句子评价模型,所述句子评价模型被设置为包括语言解析层和评价层;其中:所述语言解析层对所述中文文本进行解析,以得到所述中文文本中的句子的信息;所述评价层基于所述句子的信息对所述句子在所述中文文本中的重要程度进行评分。所述摘要输出模块用于基于所述句子评价模型输出的评分最高的一组句子,输出所述中文文本的摘要。
可选地,所述句子评价模型被设置为还包括筛选层。所述筛选层按照所述句子所满足的条件设置对应的权重系数,以通过所述权重系数调整所述评价层对所述句子的评分。
可选地,所述装置还包括预处理模块。所述预处理模块用于利用BERT模型对对所述中文文本进行预处理。所述句子评价模块用于将预处理后的所述中文文本输入至所述句子评价模型。
可选地,所述预处理模块具体用于:对所述中文文本中的每个字进行格式化处理;标记所述中文文本中每个字在对应的句子中的位置;以及标记所述中文文本中每个句子的起始位置和结束位置。
可选地,所述装置还包括训练模块。所述训练模块用于训练所述句子评价模型,包括获取至少一个已标注中文文本、以及对所述已标注中文文本中的每个句子标注的评分,以及以所述至少一个已标注中文文本作为所述语言解析层的训练输入,以对所述已标注中文文本中的每个句子标注的评分作为所述评价层的输出参考,反复训练所述句子评价模型。
本公开的另一方面提供了一种计算机系统。所述计算机系统包括一个或多个存储器、以及一个或多个处理器。所述存储器上存储有计算机可执行指令。所述处理器执行所述指令,以实现如上所述的方法。
本公开的另一方面提供了一种计算机可读存储介质,存储有计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。
本公开的另一方面提供了一种计算机程序,所述计算机程序包括计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。
附图说明
为了更完整地理解本公开及其优势,现在将参考结合附图的以下描述,其中:
图1示意性示出了根据本公开实施例的数据处理方法和数据处理装置的应用场景;
图2示意性示出了根据本公开实施例的数据处理方法的流程图;
图3示意性示出了根据本公开实施例的数据处理方法中通过句子评价模型处理中文文本的流程图;
图4示意性示出了根据本公开另一实施例的数据处理方法的流程图;
图5示意性示出了根据本公开实施例的训练句子评价模型的方法流程图;
图6示意性示出了根据本公开一实施例的训练句子评价模型的流程图;
图7示意性示出了根据本公开实施例的基于BERT模型和Transformer模型的句子评价模型的数据处理过程示意;
图8示意性示出了根据本公开实施例的数据处理装置的框图;以及
图9示意性示出了适于实现根据本公开实施例的数据处理方法的计算机系统的框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。
附图中示出了一些方框图和/或流程图。应理解,方框图和/或流程图中的一些方框或其组合可以由计算机程序指令来实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,从而这些指令在由该处理器执行时可以创建用于实现这些方框图和/或流程图中所说明的功能/操作的装置。本公开的技术可以硬件和/或软件(包括固件、微代码等)的形式来实现。另外,本公开的技术可以采取存储有指令的计算机可读存储介质上的计算机程序产品的形式,该计算机程序产品可供指令执行系统使用或者结合指令执行系统使用。
本公开的实施例提供了一种数据处理方法和数据处理装置。该方法包括首先获取一中文文本,然后将该中文文本输入到句子评价模型,接着基于句子评价模型输出的评分最高的一组句子,输出该中文文本的摘要。其中,句子评价模型被设置为包括语言解析层和评价层。语言解析层对中文文本进行解析,以得到中文文本中的句子的信息;评价层基于句子的信息对句子在中文文本中的重要程度进行评分。
根据本公开的实施例,利用句子评价模型可以基于中文文本中的不同句子的重要程度而给出评分,然后根据评分最高的一组句子得到摘要。其中可以通过大量数据集训练句子评价模型,使句子评价模型输出的评分高低能够在至少一定程度上反映句子在文章中的重要程度。以此方式,所得的摘要中的信息几乎全部来源于该中文文本的原文。不仅可以有效地自动生成中文文本的摘要,还能够至少在一定程度上保证摘要反映的是中文文本的原始内容。
图1示意性示出了根据本公开实施例的数据处理方法和数据处理装置的应用场景。
如图1所示,如图1所示,根据该实施例的应用场景100可以包括终端设备101、网络102和服务器103。网络102为用以在终端设备101和服务器103之间提供通信链路的介质。网络101可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
终端设备101可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
终端设备101上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。用户10可以使用终端设备101通过网络102与服务器103交互,以接收或发送消息等。例如,用户可以在终端设备101的客户端应用选择或向服务器105上传要抽取摘要的中文文本,同时用户也可以在终端设备101的客户端应用的中接收服务器103反馈的摘要。
服务器103可以是提供各种服务的服务器,例如对用户10利用终端设备101上传或选择确定出的中文文本进行摘要提取,并将提取的摘要反馈给终端设备101。
需要说明的是,本公开实施例所提供的数据处理方法一般可以由服务器103执行。相应地,本公开实施例所提供的数据处理装置一般可以设置于服务器103中。本公开实施例所提供的数据处理方法也可以由不同于服务器103且能够与终端设备101和/或服务器103通信的服务器或服务器集群执行。相应地,本公开实施例所提供的数据处理装置也可以设置于不同于服务器103且能够与终端设备101和/或服务器105通信的服务器或服务器集群中。或者,本公开实施例所提供的数据处理方法可以部分由服务器103执行,部分由终端设备101执行。相应地,本公开实施例所提供的数据处理装置也可以部分设置于服务器103中,部分设置于终端设备101中。再或者,本公开实施例所提供的数据处理方法可以由终端设备101执行。相应地,本公开实施例所提供的数据处理装置也可以部分设置于终端设备101中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意个数的用户、终端设备、网络和服务器。
需要注意的是,图1所示仅为可以应用本公开实施例的场景的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。
图2示意性示出了根据本公开实施例的数据处理方法的流程图。
如图2所示,根据本公开的实施例该数据处理方法可以包括操作S210~操作S230。
在操作S210,获取一中文文本。一个中文文本即一篇中文文章。
在操作S220,将中文文本输入到句子评价模型,句子评价模型被设置为包括语言解析层和评价层,其中评价层的输入来自于语言解析层的输出。句子评价模型用于对中文文本中的每个句子进行评分,具体执行过程可以参考图3的示意。
句子评价模型可以是通过对大量中文文本的摘要进行学习而获得的。在一个实施例中,使用了A Large-Scale Chinese Short TextSummarization Dataset(LCSTS)中共2,400,591条中文文本及其的摘要、以及从微博爬取的679,898条中文文本及其摘要,总共3,080,489条中文文本及其摘要组成了句子评价模型的训练数据集。
在操作S230,基于句子评价模型输出的评分最高的一组句子,输出中文文本的摘要。例如,将句子评价模型输出的评分最高的预定个数(例如,5个)的句子,按照评分高低、或者按照这些句子在中文文本中的先后顺序排序并组合,得到该中文文本的摘要。
图3示意性示出了根据本公开实施例的数据处理方法中操作S220通过句子评价模型处理中文文本的流程图。
如图3所示,根据本公开的实施例操作S220可以包括操作S221~操作S222。根据本公开的另一实施例,操作S220还可以包括操作S223,其中,操作S223位于操作S222之后。
在操作S221,语言解析层对中文文本进行解析,以得到中文文本中的句子的信息。例如,语言解析层例如可以将中文文本解析为一个个的句子。句子的信息可以是一个句子中包括哪些字或词、这些字或词的排列组合顺序、和/或每个句子在整个中文文本中的位置等。
在操作S222,评价层基于句子的信息对句子在中文文本中的重要程度进行评分。评价层可以基于对训练数据的学习,对中文文本中每个句子进行评分。
根据本公开的实施例,可以通过使用大量数据集训练句子评价模型,使得句子评价模型可以基于中文文本中的不同句子的重要程度而给出评分,然后根据评分最高的一组句子得到摘要。这样所得的摘要中的信息几乎全部来源于该中文文本的原文。不仅可以有效地自动生成中文文本的摘要,还能够至少在一定程度上保证摘要反映的是中文文本的原始内容。
根据本公开的一实施例,评价层可以是Transformer模型。Transformer模型也是Google团队提出的NLP自然语言处理模型。
根据本公开的另一实施例,语言解析层可以是BERT模型。BERT,即BidirectionalEncoder Representations fromTransformers,是Google开发的一种NLP(NaturalLanguage Processing,自然语言处理)领域的预训练语言表示模型,是基于Transformer模型构建的。
在一个实施例中,句子评价模型可以由BERT模型和Transformer模型组合形成。例如,首先将中文文本输入至BERT模型中。然后由BERT模型解析该中文文本并得到每个句子对应的向量,并输出给Transformer模型。接着由Transformer模型基于每个句子对应的向量输出对每个句子的评分。根据本公开的实施例,可以利用大量已标注中文文本、以及对该已标注中文文本中的每个句子标注的评分,不断地训练BERT模型和Transformer模型,以使BERT模型和Transformer模型的组合可以预测出中文文本中的每个句子重要性,并给出评分。
根据本公开的另一实施例,句子评价模型被设置为还包括筛选层。相应地在操作S223,筛选层按照句子所满足的条件设置对应的权重系数,以通过权重系数调整评价层对句子的评分。根据本公开的实施例,句子所满足的条件包括以下至少之一:句子的长度,或者句子在中文文本的所有句子中所处的位置。
在一个实施例中,筛选层可以计算每个句子的长度,并给越短的句子设置越低的权重系数,以调低评价层对该句子的评分。句子的长度例如可以根据句子中字符的个数来确定。
在另一个实施例中,筛选层可以计算每个句子的位置,并给距离中文文本中间位置越远的句子设置越高的权重系数,以调高评价层对该句子的评分。例如,当语言解析层为BERT模型时,筛选层可以根据BERT模型输出的每个句子对应的向量的顺序来确定每个句子在中文文本的位置。
筛选层可以根据句子的长度和/或句子在中文文本中的位置,来区别对待每个句子。根据中文的使用习惯,通常短句相较长句来说包含的信息更少,从而筛选层通过对短句设置较低的权重系数可以降低短句作为摘要的可能性。再者,文章中总结性的语句一般会放在首尾处,筛选层可以通过对首尾处的句子设置较高的权重系数,来增加位于文章首尾处的句子作为摘要的可能性。以此方式,本公开实施例在获取中文文本的摘要过程中,考虑到了中文的使用习惯,可以进一步使得到的摘要接近人们普遍的语言运用习惯,提高到抽取的摘要的准确性,可以帮助用户提高获取中文文本关键信息的效率。
图4示意性示出了根据本公开另一实施例的数据处理方法的流程图。
如图4所示,根据本公开的实施例该数据处理方法可以包括操作S210、操作S410、操作S420以及操作S230。
首先在操作S210,获取一中文文本。
然后在操作S410,利用BERT模型对对中文文本进行预处理。根据本公开的实施例,利用BERT模型对对中文文本进行预处理可以是:对中文文本中的每个字进行格式化处理,标记中文文本中每个字在对应的句子中的位置,以及标记中文文本中每个句子的起始位置和结束位置。对此详细介绍可以参见下文图7中的相关描述。
接着在操作S420,将预处理后的中文文本输入至句子评价模型。具体地,操作S420可以是操作S220的一个具体实施例。
之后在操作S230,基于句子评价模型输出的评分最高的一组句子,输出中文文本的摘要。
根据本公开的实施例,该数据处理方法还可以包括训练句子评价模型。具体训练过程可以参考图5的示意。
图5示意性示出了根据本公开实施例的训练句子评价模型的方法流程图。
如图5所示,该训练句子评价模型的方法可以包括操作S510~操作S520。
在操作S510,获取至少一个已标注中文文本、以及对已标注中文文本中的每个句子标注的评分。
在操作S520,以至少一个已标注中文文本作为语言解析层的训练输入,以对已标注中文文本中的每个句子标注的评分作为评价层的输出参考,反复训练句子评价模型。例如,可以将每一个已标注中文文本输入至语言解析层,并获取评价层输出的评分。然后基于评价层输出的评分与已标注中文文本中标注的评分差异,反复训练语言解析层和评价层的组合结构。
为了便于理解本公开实施例的技术方案,以下结合图6和图7所示的基于BERT模型和Tranformer模型组合的句子评价模型,对本公开实施例的数据处理方法进行示例性介绍。本领域技术人员可以理解,下文的实施例仅为示例,本公开实施例并不局限于此。
图6示意性示出了根据本公开一实施例的训练句子评价模型的流程图。
参考图6,并结合图5,根据本公开的一个实施例,训练句子评价模型的流程大致可以概述如下:
(1)获取句子评价模型的训练数据集。例如,在一个实际应用中,搜集了A Large-Scale Chinese Short Text Summarization Dataset(LCSTS)中共2,400,591条中文文本及其的摘要,并从微博爬取的679,898条中文文本及其摘要,得到总共3,080,489条中文文本及其摘要以组成句子评价模型的训练数据集。然后对训练数据集中的每个中文文本中的句子标注评分,其中为对每个中文文本中的摘要的句子标注较高高的评分,以此使句子评价模型不断学习各种类型的中文文本中不同句子的重要程度。
(2)然后可以收集来自a)百度停用词列表、b)哈工大停用词表、c)四川大学机器智能实验室停用词库、d)中文停用词库,共300万+的停用词表。
(3)对训练数据集中的数据进行例如去噪、以及去掉训练数据集中大量的停用词等数据处理。这样,可以减少停用词对句子评价模型的输出结果结果的干扰,提高句子评价模型的输出结果结果的准确率。并且可以降低句子评价模型的计算量,加快句子评价模型训练过程的收敛。
(4)利用BERT模型对每个中文文本进行预处理,例如,对训练数据集中的数据以字为单位进行格式化处理,转换成BERT模型要求的输入格式。例如,对每个中文文本中的每个字进行格式化处理,标记中文文本中每个句子的起始位置和结束位置、以及标记中文文本中每个字在对应的句子中的位置等。
(5)利用作为语言解析层的BERT模型对训练数据集中的数据进行解析,将练每个句子转换为对应的向量。其中(4)和(5)中可以使用同一个BERT模型,或者也可以使用不同的BERT模型。
(6)将BERT模型输出的向量输入到由Transformer模型对每个句子进行评分。
训练时是通过不断地重复上述(5)和(6),以使得BERT模型和Transformer模型的组合来使ransformer模型输出的评分与对中文文本的句子标注的评分接近。
(7)另外,在Transformer模型之后还可以设置筛选层,通过对句子设置权重系数,来基于经验判断或通常中文的使用习惯等,适度调整Transformer模型输出的评分。
图7示意性示出了根据本公开实施例的基于BERT模型和Transformer模型的句子评价模型的数据处理过程示意。
如图7所示,首先输入中文文本到BERT1,通过BERT1进行预处理(操作S410),然后将预处理后的中文文本输入到BERT2,得到每个句子对应的向量T1…T12…T3。接着Transformer模型可以基于向量T1…T2…T3给出对应的评分Y1…Y2…Y3。其中BERT2和Transformer分别为本公开实施例的句子评价模型的语言解析层和评价层。
BERT1和BERT2可以是同一个BERT模型,或者是不同的BERT模型。当BERT1和BERT2为同一个BERT模型时,可以实现BERT模型的复用。
根据本公开实施例的基于BERT模型和Transformer模型的句子评价模型的数据处理过程大致如下。
首先,通过BERT1进行预处理,具体可以包括输入文本inputdocument、令牌嵌入token embeddings、区间段嵌入Interval SegmentEmbeddings、以及位置嵌入Positionembeddings。
输入文本input document可以是在每个句子将加入[CLS][SEP]等标志位代表句子起始结束位置,从而将中文文本中的不同句子区分出来。
令牌嵌入token embeddings可以是对输入的中文文本中的每个字进行格式化处理。例如,对于输入的中文文本中的每个字,在BERT模型的字典里查找得到它对应的数字下标token,然后用该数字下标token去查找得到该字对应的词向量就是embedding。
区间段嵌入Interval Segment Embeddings可以是标记每个句子在文章中的位置等。
位置嵌入Position embeddings可以是在每个句子中标记每个字在句子中的位置等。
然后,将经过BERT1预处理后的中文文本输入到BERT2,通过BERT2输出各个句子对应的向量T1,T2,…,TN。
接着,将BERT2输出的向量T1,T2,…,TN输入至Transformer模型中,由Transformer模型基于向量T1,T2,…,TN对各个句子进行评价,给出评分Y1,Y2,…,YN。
根据本公开的实施例,利用训练数据集中的中文文本、以及对每个中文文本的句子标注的评分,来不断训练BERT2和Transformer,可以使得评分Y1,Y2,…,YN代表各个句子在对应的文章中的重要程序。
接下来,根据本公开的实施例在得到Transformer模型对每个句子的评分后,还可以将各个句子对应的向量T1,T2,…,TN再输入到筛选层。筛选层可以基于向量T1,T2,…,TN分析各个句子的特征,然后根据各个句子所满足的条件设置对应的权重系数来调整Y1,Y2,…,YN的值。
例如,筛选层可以计算每个句子的长度,其中,对越短的句子设置越低的权重系数。例如,筛选层可以设置句子的长度范围与权重系数映射关系,根据句子的长度所在的范围选择对应的权重系数。
又例如,筛选层可以计算每个句子的位置,其中,对距离文章中间位置越远的句子拥有越高的权重系数。例如,筛选层可以根据向量T1,T2,…,TN的顺序来确定出每个句子的位置,并设置句子的位置范围与权重系数映射关系,根据句子的位置所处的范围选择对应的权重系数。例如,给文章首尾的句子设置较大的权重系数,对靠近文章中间的句子设置较小的权重系数。
结合Y1,Y2,…,YN以及筛选层对每个句子设置的权重系数,得到每个句子的最后评分。其中评分越高说明句子的重要性越高。
最后,抽取出评分最高的多个句子进行组合,得到文章的摘要。
以下通过表1介绍利用根据本公开实施例的方法抽取出的摘要与文章中给定的摘要的对比示例,以简要展示出本公开实施例的方法的应用效果。
表1示意性示出了根据本公开实施例的方法抽取出的摘要与文章中给定摘要的对比。其中,在表1的示例中所使用的句子评价模型具体为:以BERT模型作为语言解析层,以Transformer模型作为评价层,在评价层后设置有筛选层。并且,在每个文本输入句子评价模型前,会进行去噪、去停用词等处理,并利用BERT模型进行预处理。
表1示例性示出了3篇文章。该3篇文章中每一篇文章中左边的列中的内容表示利用本公开实施例的方法抽取的摘要,右边的列中的内容表示文章中给定的摘要。同一行中字体为斜体的两列表示利用本公开实施例的方法抽取的摘要和文章中给定的摘要中相一致的内容。
表1
Figure BDA0002352645130000141
从表1的对比可以看到,利用本公开实施例的方法抽取的摘要与文章给定的摘要相比,基本能够命中至少一到两句,而其他的句子涵义较为相近。可见,本公开实施例的方法可以自动提取的摘要具有一定的准确率,可以在至少一定程度上帮助用户快速获取到中文文本中的关键信息,可以在快速阅读、或者信息检索等方面为用户提供较大的帮助。
图8示意性示出了根据本公开实施例的数据处理装置的框图。
如图8所示,根据本公开的实施例,该数据处理装置800可以包括获取模块810、句子评价模块820、以及摘要输出模块830。根据本公开的另一实施例,数据处理装置800还包括预处理模块840。根据本公开的再一实施例,装置800还包括训练模块850。该数据处理装置800可以用于实现参考图2~图7所描述的方法。
获取模块810用于获取一中文文本。
句子评价模块820用于将中文文本输入到句子评价模型,句子评价模型被设置为包括语言解析层和评价层;其中:语言解析层对中文文本进行解析,以得到中文文本中的句子的信息;评价层基于句子的信息对句子在中文文本中的重要程度进行评分。根据本公开的实施例,句子评价模型被设置为还包括筛选层。筛选层按照句子所满足的条件设置对应的权重系数,以通过权重系数调整评价层对句子的评分。
摘要输出模块830用于基于句子评价模型输出的评分最高的一组句子,输出中文文本的摘要。
预处理模块840用于利用BERT模型对对中文文本进行预处理。句子评价模块用于将预处理后的中文文本输入至句子评价模型。
根据本公开的实施例,预处理模块840具体用于:对中文文本中的每个字进行格式化处理;标记中文文本中每个字在对应的句子中的位置;以及标记中文文本中每个句子的起始位置和结束位置。
训练模块850用于训练句子评价模型,包括获取至少一个已标注中文文本、以及对已标注中文文本中的每个句子标注的评分,以及以至少一个已标注中文文本作为语言解析层的训练输入,以对已标注中文文本中的每个句子标注的评分作为评价层的输出参考,反复训练句子评价模型。
根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
例如,获取模块810、句子评价模块820、摘要输出模块830、预处理模块840、以及训练模块850中的任意多个可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本公开的实施例,获取模块810、句子评价模块820、摘要输出模块830、预处理模块840、以及训练模块850中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,获取模块810、句子评价模块820、摘要输出模块830、预处理模块840、以及训练模块850中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
图9示意性示出了适于实现根据本公开实施例的数据处理方法的计算机系统900的框图。图9示出的计算机系统900仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图9所示,计算机系统900包括处理器910、以及计算机可读存储介质920。该计算机系统900可以执行根据本公开实施例的方法。
具体地,处理器910例如可以包括通用微处理器、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等等。处理器910还可以包括用于缓存用途的板载存储器。处理器910可以是用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
计算机可读存储介质920,例如可以是非易失性的计算机可读存储介质,具体示例包括但不限于:磁存储装置,如磁带或硬盘(HDD);光存储装置,如光盘(CD-ROM);存储器,如随机存取存储器(RAM)或闪存;等等。
计算机可读存储介质920可以包括计算机程序921,该计算机程序921可以包括代码/计算机可执行指令,其在由处理器910执行时使得处理器910执行根据本公开实施例的方法或其任何变形。
计算机程序921可被配置为具有例如包括计算机程序模块的计算机程序代码。例如,在示例实施例中,计算机程序921中的代码可以包括一个或多个程序模块,例如包括921A、模块921B、……。应当注意,模块的划分方式和个数并不是固定的,本领域技术人员可以根据实际情况使用合适的程序模块或程序模块组合,当这些程序模块组合被处理器910执行时,使得处理器910可以执行根据本公开实施例的方法或其任何变形。
根据本发明的实施例,获取模块810、句子评价模块820、摘要输出模块830、预处理模块840、以及训练模块850中的至少一个可以实现为参考图9描述的计算机程序模块,其在被处理器910执行时,可以实现上面描述的相应操作。
本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
尽管已经参照本公开的特定示例性实施例示出并描述了本公开,但是本领域技术人员应该理解,在不背离所附权利要求及其等同物限定的本公开的精神和范围的情况下,可以对本公开进行形式和细节上的多种改变。因此,本公开的范围不应该限于上述实施例,而是应该不仅由所附权利要求来进行确定,还由所附权利要求的等同物来进行限定。

Claims (10)

1.一种数据处理方法,包括:
获取一中文文本;
将所述中文文本输入到句子评价模型,所述句子评价模型被设置为包括语言解析层和评价层;其中:
所述语言解析层对所述中文文本进行解析,以得到所述中文文本中的句子的信息;
所述评价层基于所述句子的信息对所述句子在所述中文文本中的重要程度进行评分;
以及
基于所述句子评价模型输出的评分最高的一组句子,输出所述中文文本的摘要。
2.根据权利要求1所述的方法,其中,所述句子评价模型被设置为还包括筛选层:
所述筛选层按照所述句子所满足的条件设置对应的权重系数,以通过所述权重系数调整所述评价层对所述句子的评分。
3.根据权利要求2所述的方法,其中,所述句子所满足的条件包括以下至少之一:
所述句子的长度;或者
所述句子在所述中文文本的所有句子中所处的位置。
4.根据权利要求1所述的方法,其中,所述语言解析层包括BERT模型。
5.根据权利要求1所述的方法,其中,所述评价层包括Transformer模型。
6.根据权利要求1所述的方法,其中,
所述方法还包括:利用BERT模型对对所述中文文本进行预处理;以及
所述将所述中文文本输入到句子评价模型包括:将预处理后的所述中文文本输入至所述句子评价模型。
7.根据权利要求6所述的方法,其中,所述利用BERT模型对对所述中文文本进行预处理,包括:
对所述中文文本中的每个字进行格式化处理;
标记所述中文文本中每个字在对应的句子中的位置;以及
标记所述中文文本中每个句子的起始位置和结束位置。
8.根据权利要求1所述的方法,其中,所述方法还包括:
训练所述句子评价模型,包括:
获取至少一个已标注中文文本、以及对所述已标注中文文本中的每个句子标注的评分;以及
以所述至少一个已标注中文文本作为所述语言解析层的训练输入,以对所述已标注中文文本中的每个句子标注的评分作为所述评价层的输出参考,反复训练所述句子评价模型。
9.一种数据处理装置,包括:
获取模块,用于获取一中文文本;
句子评价模块,用于将所述中文文本输入到句子评价模型,所述句子评价模型被设置为包括语言解析层和评价层;其中:所述语言解析层对所述中文文本进行解析,以得到所述中文文本中的句子的信息;
所述评价层基于所述句子的信息对所述句子在所述中文文本中的重要程度进行评分;
以及
摘要输出模块,用于基于所述句子评价模型输出的评分最高的一组句子,输出所述中文文本的摘要。
10.根据权利要求9所述的装置,其中,所述句子评价模型被设置为还包括筛选层:
所述筛选层按照所述句子所满足的条件设置对应的权重系数,以通过所述权重系数调整所述评价层对所述句子的评分。
CN201911425760.6A 2019-12-31 2019-12-31 数据处理方法、及数据处理装置 Pending CN111199151A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911425760.6A CN111199151A (zh) 2019-12-31 2019-12-31 数据处理方法、及数据处理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911425760.6A CN111199151A (zh) 2019-12-31 2019-12-31 数据处理方法、及数据处理装置

Publications (1)

Publication Number Publication Date
CN111199151A true CN111199151A (zh) 2020-05-26

Family

ID=70746465

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911425760.6A Pending CN111199151A (zh) 2019-12-31 2019-12-31 数据处理方法、及数据处理装置

Country Status (1)

Country Link
CN (1) CN111199151A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112541073A (zh) * 2020-12-15 2021-03-23 科大讯飞股份有限公司 一种文本摘要生成方法、装置、电子设备及存储介质
CN114359810A (zh) * 2022-01-11 2022-04-15 平安科技(深圳)有限公司 视频摘要生成方法、装置、电子设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101667194A (zh) * 2009-09-29 2010-03-10 北京大学 基于用户评论文本特征的自动摘要方法及其自动摘要系统
CN103885935A (zh) * 2014-03-12 2014-06-25 浙江大学 基于图书阅读行为的图书章节摘要生成方法
CN109657051A (zh) * 2018-11-30 2019-04-19 平安科技(深圳)有限公司 文本摘要生成方法、装置、计算机设备及存储介质
CN109815336A (zh) * 2019-01-28 2019-05-28 无码科技(杭州)有限公司 一种文本聚合方法及系统
US20190236464A1 (en) * 2018-01-29 2019-08-01 EmergeX, LLC System and method for facilitating affective-state-based artificial intelligence
CN110209817A (zh) * 2019-05-31 2019-09-06 安徽省泰岳祥升软件有限公司 文本处理模型的训练方法、装置和文本处理方法
CN110334334A (zh) * 2019-06-19 2019-10-15 腾讯科技(深圳)有限公司 一种摘要生成方法、装置及计算机设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101667194A (zh) * 2009-09-29 2010-03-10 北京大学 基于用户评论文本特征的自动摘要方法及其自动摘要系统
CN103885935A (zh) * 2014-03-12 2014-06-25 浙江大学 基于图书阅读行为的图书章节摘要生成方法
US20190236464A1 (en) * 2018-01-29 2019-08-01 EmergeX, LLC System and method for facilitating affective-state-based artificial intelligence
CN109657051A (zh) * 2018-11-30 2019-04-19 平安科技(深圳)有限公司 文本摘要生成方法、装置、计算机设备及存储介质
CN109815336A (zh) * 2019-01-28 2019-05-28 无码科技(杭州)有限公司 一种文本聚合方法及系统
CN110209817A (zh) * 2019-05-31 2019-09-06 安徽省泰岳祥升软件有限公司 文本处理模型的训练方法、装置和文本处理方法
CN110334334A (zh) * 2019-06-19 2019-10-15 腾讯科技(深圳)有限公司 一种摘要生成方法、装置及计算机设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
好奇的小WILL: "BERT在抽取式摘要上的应用", 《HTTPS://ZHUANLAN.ZHIHU.COM/P/74150102?FROM_VOTERS_PAGE=TRUE》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112541073A (zh) * 2020-12-15 2021-03-23 科大讯飞股份有限公司 一种文本摘要生成方法、装置、电子设备及存储介质
CN114359810A (zh) * 2022-01-11 2022-04-15 平安科技(深圳)有限公司 视频摘要生成方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
US11151177B2 (en) Search method and apparatus based on artificial intelligence
CN106156365B (zh) 一种知识图谱的生成方法及装置
CN106682192B (zh) 一种基于搜索关键词训练回答意图分类模型的方法和装置
US20180366013A1 (en) System and method for providing an interactive visual learning environment for creation, presentation, sharing, organizing and analysis of knowledge on subject matter
US9483460B2 (en) Automated formation of specialized dictionaries
US20130173610A1 (en) Extracting Search-Focused Key N-Grams and/or Phrases for Relevance Rankings in Searches
CN104881458B (zh) 一种网页主题的标注方法和装置
KR20160026892A (ko) 논팩토이드형 질의 응답 시스템 및 방법
US20200265074A1 (en) Searching multilingual documents based on document structure extraction
CN103049435A (zh) 文本细粒度情感分析方法及装置
CN103678684A (zh) 一种基于导航信息检索的中文分词方法
CN108319583B (zh) 从中文语料库提取知识的方法与系统
US11327971B2 (en) Assertion-based question answering
US10606903B2 (en) Multi-dimensional query based extraction of polarity-aware content
GB2555207A (en) System and method for identifying passages in electronic documents
CN111783394A (zh) 事件抽取模型的训练方法、事件抽取方法和系统及设备
US9773166B1 (en) Identifying longform articles
CN110083832B (zh) 文章转载关系的识别方法、装置、设备及可读存储介质
CN112805715A (zh) 识别实体属性关系
CN112579729A (zh) 文档质量评价模型的训练方法、装置、电子设备和介质
CN113282701A (zh) 作文素材生成方法、装置、电子设备及可读存储介质
US11379527B2 (en) Sibling search queries
CN111199151A (zh) 数据处理方法、及数据处理装置
CN113204624B (zh) 一种多特征融合的文本情感分析模型及装置
CN110738059A (zh) 一种文本相似度计算方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200526