CN112183078A - 文本摘要确定方法和装置 - Google Patents
文本摘要确定方法和装置 Download PDFInfo
- Publication number
- CN112183078A CN112183078A CN202011140548.8A CN202011140548A CN112183078A CN 112183078 A CN112183078 A CN 112183078A CN 202011140548 A CN202011140548 A CN 202011140548A CN 112183078 A CN112183078 A CN 112183078A
- Authority
- CN
- China
- Prior art keywords
- sentence
- similarity
- content
- target
- target file
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 239000013598 vector Substances 0.000 claims description 190
- 230000011218 segmentation Effects 0.000 claims description 39
- 238000003062 neural network model Methods 0.000 claims description 25
- 238000009499 grossing Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 10
- 238000000513 principal component analysis Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 11
- 230000000694 effects Effects 0.000 description 9
- 238000012549 training Methods 0.000 description 6
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000001172 regenerating effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种文本摘要确定方法和装置。其中,该方法包括:在获取到待确定摘要的目标文件之后,将目标文件的内容拆分为多个语句;将拆分得到的多个语句按照语句相似度划分为多个语句类;从每一个语句类中,确定出一个或多个与目标文件的内容的目标相似度最高的目标语句;将确定出的目标语句组合为目标文件的摘要。本发明解决了文本摘要确定的准确性较低的技术问题。
Description
技术领域
本发明涉及计算机领域,具体而言,涉及一种文本摘要确定方法和装置。
背景技术
现有技术中,通常需要在获取到一个文件之后,确定出文件中的内容的摘要,以根据摘要确定文件的核心内容或思想。
而现有技术中,确定文件的内容的摘要的过程中,通常是将文件的内容拆分成多个簇,将每个簇的簇心组合为摘要。该确定摘要的方法确定的摘要准确性低。
发明内容
本发明实施例提供了一种文本摘要确定方法和装置,以至少解决文本摘要确定的准确性较低的技术问题。
根据本发明实施例的一个方面,提供了一种文本摘要确定方法,包括:在获取到待确定摘要的目标文件之后,将上述目标文件的内容拆分为多个语句;将拆分得到的上述多个语句按照语句相似度划分为多个语句类;从每一个上述语句类中,确定出一个或多个与上述目标文件的内容的目标相似度最高的目标语句;将确定出的上述目标语句组合为上述目标文件的摘要。
作为一种可选的示例,从每一个上述语句类中,确定出一个或多个与上述目标文件的内容的目标相似度最高的目标语句之前,上述方法还包括:将每一个上述语句类中的每一个上述语句确定为当前语句,对上述当前语句执行以下操作:确定上述当前语句与上述目标文件的内容的第一相似度与上述当前语句与上述目标文件的内容的第二相似度,上述第一相似度用于指示上述当前语句与上述目标文件的内容在通用领域的相似度,上述第二相似度用于指示上述当前语句与上述目标文件的内容在专有领域的相似度;将上述第一相似度与上述第二相似度的加权求和结果确定为上述当前语句与上述目标文件的上述目标相似度。
作为一种可选的示例,确定上述当前语句与上述目标文件的内容的第一相似度包括:将上述当前语句与上述目标文件的内容输入到第一神经网络模型中,其中,上述第一神经网络模型为预先训练的用于输出语句的向量的模型;获取上述第一神经网络模型输出的上述当前语句的第一语句向量与上述目标文件的内容的第二语句向量;将上述第一语句向量与上述第二语句向量的余弦相似度确定为上述当前语句与上述目标文件的内容的上述第一相似度。
作为一种可选的示例,上述将上述第一语句向量与上述第二语句向量的余弦相似度确定为上述当前语句与上述目标文件的内容的上述第一相似度包括:对上述余弦相似度进行平滑处理;将平滑处理后的上述余弦相似度确定为上述当前语句与上述目标文件的内容的上述第一相似度。
作为一种可选的示例,确定上述当前语句与上述目标文件的内容的第二相似度包括:对上述当前语句与上述目标文件的内容进行分词,得到上述当前语句的第一分词结果与上述目标文件的内容的第二分词结果;将上述第一分词结果转换为多个第一词向量,并将上述第二分词结果转换为多个第二词向量;根据多个上述第一词向量得到上述当前语句的第一句向量,并根据多个上述第二分词结果得到上述目标文件的内容的第二句向量;将上述第一句向量与上述第二句向量的余弦相似度确定为上述当前语句与上述目标文件的内容的第二相似度。
作为一种可选的示例,上述根据多个上述第一词向量得到上述当前语句的第一句向量,并根据多个上述第二分词结果得到上述目标文件的内容的第二句向量包括:将多个上述第一词向量的加权求和结果除以上述当前语句的句子长度所得到的商确定为上述当前语句的上述第一句向量;将多个上述第二词向量的加权求和结果除以上述目标文件的内容长度所得到的商确定为上述目标文件的上述第二句向量。
作为一种可选的示例,在根据上述第一词向量得到上述当前语句的第一句向量,并根据上述第二分词结果得到上述目标文件的内容的第二句向量之后,在将上述第一句向量与上述第二句向量的余弦相似度确定为上述当前语句与上述目标文件的内容的第二相似度之前,上述方法还包括:对上述第一句向量与上述第二句向量分别执行主成分分析步骤,确定上述第一句向量中的噪声与上述第二句向量中的噪声;删除上述第一句向量中的噪声与上述第二句向量中的噪声。
作为一种可选的示例,上述将拆分得到的上述多个语句按照语句相似度划分为多个语句类包括:按照上述目标文件的内容的长度,确定上述目标文件的语句类的数量N,其中,上述N为正整数;将拆分得到的上述多个语句按照上述相似度划分为上述N个语句类。
作为一种可选的示例,上述将确定出的上述目标语句组合为上述目标文件的摘要包括:按照上述目标语句在上述目标文件中出现的先后顺序,将上述目标语句组合为一段文本;将上述一段文本确定为上述目标文件的摘要。
根据本发明实施例的另一方面,还提供了一种文本摘要确定装置,包括:拆分单元,用于在获取到待确定摘要的目标文件之后,将上述目标文件的内容拆分为多个语句;划分单元,用于将拆分得到的上述多个语句按照语句相似度划分为多个语句类;第一确定单元,用于从每一个上述语句类中,确定出一个或多个与上述目标文件的内容的目标相似度最高的目标语句;组合单元,用于将确定出的上述目标语句组合为上述目标文件的摘要。
作为一种可选的示例,上述装置还包括:第二确定单元,用于从每一个上述语句类中,确定出一个或多个与上述目标文件的内容的目标相似度最高的目标语句之前,将每一个上述语句类中的每一个上述语句确定为当前语句,对上述当前语句执行以下操作:确定上述当前语句与上述目标文件的内容的第一相似度与上述当前语句与上述目标文件的内容的第二相似度,上述第一相似度用于指示上述当前语句与上述目标文件的内容在通用领域的相似度,上述第二相似度用于指示上述当前语句与上述目标文件的内容在专有领域的相似度;将上述第一相似度与上述第二相似度的加权求和结果确定为上述当前语句与上述目标文件的上述目标相似度。
作为一种可选的示例,上述第二确定单元包括:输入模块,用于将上述当前语句与上述目标文件的内容输入到第一神经网络模型中,其中,上述第一神经网络模型为预先训练的用于输出语句的向量的模型;获取模块,用于获取上述第一神经网络模型输出的上述当前语句的第一语句向量与上述目标文件的内容的第二语句向量;第一确定模块,用于将上述第一语句向量与上述第二语句向量的余弦相似度确定为上述当前语句与上述目标文件的内容的上述第一相似度。
作为一种可选的示例,上述第一确定模块包括:处理子模块,用于对上述余弦相似度进行平滑处理;第一确定子模块,用于将平滑处理后的上述余弦相似度确定为上述当前语句与上述目标文件的内容的上述第一相似度。
作为一种可选的示例,上述第二确定单元包括:分词模块,用于对上述当前语句与上述目标文件的内容进行分词,得到上述当前语句的第一分词结果与上述目标文件的内容的第二分词结果;转换模块,用于将上述第一分词结果转换为多个第一词向量,并将上述第二分词结果转换为多个第二词向量;第二确定模块,用于根据多个上述第一词向量得到上述当前语句的第一句向量,并根据多个上述第二分词结果得到上述目标文件的内容的第二句向量;第三确定模块,用于将上述第一句向量与上述第二句向量的余弦相似度确定为上述当前语句与上述目标文件的内容的第二相似度。
作为一种可选的示例,上述第二确定模块包括:第二确定子模块,用于将多个上述第一词向量的加权求和结果除以上述当前语句的句子长度所得到的商确定为上述当前语句的上述第一句向量;第三确定子模块,用于将多个上述第二词向量的加权求和结果除以上述目标文件的内容长度所得到的商确定为上述目标文件的上述第二句向量。
作为一种可选的示例,上述第二确定单元还包括:第四确定模块,用于在根据上述第一词向量得到上述当前语句的第一句向量,并根据上述第二分词结果得到上述目标文件的内容的第二句向量之后,在将上述第一句向量与上述第二句向量的余弦相似度确定为上述当前语句与上述目标文件的内容的第二相似度之前,对上述第一句向量与上述第二句向量分别执行主成分分析步骤,确定上述第一句向量中的噪声与上述第二句向量中的噪声;删除模块,用于删除上述第一句向量中的噪声与上述第二句向量中的噪声。
作为一种可选的示例,上述划分单元包括:第五确定模块,用于按照上述目标文件的内容的长度,确定上述目标文件的语句类的数量N,其中,上述N为正整数;划分模块,用于将拆分得到的上述多个语句按照上述相似度划分为上述N个语句类。
作为一种可选的示例,上述组合单元包括:组合模块,用于按照上述目标语句在上述目标文件中出现的先后顺序,将上述目标语句组合为一段文本;第六确定模块,用于将上述一段文本确定为上述目标文件的摘要。
在本发明实施例中,在获取到待确定摘要的目标文件之后,将上述目标文件的内容拆分为多个语句;将拆分得到的上述多个语句按照语句相似度划分为多个语句类;从每一个上述语句类中,确定出一个或多个与上述目标文件的内容的目标相似度最高的目标语句;将确定出的上述目标语句组合为上述目标文件的摘要的方法。由于在上述方法中,在确定文件的摘要的过程中,是将文件的内容拆分成多个语句类,并将每一个语句类中与文章内容相似度高的目标语句组合为文件的内容的摘要,实现了提高文件摘要确定准确度的效果,进而解决了文本摘要确定的准确性较低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的文本摘要确定方法的应用环境的示意图;
图2是根据本发明实施例的另一种可选的文本摘要确定方法的应用环境的示意图;
图3是根据本发明实施例的一种可选的文本摘要确定方法的流程的示意图;
图4是根据本发明实施例的另一种可选的文本摘要确定方法的流程的示意图;
图5是根据本发明实施例的又一种可选的文本摘要确定方法的流程的示意图;
图6是根据本发明实施例的又一种可选的文本摘要确定方法的流程的示意图;
图7是根据本发明实施例的一种可选的文本摘要确定方法的摘要显示示意图;
图8是根据本发明实施例的一种可选的文本摘要确定装置的结构示意图;
图9是根据本发明实施例的另一种可选的文本摘要确定装置的结构示意图;
图10是根据本发明实施例的又一种可选的文本摘要确定装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例的一个方面,提供了一种文本摘要确定方法,可选地,作为一种可选的实施方式,上述文本摘要确定方法可以但不限于应用于如图1所示的环境中。其中,可以但不限于包括用户设备102、网络110及服务器112,其中,该用户设备102上可以但不限于包括显示器108、处理器106及存储器104。服务器112可以包括数据库114和处理引擎116,用户设备102可以获取目标文件,然后将目标文件通过步骤S102发送给服务器112,由服务器确定目标文件的摘要,然后通过步骤S104将摘要返回给用户设备102。
可选地,作为一种可选的实施方式,上述文本摘要确定方法可以但不限于应用于如图2所示的环境中。与图1的环境不同之处在于,用户设备102独自完成确定摘要的步骤。在获取到目标文件之后,用户设备102通过步骤S202-步骤S208获取目标文件的摘要,并显示摘要。
可选地,作为一种可选的实施方式,如图3所示,上述文本摘要确定方法包括:
S302,在获取到待确定摘要的目标文件之后,将所述目标文件的内容拆分为多个语句;
S304,将拆分得到的所述多个语句按照语句相似度划分为多个语句类;
S306,从每一个所述语句类中,确定出一个或多个与所述目标文件的内容的目标相似度最高的目标语句;
S308,将确定出的所述目标语句组合为所述目标文件的摘要。
可选的,本申请实施例可以但不限于应用与确定一个文件,如一篇文章的摘要的过程中。文件可以为包含文字内容的文件。也可以包含其他内容,如图片、链接等内容。确定摘要的过程中,根据文件中的内容的文字内容确定摘要。
例如,对于一篇文章,获取文章的内容,文章中可能包括了图片等除文字外的其他内容。获取文章的内容包括获取文章的文字内容。
然后,将文章的文字内容分成多句,可以按照标点符号拆分,每一个标点符号断次句。或者按照句号拆分。每一个句号断次句。将文件的文字内容拆分成多个语句后,将多个语句按照有相似度划分为多个语句类,每一个语句类可以包括一个或多个语句。从每一个语句类中,确定出一个或者多个目标语句。目标语句是语句类中,与文件的文字内容的目标相似度最大的语句。如果从语句类中确定出一个目标语句,则确定目标相似度最大的语句作为目标语句。如果从语句类中确定出多个目标语句,则将目标相似度从大到小排序,将前M个语句确定为目标语句。M为正整数。
确定出目标语句之后,将目标语句拼接为目标文件的摘要。
由于在上述方法中,在确定目标文件的摘要的过程中,是将文件的内容拆分成多个语句类,并将每一个语句类中与文章内容相似度高的目标语句组合为文件的内容的摘要,实现了提高文件摘要确定准确度的效果。
作为一种可选的示例,从每一个上述语句类中,确定出一个或多个与上述目标文件的内容的目标相似度最高的目标语句之前,上述方法还包括:将每一个上述语句类中的每一个上述语句确定为当前语句,对上述当前语句执行以下操作:确定上述当前语句与上述目标文件的内容的第一相似度与上述当前语句与上述目标文件的内容的第二相似度,上述第一相似度用于指示上述当前语句与上述目标文件的内容在通用领域的相似度,上述第二相似度用于指示上述当前语句与上述目标文件的内容在专有领域的相似度;将上述第一相似度与上述第二相似度的加权求和结果确定为上述当前语句与上述目标文件的上述目标相似度。
可选地,在将目标文件中的内容拆分成多个语句类之后,对于每一个语句类中的每一个语句,将其确定为当前语句,确定当前语句与目标文件的内容的目标相似度。目标相似度可以由第一相似度与第二相似度构成。第一相似度表示通用领域相似度,第二相似度表示专有领域相似度。第一相似度与第二相似度的加权求和结果可以作为目标相似度。
通过本实施例,通过上述方法,实现了提高确定目标相似度的准确性的效果。
作为一种可选的示例,确定上述当前语句与上述目标文件的内容的第一相似度包括:将上述当前语句与上述目标文件的内容输入到第一神经网络模型中,其中,上述第一神经网络模型为预先训练的用于输出语句的向量的模型;获取上述第一神经网络模型输出的上述当前语句的第一语句向量与上述目标文件的内容的第二语句向量;将上述第一语句向量与上述第二语句向量的余弦相似度确定为上述当前语句与上述目标文件的内容的上述第一相似度。
可选的,第一神经网络模型可以用于输出一个语句的语句向量。对于训练好的第一神经网络模型,其可以输入一个语句后,输出该语句的语句向量。对于当前语句,可以输入到第一神经网络模型中,得到当前语句的第一语句向量,对于目标文件的内容,可以输入到第一神经网络模型中,得到目标文件的内容的第二语句向量。第一语句向量与第二语句向量可以通过确定预先相似度来确定第一相似度。
通过本实施例,通过上述方法,从而实现了根据第一神经网络模型来确定第一相似度,实现了提高第一相似度的准确度。
作为一种可选的示例,上述将上述第一语句向量与上述第二语句向量的余弦相似度确定为上述当前语句与上述目标文件的内容的上述第一相似度包括:对上述余弦相似度进行平滑处理;将平滑处理后的上述余弦相似度确定为上述当前语句与上述目标文件的内容的上述第一相似度。
可选的,在对余弦相似度进行平滑处理可以使用均值滤波、中值滤波或者高斯滤波等方法对余弦相似度进行平滑处理。
通过本实施例,通过上述方法,从而实现了提高第一相似度准确性的效果。
作为一种可选的示例,确定上述当前语句与上述目标文件的内容的第二相似度包括:对上述当前语句与上述目标文件的内容进行分词,得到上述当前语句的第一分词结果与上述目标文件的内容的第二分词结果;将上述第一分词结果转换为多个第一词向量,并将上述第二分词结果转换为多个第二词向量;根据多个上述第一词向量得到上述当前语句的第一句向量,并根据多个上述第二分词结果得到上述目标文件的内容的第二句向量;将上述第一句向量与上述第二句向量的余弦相似度确定为上述当前语句与上述目标文件的内容的第二相似度。
可选的,对于当前语句和目标文件的内容,可以拆分成多个词汇,每一个词汇转换为一个向量,得到多个第一词向量与多个第二词向量。第一词向量可以得到当前语句的第一句向量,第二词向量可以得到目标文件的第二句向量。将第一句向量与第二句向量的余弦相似度或者余弦相似度平滑处理后的相似度确定为第二相似度。
通过本实施例,通过上述方法,实现了提高第二相似度的准确性的效果。
作为一种可选的示例,上述根据多个上述第一词向量得到上述当前语句的第一句向量,并根据多个上述第二分词结果得到上述目标文件的内容的第二句向量包括:将多个上述第一词向量的加权求和结果除以上述当前语句的句子长度所得到的商确定为上述当前语句的上述第一句向量;将多个上述第二词向量的加权求和结果除以上述目标文件的内容长度所得到的商确定为上述目标文件的上述第二句向量。
在确定出当前语句的每一个词的第一词向量之后,可以将每一个词的第一词向量的加权求和结果,除以当前语句的词的个数,得到第一句向量,而对于目标文件的多个第二词向量,可以确定出第二词向量的加权求和结果,除以目标文件的内容的词语数量,得到第二句向量。
通过本实施例,通过上述方法,从而提高了确定第一句向量与第二句向量的准确性。
作为一种可选的示例,在根据上述第一词向量得到上述当前语句的第一句向量,并根据上述第二分词结果得到上述目标文件的内容的第二句向量之后,在将上述第一句向量与上述第二句向量的余弦相似度确定为上述当前语句与上述目标文件的内容的第二相似度之前,上述方法还包括:对上述第一句向量与上述第二句向量分别执行主成分分析步骤,确定上述第一句向量中的噪声与上述第二句向量中的噪声;删除上述第一句向量中的噪声与上述第二句向量中的噪声。主成分分析可以将多指标的数据转换为少数几个指标的数据,实现数据的简化。
可选的,在确定出第一句向量与第二句向量之后,可以对第一句向量与第二句向量进行降噪处理。首先确定第一句向量与第二句向量中的噪声,然后删除第一句向量与第二句向量中的噪声。删除造成后的第一句向量与第二句向量通过确定余弦相似度确定第二相似度。
通过本实施例,通过上述方法,提高了确定第二相似度的准确性的效果。
作为一种可选的示例,上述将拆分得到的上述多个语句按照语句相似度划分为多个语句类包括:按照上述目标文件的内容的长度,确定上述目标文件的语句类的数量N,其中,上述N为正整数;将拆分得到的上述多个语句按照上述相似度划分为上述N个语句类。
可选的,上述N为正整数。对于不同的长度的目标文件(长度按照文本内容的多少划分),可以拆分成不同数量的语句类。例如,1000词(或者以句为单位,100句)的目标文件,可以分为10个语句类,每一个语句类确定出一个或者多个目标语句。得到10个或者10个以上的目标语句。将目标语句组合为目标文件的摘要。
通过本实施例,通过根据目标文件的长度来确定语句类的数量,实现了提高确定的摘要的准确性的效果。
作为一种可选的示例,上述将确定出的上述目标语句组合为上述目标文件的摘要包括:按照上述目标语句在上述目标文件中出现的先后顺序,将上述目标语句组合为一段文本;将上述一段文本确定为上述目标文件的摘要。
可选的,确定出目标语句之后,可以按照目标语句在目标文件中的顺序进行组合,得到摘要。通过本实施例,实现了提高摘要的准确性的效果。
以下结合一个具体的示例进行说明。
首先,获取第一神经网络模型与词向量模型。词向量模型是预先训练的模型,可以输出一个词的词向量。首先,可以爬取训练数据,可以爬取如公众号、评测文章等各类数据,然后将数据进行清洗,将繁体转换为简体,将标点符号同一。使用正则表达式去除特殊字符;去掉可能存在的昵称;将网站、手机、电话等进行统一替换;保留表情,将各个平台不同的表情表征归一化处理。然后进行文本分词。文本分词:收集公开整理的最新的中文词库、常用英文词库,并加入在电商领域中积累的专有词,组合并去重生成自定义词库,用于保证分词的准确性。分词后,使用skip-gram词向量训练法训练词向量模型,得到成熟的词向量模型。将每个词表示为一个个向量,每个向量的长度为200。在分词后,还可以将每个词出现的频率进行统计并保存。
上述第一神经网络模型为使用语句训练的语句模型,可以输出语句的语句向量。
在准备好模型后,可以获取目标文件。目标文件为包括文本内容的文件。目标文件的文本内容可以进行拆分,得到多个语句,多个语句可以按照相似度进行分类,得到多个语句类。例如,如图5所示,一个目标文件的文本内容包括10句话,
在将目标文件的文本内容分为多个语句类之后,可以将每一个语句类中的一个语句(以下称为当前语句)与目标文件的文本内容(以下称为文本内容)的目标相似度。目标相似度包括了第一相似度与第二相似度。
第一相似度可以通过第一神经网络模型确定。将当前语句与文本内容输入到第一神经网络模型中。第一神经网络模型可以为开源的预训练模型Emie。将当前语句与文本内容输入到第一神经网络模型,第一神经网络模型可以输出当前语句与文本内容的句向量表征。基于句向量表征计算cos相似度。引入平滑方法:本质是通过拟合训练得到表达式,输入是源cos相似度cos_sim,平滑后为新相似度new_sim
amp=1-1/ecos_sim (1)
smooth=amp/(e2+eamp) (2)
new_sim=cos_sim*(1+smooth)-0.1 (3)
其中,amp与smooth为中间参数。平滑后的新相似度即为当前语句与文本内容的第一相似度。
接着为第二相似度的计算。对当前语句与文本内容进行分词,分为多个词汇,将每一个词汇输入到词向量模型中,将每一个词映射为向量。接着基于每个词的词频平滑得到权重(词频越高权重越低),将权重和词向量相乘,然后将相乘求和并除以句子长度,得到当前语句的第一句向量和文本内容的第二句向量。主成分分析,对获得的第一句向量或第二句向量作主成分分析降噪,然后将主成分分析结果乘以第一句向量或第二句向量计算噪声,然后用第一句向量或第二句向量减去噪声获得新句向量。新句向量做cos相似度计算得到第二相似度。
基于两种相似度方法,一种是通用领域中的语意表征的相似性,以及另一种是专有领域的语意表征相似性,综合起来得到合理的语句表征求取当前语句d1和文本内容d2在通用级别、专有级别的综合相似性:
sim(d1,d2)=α*sim_sif(d1,d2)+(1-α)*sim_bert(d1,d2) (4)
sim_sif为第一相似度,sim_bert为第二相似度。A属于0-1。可选的,使用额外的分类实验,挑选并标注部分样本,通过随机森林特征重要性评估对应的权值比例,计算得到在分类的测评中,α值取0.69,意味着在专有领域上的相似度较高于通用级别相似性。
在获取目标文件后,将文件内容分成多个单句后,单句聚类:基于k-means++聚类算法,结合综合句子相似性,根据文章长短的不同,选择k值[目前经验值中4-8个类别],从而实现k个类别的聚合摘要抽取策略:对于每个类别,分别计算单句和全文档的相似度(综合相似性法),抽取每个类别中最相似的句子。将抽取的句子组合成摘要。组合时,按照抽取的句子在文本中的先后位置,将多个句子拼接为摘要。
流程可以参见图4-图6所示。图4的S402到S410为训练词向量模型的流程示意图。首先S402,获取初始语料,然后S404,对初始语料进行清洗,接着S406,对清洗后的语料进行分词,得到样本数据。S408,使用样本数据训练词向量模型,S410,统计样本数据的每个词的词频。
图5的步骤S502到步骤S516为确定语句与文本内容的目标相似度的流程图。首先,S502,获取当前语句与文本内容,然后S504,将当前语句与文本内容输入到第一神经网络模型中,得到第一语句向量与第二语句向量,S506,根据第一语句向量与第二语句向量确定出第一相似度。接着S508,对当前语句与文本内容进行分词,S510,将分词输入词向量模型得到当前语句的第一词向量与文本内容的第二词向量。S512,使用词向量确定句向量,S514,根据句向量确定第二相似度。最后S516,根据第一相似度与第二相似度确定出当前语句与文本内容的目标相似度。
图6为确定目标文件的摘要的流程示意图。首先,S602获取目标文件,然后S604,将目标文件的文本内容拆分为多个语句,S606,将多个语句按照相似度分成多个语句类,S608,每一个语句类中确定出一个目标语句,S610,将目标语句组合为目标文件的摘要。
可选的,如图7所示,图7为一种显示摘要的示意图。通过按钮702选择文件,在确定文件之后,点击确定按钮704,则文件的摘要显示在区域706中。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
根据本发明实施例的另一个方面,还提供了一种用于实施上述文本摘要确定方法的文本摘要确定装置。如图8所示,该装置包括:
拆分单元802,用于在获取到待确定摘要的目标文件之后,将所述目标文件的内容拆分为多个语句;
划分单元804,用于将拆分得到的所述多个语句按照语句相似度划分为多个语句类;
第一确定单元806,用于从每一个所述语句类中,确定出一个或多个与所述目标文件的内容的目标相似度最高的目标语句,其中,所述M为正整数;
组合单元808,用于将确定出的所述目标语句组合为所述目标文件的摘要。
可选的,本申请实施例可以但不限于应用与确定一个文件,如一篇文章的摘要的过程中。文件可以为包含文字内容的文件。也可以包含其他内容,如图片、链接等内容。确定摘要的过程中,根据文件中的内容的文字内容确定摘要。
例如,对于一篇文章,获取文章的内容,文章中可能包括了图片等除文字外的其他内容。获取文章的内容包括获取文章的文字内容。
然后,将文章的文字内容分成多句,可以按照标点符号拆分,每一个标点符号断次句。或者按照句号拆分。每一个句号断次句。将文件的文字内容拆分成多个语句后,将多个语句按照有相似度划分为多个语句类,每一个语句类可以包括一个或多个语句。从每一个语句类中,确定出一个或者多个目标语句。目标语句是语句类中,与文件的文字内容的目标相似度最大的语句。如果从语句类中确定出一个目标语句,则确定目标相似度最大的语句作为目标语句。如果从语句类中确定出多个目标语句,则将目标相似度从大到小排序,将前M个语句确定为目标语句。M为正整数。
确定出目标语句之后,将目标语句拼接为目标文件的摘要。
由于在上述方法中,在确定目标文件的摘要的过程中,是将文件的内容拆分成多个语句类,并将每一个语句类中与文章内容相似度高的目标语句组合为文件的内容的摘要,实现了提高文件摘要确定准确度的效果。
作为一种可选的实施方式,如图9所示,上述装置还包括:
第二确定单元902,用于从每一个所述语句类中,确定出一个或多个与所述目标文件的内容的目标相似度最高的目标语句之前,将每一个所述语句类中的每一个所述语句确定为当前语句,对所述当前语句执行以下操作:
确定所述当前语句与所述目标文件的内容的第一相似度与所述当前语句与所述目标文件的内容的第二相似度,所述第一相似度用于指示所述当前语句与所述目标文件的内容在通用领域的相似度,所述第二相似度用于指示所述当前语句与所述目标文件的内容在专有领域的相似度;将所述第一相似度与所述第二相似度的加权求和结果确定为所述当前语句与所述目标文件的所述目标相似度。
作为一种可选的实施方式,如图10所示,上述划分单元包括:
第五确定模块,用于按照所述目标文件的内容的长度,确定所述目标文件的语句类的数量N,其中,所述N为正整数;
划分模块,用于将拆分得到的所述多个语句按照所述相似度划分为所述N个语句类。
本实施例的其他示例请参见上述示例,在此不做赘述。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种文本摘要确定方法,其特征在于,包括:
在获取到待确定摘要的目标文件之后,将所述目标文件的内容拆分为多个语句;
将拆分得到的所述多个语句按照语句相似度划分为多个语句类;
从每一个所述语句类中,确定出一个或多个与所述目标文件的内容的目标相似度最高的目标语句;
将确定出的所述目标语句组合为所述目标文件的摘要。
2.根据权利要求1所述的方法,其特征在于,从每一个所述语句类中,确定出一个或多个与所述目标文件的内容的目标相似度最高的目标语句之前,所述方法还包括:
将每一个所述语句类中的每一个所述语句确定为当前语句,对所述当前语句执行以下操作:
确定所述当前语句与所述目标文件的内容的第一相似度与所述当前语句与所述目标文件的内容的第二相似度,所述第一相似度用于指示所述当前语句与所述目标文件的内容在通用领域的相似度,所述第二相似度用于指示所述当前语句与所述目标文件的内容在专有领域的相似度;
将所述第一相似度与所述第二相似度的加权求和结果确定为所述当前语句与所述目标文件的所述目标相似度。
3.根据权利要求2所述的方法,其特征在于,确定所述当前语句与所述目标文件的内容的第一相似度包括:
将所述当前语句与所述目标文件的内容输入到第一神经网络模型中,其中,所述第一神经网络模型为预先训练的用于输出语句的向量的模型;
获取所述第一神经网络模型输出的所述当前语句的第一语句向量与所述目标文件的内容的第二语句向量;
将所述第一语句向量与所述第二语句向量的余弦相似度确定为所述当前语句与所述目标文件的内容的所述第一相似度。
4.根据权利要求3所述的方法,其特征在于,所述将所述第一语句向量与所述第二语句向量的余弦相似度确定为所述当前语句与所述目标文件的内容的所述第一相似度包括:
对所述余弦相似度进行平滑处理;
将平滑处理后的所述余弦相似度确定为所述当前语句与所述目标文件的内容的所述第一相似度。
5.根据权利要求2所述的方法,其特征在于,确定所述当前语句与所述目标文件的内容的第二相似度包括:
对所述当前语句与所述目标文件的内容进行分词,得到所述当前语句的第一分词结果与所述目标文件的内容的第二分词结果;
将所述第一分词结果转换为多个第一词向量,并将所述第二分词结果转换为多个第二词向量;
根据多个所述第一词向量得到所述当前语句的第一句向量,并根据多个所述第二分词结果得到所述目标文件的内容的第二句向量;
将所述第一句向量与所述第二句向量的余弦相似度确定为所述当前语句与所述目标文件的内容的第二相似度。
6.根据权利要求5所述的方法,其特征在于,所述根据多个所述第一词向量得到所述当前语句的第一句向量,并根据多个所述第二分词结果得到所述目标文件的内容的第二句向量包括:
将多个所述第一词向量的加权求和结果除以所述当前语句的句子长度所得到的商确定为所述当前语句的所述第一句向量;
将多个所述第二词向量的加权求和结果除以所述目标文件的内容长度所得到的商确定为所述目标文件的所述第二句向量。
7.根据权利要求5所述的方法,其特征在于,在根据所述第一词向量得到所述当前语句的第一句向量,并根据所述第二分词结果得到所述目标文件的内容的第二句向量之后,在将所述第一句向量与所述第二句向量的余弦相似度确定为所述当前语句与所述目标文件的内容的第二相似度之前,所述方法还包括:
对所述第一句向量与所述第二句向量分别执行主成分分析步骤,确定所述第一句向量中的噪声与所述第二句向量中的噪声;
删除所述第一句向量中的噪声与所述第二句向量中的噪声。
8.根据权利要求1至7任意一项所述的方法,其特征在于,所述将拆分得到的所述多个语句按照语句相似度划分为多个语句类包括:
按照所述目标文件的内容的长度,确定所述目标文件的语句类的数量N,其中,所述N为正整数;
将拆分得到的所述多个语句按照所述相似度划分为所述N个语句类。
9.根据权利要求1至7任意一项所述的方法,其特征在于,所述将确定出的所述目标语句组合为所述目标文件的摘要包括:
按照所述目标语句在所述目标文件中出现的先后顺序,将所述目标语句组合为一段文本;
将所述一段文本确定为所述目标文件的摘要。
10.一种文本摘要确定装置,其特征在于,包括:
拆分单元,用于在获取到待确定摘要的目标文件之后,将所述目标文件的内容拆分为多个语句;
划分单元,用于将拆分得到的所述多个语句按照语句相似度划分为多个语句类;
第一确定单元,用于从每一个所述语句类中,确定出一个或多个与所述目标文件的内容的目标相似度最高的目标语句;
组合单元,用于将确定出的所述目标语句组合为所述目标文件的摘要。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011140548.8A CN112183078B (zh) | 2020-10-22 | 2020-10-22 | 文本摘要确定方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011140548.8A CN112183078B (zh) | 2020-10-22 | 2020-10-22 | 文本摘要确定方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112183078A true CN112183078A (zh) | 2021-01-05 |
CN112183078B CN112183078B (zh) | 2023-01-10 |
Family
ID=73923612
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011140548.8A Active CN112183078B (zh) | 2020-10-22 | 2020-10-22 | 文本摘要确定方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112183078B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113204965A (zh) * | 2021-05-31 | 2021-08-03 | 平安科技(深圳)有限公司 | 关键词提取方法、装置、计算机设备及可读存储介质 |
CN113204629A (zh) * | 2021-05-31 | 2021-08-03 | 平安科技(深圳)有限公司 | 文本匹配方法、装置、计算机设备及可读存储介质 |
CN114186066A (zh) * | 2022-02-16 | 2022-03-15 | 子长科技(北京)有限公司 | 一种报告生成方法、系统、存储介质及电子设备 |
CN117743838A (zh) * | 2024-02-20 | 2024-03-22 | 卓世智星(成都)科技有限公司 | 用于大语言模型的数据知识提取方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109726282A (zh) * | 2018-12-26 | 2019-05-07 | 东软集团股份有限公司 | 一种生成文章摘要的方法、装置、设备和存储介质 |
CN109783795A (zh) * | 2017-11-14 | 2019-05-21 | 深圳市腾讯计算机系统有限公司 | 一种摘要获取的方法、装置、设备及计算机可读存储介质 |
CN111581374A (zh) * | 2020-05-09 | 2020-08-25 | 联想(北京)有限公司 | 文本的摘要获取方法、装置及电子设备 |
-
2020
- 2020-10-22 CN CN202011140548.8A patent/CN112183078B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109783795A (zh) * | 2017-11-14 | 2019-05-21 | 深圳市腾讯计算机系统有限公司 | 一种摘要获取的方法、装置、设备及计算机可读存储介质 |
CN109726282A (zh) * | 2018-12-26 | 2019-05-07 | 东软集团股份有限公司 | 一种生成文章摘要的方法、装置、设备和存储介质 |
CN111581374A (zh) * | 2020-05-09 | 2020-08-25 | 联想(北京)有限公司 | 文本的摘要获取方法、装置及电子设备 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113204965A (zh) * | 2021-05-31 | 2021-08-03 | 平安科技(深圳)有限公司 | 关键词提取方法、装置、计算机设备及可读存储介质 |
CN113204629A (zh) * | 2021-05-31 | 2021-08-03 | 平安科技(深圳)有限公司 | 文本匹配方法、装置、计算机设备及可读存储介质 |
CN113204965B (zh) * | 2021-05-31 | 2024-07-02 | 平安科技(深圳)有限公司 | 关键词提取方法、装置、计算机设备及可读存储介质 |
CN114186066A (zh) * | 2022-02-16 | 2022-03-15 | 子长科技(北京)有限公司 | 一种报告生成方法、系统、存储介质及电子设备 |
CN117743838A (zh) * | 2024-02-20 | 2024-03-22 | 卓世智星(成都)科技有限公司 | 用于大语言模型的数据知识提取方法 |
CN117743838B (zh) * | 2024-02-20 | 2024-04-30 | 卓世智星(成都)科技有限公司 | 用于大语言模型的数据知识提取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112183078B (zh) | 2023-01-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112183078B (zh) | 文本摘要确定方法和装置 | |
CN110377740B (zh) | 情感极性分析方法、装置、电子设备及存储介质 | |
CN107862058B (zh) | 用于生成信息的方法和装置 | |
CN107436916B (zh) | 智能提示答案的方法及装置 | |
CN110737774A (zh) | 图书知识图谱的构建、图书推荐方法、装置、设备及介质 | |
CN113553412A (zh) | 问答处理方法、装置、电子设备和存储介质 | |
CN111368066B (zh) | 获取对话摘要的方法、装置和计算机可读存储介质 | |
CN112860896A (zh) | 语料泛化方法及用于工业领域的人机对话情感分析方法 | |
CN110347934B (zh) | 一种文本数据过滤方法、装置及介质 | |
CN113806483B (zh) | 数据处理方法、装置、电子设备及计算机程序产品 | |
CN110209780B (zh) | 一种问题模板生成方法、装置、服务器及存储介质 | |
CN114420168A (zh) | 情绪识别方法、装置、设备及存储介质 | |
CN114118062A (zh) | 客户特征提取方法、装置、电子设备及存储介质 | |
CN111882224A (zh) | 对消费场景进行分类的方法和装置 | |
CN114860667B (zh) | 文件分类方法、装置、电子设备及计算机可读存储介质 | |
CN114881227B (zh) | 模型压缩方法、图像处理方法、装置和电子设备 | |
CN110929499A (zh) | 文本相似度获取方法、装置、介质及电子设备 | |
CN114528851B (zh) | 回复语句确定方法、装置、电子设备和存储介质 | |
CN116127066A (zh) | 文本聚类方法、文本聚类装置、电子设备及存储介质 | |
CN113297479B (zh) | 一种用户画像生成方法、装置及电子设备 | |
CN110852078A (zh) | 生成标题的方法和装置 | |
CN115080864A (zh) | 基于人工智能的产品推荐方法、装置、计算机设备及介质 | |
CN115544204A (zh) | 一种不良语料过滤方法以及系统 | |
CN115048523A (zh) | 文本分类方法、装置、设备以及存储介质 | |
CN114490969A (zh) | 基于表格的问答方法、装置以及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20231116 Address after: Unit 5B03, 5th Floor, Building 2, No. 277 Longlan Road, Xuhui District, Shanghai, 200000 Patentee after: SHANGHAI SECOND PICKET NETWORK TECHNOLOGY CO.,LTD. Address before: Floors 4, 5 and 6, No. 3, Lane 1473, Zhenguang Road, Putuo District, Shanghai, 200333 Patentee before: Shanghai Fengzhi Technology Co.,Ltd. |
|
TR01 | Transfer of patent right |