CN114781379A

CN114781379A - 一种获取关键短语的数据处理系统

Info

Publication number: CN114781379A
Application number: CN202210710981.3A
Authority: CN
Inventors: 刘羽; 傅晓航; 常鸿宇; 林方
Original assignee: Zhongke Yuchen Technology Co Ltd
Current assignee: Zhongke Yuchen Technology Co Ltd
Priority date: 2022-06-22
Filing date: 2022-06-22
Publication date: 2022-07-22
Anticipated expiration: 2042-06-22
Also published as: CN114781379B

Abstract

本发明涉及一种获取关键短语的数据处理系统包括：数据库、处理器和存储有计算机程序的存储器，当所述计算机程序被处理器执行时，实现以下步骤：对初始文本进行处理，得到初始文本对应的语句列表；根据初始文本中每一初始词和预设短语配置表，确定出中间短语列表，将初始文本和每一中间短语分别输入至目标预训练语言模型中，获取初始文对应的目标词向量和每一中间短语对应的目标词向量，根据初始文对应的目标向和每一中间短语对应的目标词向量，获取中间短语列表对应的相似度列表，当中间短语对应的相似度不小于预设的相似度阈值时，确定中间短语为关键短语；本发明能够保证关键短语抽取更符合用户的需求，提高了用户的体验感。

Description

一种获取关键短语的数据处理系统

技术领域

本发明涉及短语抽取技术领域，尤其涉及一种获取关键短语的数据处理系统。

背景技术

为了提高人们浏览的效率，通常需要将文本中的关键信息确定出来，来简洁的表示文本。示例的，在进行视频推荐的时候，通常将视频标题中的短语或者词提取出来作为推荐内容，以简洁的表示视频的内容。由于短语的使用越来越多，因此，如何自动抽取关键短语成了一个研究热点。

现有技术中，在抽取关键短语的时候，是按照语法规则来抽取的。通常是将分词组合，使其满足特定的语法规则，例如，满足词性序列要求，然后将该组合确定为关键短语，但是在实际应用的生产环境中，尤其是对于无监督的垂直领域，许多关键短语抽取模型，例如，textrank，yake，autophrasex，UCphrase等关键短语抽取模型，无法实现可解释性和抽取结果的可控性，无法保证关键短语抽取更符合用户的需求，使得用户的体验感差。

发明内容

针对上述技术问题，本发明采用的技术方案为一种获取关键短语的数据处理系统，所述系统包括：数据库、处理器和存储有计算机程序的存储器，其中，所述数据库包括：预设短语配置列表和初始文本集A={A₁，……，A_i，……，A_n}，A_i是指第i个初始文本，i=1……n，n为初始文本数量，当所述计算机程序被处理器执行时，实现以下步骤：

S100、对A_i进行处理，得到A_i对应的语句列表B_i={B_i1，……，B_ir，……，

}，B_ir= {B¹ _ir，……B^j _ir，……，B^m _ir}，B^j _ir是指A_i中第r个语句的第j个初始词语，j=1……m，m是指A_i中第r个语句对应的初始词语数量；

S200、根据B^j _ir和预设短语配置表，确定出中间短语列表D_i={D_i1，……，D_ir，……，

}，D_ir是指第r个中间短语，r=1……s_i，s_i为是指A_i对应的中间短语数量；

S300、将A_i和D_ir分别输入至目标预训练语言模型中，获取A_i对应的目标词向量H_i=（H_i1，……，H_it，……，H_ik）和D_ir对应的目标词向量G_ir=（G¹ _ir，……，G^t _ir，……，G^k _ir），H_it是指A_i对应的第t位的bit值，G^t _ir是指D_ir对应的第t位的bit值，t=1……k，k为预训练语言模型对应的向量bit位个数；

S400、根据H_i和G_ir，获取D_i对应的第一相似度列表F_i={F_i1，……，F_ir，……，

}，F_ir 是指A_i与D_ir之间的第一相似度，F_ir符合如下条件：

；

S500、F_ir≥预设的相似度阈值时，确定F_ir对应的中间短语为关键短语且对关键短语进行排序，获取关键短语列表。

本发明与现有技术相比具有明显的优点和有益效果。借由上述技术方案，本发明提供的一种获取关键短语的数据处理系统可达到相当的技术进步性及实用性，并具有产业上的广泛利用价值，其至少具有下列优点：

本发明的一种获取关键短语的数据处理系统包括：数据库、处理器和存储有计算机程序的存储器，所述数据库包括：预设短语配置列表和初始文本集，当所述计算机程序被处理器执行时，实现以下步骤：对初始文本进行处理，得到初始文本对应的语句列表；根据初始文本中每一初始词和预设短语配置表，确定出中间短语列表，将初始文本和每一中间短语分别输入至目标预训练语言模型中，获取初始文对应的目标词向量和每一中间短语对应的目标词向量，根据初始文对应的目标向和每一中间短语对应的目标词向量，获取中间短语列表对应的相似度列表，遍历相似度列表且中间短语对应的相似度不小于预设的相似度阈值时，确定中间短语为关键短语且对关键短语进行排序，获取关键短语列表；能够实现可解释性和抽取结果的可控性，保证关键短语抽取更符合用户的需求，提高了用户的体验感。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例，并配合附图,详细说明如下。

附图说明

图1为本发明实施例提供的一种获取关键短语的数据处理系统的执行计算机程序的流程图。

具体实施方式

为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例，对依据本发明提出的一种获取目标位置的数据处理系统的具体实施方式及其功效，详细说明如后。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

本实施例提供了一种获取关键短语的数据处理系统，所述系统包括：数据库、处理器和存储有计算机程序的存储器，其中，所述数据库包括：预设短语配置列表和初始文本集A={A₁，……，A_i，……，A_n}，A_i是指第i个初始文本，i=1……n，n为初始文本数量，当所述计算机程序被处理器执行时，实现以下步骤，如图1所示：

}，B_ir= {B¹ _ir，……B^j _ir，……，B^m _ir}，B^j _ir是指A_i中第r个语句的第j个初始词语，j=1……m，m是指A_i中第r个语句对应的初始词语数量。

具体地，对A_i进行处理为分词处理，本领域技术人员可以采取现有技术中任一分词方法，在此不再赘述。

具体地，A中每一A_i对应的领域均一致，能够保证权重值的准确性，进一步通过权重值，准确地确定出的关键短语。

S200、根据B^j _ir和用户输入的短语构建条件，确定出中间短语列表D_i={D_i1，……， D_ir，……，

}，D_ir是指第r个中间短语，r=1……s_i，s_i为是指A_i对应的中间短语数量。

具体地，在S100步骤中，B_ir的排序是按照每一B^j _ir的分词顺序进行排序的，能够有利于通过初始词组成关键短语。

具体地，在S200步骤中还包括如下步骤：

S201、获取B^j _ir对应的词类型，其中，每一B^j _ir对应的词类型通过分词处理可以获取，在此不再赘述。

S203、根据B_ir中每一B^j _ir对应的词类型与用户输入的短语构建条件，确定出中间短语；可以理解为：根据用户输入的短语构建条件，将B_ir中B^j _ir进行重新组合，生成中间短语，例如，用户输入的短语构建条件为基于词语的类型构成为：引号+名词+引号+若干名词；能够从一段语句中删除用户不需要的词，保证关键短语抽取更符合用户的需求，提高了用户的体验感。

S300、将A_i和D_ir分别输入至目标预训练语言模型中，获取A_i对应的目标词向量H_i=（H_i1，……，H_it，……，H_ik）和D_ir对应的目标词向量G_ir=（G¹ _ir，……，G^t _ir，……，G^k _ir），H_it是指A_i对应的第t位的bit值，G^t _ir是指D_ir对应的第t位的bit值，t=1……k，k为预训练语言模型对应的向量bit位个数。

具体地，对预训练语言模型进行训练，得到目标预训练语言模型，训练预训练语言模型的方法包括：mask language model方法和SimCSE方法，本领域技术人员可以采取masklanguage model方法或SimCSE方法训练预训练语言模型的过程，在此不再赘述，其中，本领域技术人员可以根据需求确定预训练语言模型，例如，预训练语言模型为Bert模型或者sentence-transformer模型等。

优选地，在本实施例中预训练语言模型为Bert模型，通过Bert模型，能够更加便利的确定出词向量。

具体地，在S300步骤中还通过如下步骤确定G_ir：

S301、获取D_ir对应的词语列表C_ir={C¹ _ir，……，C^x _ir，……，C^p _ir}，其中，C^x _ir是指D_ir对应的第x个初始词语，x=1……p，p为D_ir对应的初始词语数量；

S303、将C^x _ir输入至目标预训练语言模型中，获取C^x _ir对应的中间词向量U^x _ir=（U^x1 _ir，……，U^xt _ir，……，U^xk _ir），U^xt _ir是指C^x _ir对应的第t位的bit值；

S305、根据U^x _ir，获取G^t _ir，G^t _ir符合如下条件：

，其中，W^x _ir是C^x _ir对应的权重值。

进一步地，在S305步骤中还通过如下步骤确定W^x _ir：

S3051、从A中获取C^x _ir对应的第一词数V^x _ir和第二词数L^x _ir。

具体地，V^x _ir是指C^x _ir在A_i中出现的次数。

具体地，L^x _ir是指C^x _ir在A中出现的次数。

S3053、根据V^x _ir和L^x _ir，确定出C^x _ir对应的词频Z^x _ir，Z^x _ir符合条件如下：

。

S3055、根据Z^x _ir，获取W^x _ir，W^x _ir符合条件如下：

。

上述，通过任一初始词的词频确定出该词对应的权重值，能够使得在关键短语中更倾向权重值高的词，进而基于初始词，准确的构建关键短语，便于保证关键短语抽取更符合用户的需求，提高了用户的体验感。

}，F_ir 是指A_i与D_ir之间的第一相似度，F_ir符合如下条件：

。

S500、F_ir≥预设的相似度阈值时，确定F_ir对应的中间短语为关键短语且对关键短语进行排序，获取关键短语列表，其中，本领域技术人员根据实际需求设置相似度阈值，在此不再赘述。

在一个具体的实施例中，还通过包括如下步骤确定关键短语：

S1、根据H_i和G_ir，获取D_i对应的第二相似度列表F'_i={F'_i1，……，F'_ir，……，

}， F'_ir符合如下条件：

。

S2、F_ir≥预设的相似度阈值时，确定F_ir对应的中间短语为第一目标短语且基于第一目标短语，构建成第一目标短语列表Y。

S3、F'_ir≥预设的相似度阈值时，确定F'_ir对应的中间短语为第二目标短语且基于第二目标短语，构建成第二目标短语列表Y'。

S4、根据Y和Y'，获取关键短语列表Y₀且将Y₀内任一中间短语作为关键短语，Y₀符合如下条件：

Y₀=Y∩Y'。

上述，通过两种不同的相似度算法均可以确定为关键短语，一定是能够表征该文本的短语，能够实现可解释性和抽取结果的可控性，保证关键短语抽取更符合用户的需求，提高了用户的体验感。

具体地，关键短语列表中关键短语排序是按照关键短语的相似度由大至小顺序进行排序。

本实施例提供了一种获取关键短语的数据处理系统包括：数据库、处理器和存储有计算机程序的存储器，所述数据库包括：预设短语配置列表和初始文本集，当所述计算机程序被处理器执行时，实现以下步骤：对初始文本进行处理，得到初始文本对应的语句列表；根据初始文本中每一初始词和预设短语配置表，确定出中间短语列表，将初始文本和每一中间短语分别输入至目标预训练语言模型中，获取初始文对应的目标词向量和每一中间短语对应的目标词向量，根据初始文对应的目标向和每一中间短语对应的目标词向量，获取中间短语列表对应的相似度列表，遍历相似度列表且中间短语对应的相似度不小于预设的相似度阈值时，确定中间短语为关键短语且对关键短语进行排序，获取关键短语列表；能够实现可解释性和抽取结果的可控性，保证关键短语抽取更符合用户的需求，提高了用户的体验感。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明,任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种获取关键短语的数据处理系统，其特征在于，所述系统包括：数据库、处理器和存储有计算机程序的存储器，其中，所述数据库包括：预设短语配置列表和初始文本集A={A₁，……，A_i，……，A_n}，A_i是指第i个初始文本，i=1……n，n为初始文本数量，当所述计算机程序被处理器执行时，实现以下步骤：