CN113626583A - 文本摘要标注方法、装置、电子设备和存储介质 - Google Patents
文本摘要标注方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN113626583A CN113626583A CN202110796881.2A CN202110796881A CN113626583A CN 113626583 A CN113626583 A CN 113626583A CN 202110796881 A CN202110796881 A CN 202110796881A CN 113626583 A CN113626583 A CN 113626583A
- Authority
- CN
- China
- Prior art keywords
- sentence
- abstract
- calculated
- score
- labeling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例中提供了一种文本摘要标注方法、装置、电子设备和存储介质,所述方法包括:首先获取待标注的摘要标注文本;然后计算所述待标注的摘要标注文本的每一个句子的目标摘要标注分数;根据所述目标摘要标注分数的大小从所述待标注的摘要标注文本中选取预设数量的句子作为所述待标注的摘要标注文本的摘要数据标注,从而可以自动为待标注的摘要标注文本添加摘要数据标注,无需人工标注,提高文本的标注效率的同时降低了标注的人力成本,另外,自动标注的方式也能统一摘要标注的标准,避免由于摘要标注的标准不统一影响模型的训练效果。
Description
技术领域
本申请涉及自然语言处理领域,具体地,涉及一种文本摘要标注方法、装置、电子设备和存储介质。
背景技术
数据标注为人工智能企业提供了大量带标签的数据,供机器训练和学习,保证了算法模型的有效性。数据标注是大部分人工智能算法得以有效运行的关键环节。数据标注越准确、标注的数据量越大,算法的性能就越好。
在抽取文本的摘要时,通常是通过训练好的深度学习模型自动抽取的,但是在训练深度学习模型时,需要通过标注后的训练样本进行训练,并且,目前的训练样本都是通过人工进行标注的,每篇文本都需要标注人员阅读后进行人工摘要标注,不仅效率极低,而且容易遗漏,对于人力成本要求也很高,并且,人工标注的方式有可能存在由于标准不统一,导致同一篇文本存在多种不同的摘要标注的问题,影响模型的训练效果。
发明内容
本申请实施例中提供了一种文本摘要标注方法、装置、电子设备和存储介质,用于解决目前的人工摘要标注存在的效率低、人力成本高且摘要标注标准不统一的问题。
根据本申请实施例的第一个方面,提供了一种文本摘要标注方法,所述方法包括:
获取待标注的摘要标注文本;
计算所述待标注的摘要标注文本的每一个句子的目标摘要标注分数;
根据所述目标摘要标注分数的大小从所述待标注的摘要标注文本中选取预设数量的句子作为所述待标注的摘要标注文本的摘要数据标注。
在一种可选的实施方式中,计算所述待标注的摘要标注文本的每一个句子的目标摘要标注分数,包括:
根据所述待标注的摘要标注文本中句子的位置、句子之间的词袋重合度以及句子相似度,计算所述待标注的摘要标注文本的每一个句子的目标摘要标注分数。
在一种可选的实施方式中,计算所述待标注的摘要标注文本的每一个句子的目标摘要标注分数,包括:
针对所述待标注的摘要标注文本的每一个待计算的句子,将所述待标注的摘要标注文本中除所述待计算的句子之外的其他句子作为与所述待计算的句子进行比较的句子;
根据所述待计算的句子的位置、词袋重合度及句子相似度,计算所述待计算的句子与每一个比较的句子的初始摘要标注分数,获得所述待计算的句子的多个初始摘要标注分数;
从多个初始摘要标注分数中选择最高的初始摘要标注分数作为所述待计算的句子的目标摘要标注分数。
在一种可选的实施方式中,根据所述待计算的句子的位置、词袋重合度及句子相似度计算所述待计算的句子与每一个比较的句子的初始摘要标注分数,获得所述待计算的句子的多个初始摘要标注分数,包括:
计算所述待计算的句子与每一个比较的句子之间的词袋重合度;
计算所述待计算的句子与每一个比较的句子之间的句子相似度;
根据所述待计算的句子在所述待标注的摘要标注文本中的位置获得所述待计算的句子的位置分值;
根据所述待计算的句子的位置分值、所述待计算的句子与每一个比较句子之间的词袋重合度及句子相似度计算所述待计算的句子与每一个比较的句子的初始摘要标注分数,获得所述待计算的句子的多个初始摘要标注分数。
在一种可选的实施方式中,计算所述待计算的句子与每一个比较的句子之间的词袋重合度,包括:
对所述待计算的句子及所述比较的句子进行分词处理,并去除所述待计算的句子及所述比较的句子中的停用词,获得所述待计算的句子的关键词及所述比较的句子的关键词;
针对每一个比较的句子,通过预先训练好的词向量模型计算所述待计算的句子的各个关键词与所述比较的句子的各个关键词之间的词语相似度;
判断所述词语相似度是否大于预设阈值,若大于,则判定两个关键词相同;
计算所述待计算的句子与所述比较的句子相同的关键词的数量;
根据所述待计算的句子与所述比较的句子相同的关键词的数量、所述待计算的句子的词语总数量、所述比较的句子的词语总数量计算所述待计算的句子与所述比较的句子之间的词袋重合度。
在一种可选的实施方式中,计算所述待计算的句子与每一个比较的句子之间的句子相似度,包括:
针对每一个比较的句子,通过预先训练好的句子相似度模型对所述待计算的句子和所述比较的句子进行运算,获得所述待计算的句子与所述比较的句子之间的句子相似度。
在一种可选的实施方式中,根据所述待计算的句子在所述待标注的摘要标注文本中的位置获得所述待计算的句子的位置分值,包括:
判断所述待计算的句子是否位于所述待标注的摘要标注文本的首段落或尾段落;
若是首段落或尾段落,则将所述待计算的句子的位置分值设置为第一分值;
若不是首段落或尾段落,则判断所述待计算的句子是否为所述待标注的摘要标注文本的各个段落的首句;
若是首句,则将所述待计算的句子的位置分值设置为第二分值;
若不是首句,则将所述待计算的句子的位置分值设置为第三分值,其中,第一分值、第二分值及第三分值的和为1,且第一分值大于第二分值和第三分值,第二分值大于第三分值。
在一种可选的实施方式中,根据所述待计算的句子的位置分值、所述待计算的句子与每一个比较的句子之间的词袋重合度及句子相似度计算所述待计算的句子与每一个比较的句子的初始摘要标注分数,包括:
根据以下公式计算所述待计算的句子的初始摘要标注分数:
S=X*V1+Y*V2+Z*V3;
其中,S为所述待计算的句子的初始摘要标注分数,X为所述待计算的句子与所述比较的句子之间的词袋重合度分值,V1为词袋重合度的得分占比,Y为所述待计算的句子与所述比较的句子之间的句子相似度分值,V2为句子相似度的得分占比,Z为所述待计算的句子的位置分值,V3为位置分值的得分占比,V1、V2、V3的和为1。
根据本申请实施例的第二个方面,提供了一种文本摘要标注装置,所述装置包括:
文本获取模块,用于获取待标注的摘要标注文本;
分数计算模块,用于计算所述待标注的摘要标注文本的每一个句子的目标摘要标注分数;
标注模块,用于根据所述目标摘要标注分数的大小从所述待标注的摘要标注文本中选取预设数量的句子作为所述待标注的摘要标注文本的摘要数据标注。
在一种可选的实施方式中,所述分数计算模块用于:
根据所述待标注的摘要标注文本中句子的位置、句子之间的词袋重合度以及句子相似度,计算所述待标注的摘要标注文本的每一个句子的目标摘要标注分数。
在一种可选的实施方式中,所述分数计算模块包括:
比较的句子确定子模块,用于针对所述待标注的摘要标注文本的每一个待计算的句子,将所述待标注的摘要标注文本中除所述待计算的句子之外的其他句子作为与所述待计算的句子进行比较的句子;
初始摘要标注分数计算子模块,用于根据所述待计算的句子的位置、词袋重合度及句子相似度,计算所述待计算的句子与每一个比较的句子的初始摘要标注分数,获得所述待计算的句子的多个初始摘要标注分数;
目标摘要标注分数计算子模块,用于从多个初始摘要标注分数中选择最高的初始摘要标注分数作为所述待计算的句子的目标摘要标注分数。
在一种可选的实施方式中,所述初始摘要标注分数计算子模块用于:
计算所述待计算的句子与每一个比较的句子之间的词袋重合度;
计算所述待计算的句子与每一个比较的句子之间的句子相似度;
根据所述待计算的句子在所述待标注的摘要标注文本中的位置获得所述待计算的句子的位置分值;
根据所述待计算的句子的位置分值、所述待计算的句子与每一个比较的句子之间的词袋重合度及句子相似度计算所述待计算的句子与每一个比较的句子的初始摘要标注分数,获得所述待计算的句子的多个初始摘要标注分数。
在一种可选的实施方式中,所述初始摘要标注分数计算子模块具体用于:
对所述待计算的句子及所述比较的句子进行分词处理,并去除所述待计算的句子及所述比较的句子中的停用词,获得所述待计算的句子的关键词及所述比较的句子的关键词;
针对每一个比较的句子,通过预先训练好的词向量模型计算所述待计算句子的各个关键词与所述比较的句子的各个关键词之间的词语相似度;
判断所述词语相似度是否大于预设阈值,若大于,则判定两个关键词相同;
计算所述待计算的句子与所述比较的句子相同的关键词的数量;
根据所述待计算的句子与所述比较的句子相同的关键词的数量、所述待计算的句子的词语总数量、所述比较的句子的词语总数量计算所述待计算的句子与所述比较的句子之间的词袋重合度。
在一种可选的实施方式中,所述初始摘要标注分数计算子模块具体用于:
针对每一个比较的句子,通过预先训练好的句子相似度模型对所述待计算的句子和所述比较的句子进行运算,获得所述待计算述句子与所述比较的句子之间的句子相似度。
在一种可选的实施方式中,所述初始摘要标注分数计算子模块具体用于:
判断所述待计算的句子是否位于所述待标注的摘要标注文本的首段落或尾段落;
若是首段落或尾段落,则将所述待计算的句子的位置分值设置为第一分值;
若不是首段落或尾段落,则判断所述待计算的句子是否为所述待标注的摘要标注文本的各个段落的首句;
若是首句,则将所述待计算的句子的位置分值设置为第二分值;
若不是首句,则将所述待计算的句子的位置分值设置为第三分值,其中,第一分值、第二分值及第三分值的和为1,且第一分值大于第二分值和第三分值,第二分值大于第三分值。
在一种可选的实施方式中,所述初始摘要标注分数计算子模块具体用于:
根据以下公式计算所述待计算的句子的初始摘要标注分数:
S=X*V1+Y*V2+Z*V3;
其中,S为所述待计算的句子的初始摘要标注分数,X为所述待计算的句子与所述比较的句子之间的词袋重合度分值,V1为词袋重合度的得分占比,Y为所述待计算的句子与所述比较的句子之间的句子相似度分值,V2为句子相似度的得分占比,Z为所述待计算的句子的位置分值,V3为位置分值的得分占比,V1、V2、V3的和为1。
根据本申请实施例的第三个方面,提供了一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当所述电子设备运行时,所述处理器与所述存储器之间通过所述总线通信,所述机器可读指令被所述处理器执行时执行第一方面提供的文本摘要标注方法。
根据本申请实施例的第四个方面,提供了一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行第一方面提供的文本摘要标注方法。
本申请实施例提供了一种文本摘要标注方法、装置、电子设备和存储介质,所述方法包括:首先获取待标注的摘要标注文本;然后计算所述待标注的摘要标注文本的每一个句子的目标摘要标注分数;根据所述目标摘要标注分数的大小从所述待标注的摘要标注文本中选取预设数量的句子作为所述待标注的摘要标注文本的摘要数据标注。本申请首先计算待标注的摘要标注文本中的每一个句子的目标摘要标注分数,然后根据目标摘要标注分数的高低选取多个句子作为该待标注的摘要标注文本的摘要数据标注,从而可以自动为待标注的摘要标注文本添加摘要数据标注,无需人工标注,提高文本的标注效率的同时降低了标注的人力成本,另外,自动标注的方式也能统一摘要标注的标准,避免由于摘要标注的标准不统一影响模型的训练效果。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例提供的电子设备的示意图;
图2为本申请实施例提供的文本摘要标注方法的流程图;
图3为本申请实施例提供的步骤S12的子步骤流程图;
图4为本申请实施例提供的步骤S122的子步骤流程图;
图5为本申请实施例提供的文本摘要标注装置的功能模块图。
具体实施方式
在实现本申请的过程中,发明人发现,在计算机领域,人工智能是指根据对环境的感知,做出合理的行动并获得最大收益的计算机程序。也就是说,要想实现人工智能,需要把人类理解和判断事物的能力教给计算机,让计算机拥有类似人类的识别能力。数据标注可视为模仿人类学习过程中的经验学习,具体操作时,先把需要计算机识别和分辨的图片或文本事先打上标签,让计算机不断地识别这些图片或文本的特征,最终实现计算机的自主识别。
数据标注为人工智能企业提供了大量带标签的数据,供机器训练和学习,保证了算法模型的有效性。数据标注是大部分人工智能算法得以有效运行的关键环节。数据标注越准确、标注的数据量越大,算法的性能就越好。常见的数据标注任务包括分类标注、标框标注、区域标注、描点标注和摘要标注。
在抽取文本的摘要时,通常是通过训练好的深度学习模型自动抽取的,但是在训练深度学习模型时,需要通过标注后的训练样本进行训练,并且,目前的训练样本都是通过人工进行标注的,每篇文本都需要标注人员阅读后进行人工摘要标注,不仅效率极低,而且容易遗漏,对于人力成本要求也很高,并且,人工标注的方式有可能存在由于标准不统一,导致同一篇文本存在多种不同的摘要标注的问题,影响模型的训练效果。
针对上述问题,本申请实施例中提供了一种文本摘要标注方法、装置、电子设备和存储介质,所述方法包括:首先获取待标注的摘要标注文本;然后计算所述待标注的摘要标注文本的每一个句子的目标摘要标注分数;根据所述目标摘要标注分数的大小从所述待标注的摘要标注文本中选取预设数量的句子作为所述待标注的摘要标注文本的摘要数据标注。本申请首先计算待标注的摘要标注文本中的每一个句子的目标摘要标注分数,然后根据目标摘要标注分数的高低选取多个句子作为该待标注的摘要标注文本的摘要数据标注,从而可以自动为待标注的摘要标注文本添加摘要数据标注,无需人工标注,提高文本的标注效率的同时降低了标注的人力成本,另外,自动标注的方式也能统一摘要标注的标准,避免由于摘要标注的标准不统一影响模型的训练效果。
为了使本申请实施例中的技术方案及优点更加清楚明白,以下结合附图对本申请的示例性实施例进行进一步详细的说明,显然,所描述的实施例仅是本申请的一部分实施例,而不是所有实施例的穷举。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
请参照图1,图1为本申请实施例提供的电子设备10的示意图。本申请实施例还提供了一种电子设备10,电子设备10包括:处理器11、存储器12和总线13,存储器12存储有处理器11可执行的机器可读指令,当电子设备10运行时,11处理器与存储器12之间通过总线13通信,机器可读指令被处理器11执行时执行本申请实施例提供的文本摘要标注方法。
下面结合附图对本申请实施例提供的文本摘要标注方法进行说明。
请参照图2,图2为本申请实施例提供的文本摘要标注方法的流程图。在本实施例中,所述方法应用于图1中的电子设备10,所述方法包括:
步骤S11,获取待标注的摘要标注文本。
步骤S12,计算待标注的摘要标注文本的每一个句子的目标摘要标注分数。其中,所述目标摘要标注分数表征句子在所述待标注的摘要标注文本中的重要程度。
步骤S13,根据目标摘要标注分数的大小从待标注的摘要标注文本中选取预设数量的句子作为待标注的摘要标注文本的摘要数据标注。
在上述步骤中,本申请实施例首先计算待标注的摘要标注文本中的每一个句子的目标摘要标注分数,然后根据目标摘要标注分数的高低选取多个句子作为该待标注的摘要标注文本的摘要数据标注,从而可以自动为待标注的摘要标注文本添加摘要数据标注,无需人工标注,提高文本的标注效率的同时降低了标注的人力成本,另外,自动标注的方式也能统一摘要标注的标准,避免由于摘要标注的标准不统一影响模型的训练效果。
可选地,在本实施例中,目标摘要标注分数表征每一个句子在待标注的摘要标注文本中的重要程度。句子在文本中的重要程度可以基于句子位置、句子之间的词袋重合度、句子之间的句子相似度等一个或多个方面来考虑。具体的,步骤S12,计算所述待标注的摘要标注文本的每一个句子的目标摘要标注分数时,可以根据所述待标注的摘要标注文本中句子的位置、句子之间的词袋重合度以及句子相似度,计算所述待标注的摘要标注文本的每一个句子的目标摘要标注分数。
请参照图3,图3为本申请实施例提供的步骤S12的子步骤流程图。可选地,在本实施例中,步骤S12还可以包括以下子步骤:
步骤S121,针对待标注的摘要标注文本的每一个待计算的句子,将待标注的摘要标注文本中除待计算的句子之外的其他句子作为与待计算的句子进行比较的句子。
步骤S122,根据待计算的句子的位置、词袋重合度及句子相似度,计算待计算的句子与每一个比较的句子的初始摘要标注分数,获得待计算的句子的多个初始摘要标注分数。
步骤S123,从多个初始摘要标注分数中选择最高的初始摘要标注分数作为句子的目标摘要标注分数。
在上述步骤中,待标注的摘要标注文本包括多个句子,在计算每一个句子的初始摘要标注分数时,将该句子视作待计算的句子,并将除待计算的句子之外的所有句子作为与待计算的句子进行比较的句子,然后计算待计算的句子与每一个比较的句子的初始摘要标注分数,从而获得多个初始摘要标注分数,即每个待计算的句子对应多个初始摘要标注分数,然后从待计算的句子的多个初始摘要标注分数中选取分数最高的作为该句子的初始摘要标注分数。
例如,若待标注的摘要标注文本总共包括50个句子,在计算这50个句子中的第一个句子的目标摘要标注分数时,将除第一个句子之外的其他49个句子均作为与第一个句子进行比较的句子。然后计算该句子与这49个进行比较的句子的初始摘要标注分数,从而获得第一个句子的49个初始摘要标注分数,然后从这49个初始摘要标注分数中选取值最大的分数作为第一个句子的目标摘要标注分数。
在计算第二个句子的目标摘要标注分数时,将除第二个句子之外的其他49个句子均作为与第二个句子进行比较的句子,采用同样的方法,计算出第二个句子的目标摘要标注分数。依次类推,直到计算出待标注的摘要标注文本的每一个句子的目标摘要标注分数。
然后,在获得待标注的摘要标注文本的摘要数据标注时,若预设数量为5,则表明需要从待标注的摘要标注文本的50个句子中选取5个句子作为该待标注的摘要标注文本的摘要数据标注。在选取时,根据待标注的摘要标注文本的每一个句子的目标摘要标注分数的高低顺序,选取目标摘要标注分数最高的5个句子组成待标注的摘要标注文本的摘要数据标注,从而可以自动为待标注的摘要标注文本生成摘要数据标注。
可选地,请参照图4,图4为本申请实施例提供的步骤S122的子步骤流程图。在本实施例中,步骤S122包括:
步骤S1221,计算待计算的句子与每一个比较的句子之间的词袋重合度。
步骤S1222,计算待计算的句子与每一个比较的句子之间的句子相似度。
步骤S1223,根据待计算的句子在待标注的摘要标注文本中的位置获得句子的位置分值。
步骤S1224,根据待计算的句子的位置分值、待计算的句子与比较的句子之间的词袋重合度及句子相似度计算待计算的句子与比较的句子的初始摘要标注分数,获得待计算的句子的多个初始摘要标注分数。
在上述步骤中,在计算待标注的摘要标注文本中的待计算的句子(即需要计算初始摘要标注分数的句子)在每一个比较的句子下的初始摘要标注分数时,首先需要先计算待计算的句子与每一个比较的句子的词袋重合度X以及待计算的句子与每一个比较的句子的句子相似度Y,然后根据待计算的句子在待标注的摘要标注文本中的位置计算该待计算的句子位置分值Z。最后根据位置分值Z、词袋重合度X及句子相似度Y计算待计算的句子的初始摘要标注分数。
例如,若待计算的句子包括2个比较的句子,则待计算的句子包括2个初始摘要标注分数。首先计算待计算的句子与每一个比较的句子的词袋重合度X1、X2,以及待计算的句子与每一个比较的句子的句子相似度Y1、Y2,然后计算待计算的句子的位置分值Z。
最后根据X1、Y1及Z的值计算待计算的句子与第一个比较的句子的初始摘要标注分数,根据X2、Y2及Z的值计算待计算的句子与第二个比较的句子的初始摘要标注分数,从而获得该待计算的句子的多个初始摘要标注分数。
可选地,在本实施例中,计算所述待计算的句子与每一个比较的句子的词袋重合度包括:
对所述待计算的句子及所述比较的句子进行分词处理,并去除所述待计算的句子及所述比较的句子中的停用词,获得所述待计算的句子的关键词及所述比较的句子的关键词;针对每一个比较的句子,通过预先训练好的词向量模型计算所述待计算句子的各个关键词与所述比较的句子的各个关键词之间的词语相似度;判断所述词语相似度是否大于预设阈值,若大于,则判定两个关键词相同;计算所述待计算的句子与所述比较的句子相同的关键词的数量;根据所述待计算的句子与所述比较的句子相同的关键词的数量、所述待计算的句子的词语总数量、所述比较的句子的词语总数量计算所述待计算的句子与所述比较的句子之间的词袋重合度。
在上述步骤中,若待计算的句子包括两个比较的句子,则需要通过预先训练获得的分词词典对所述句子及其两个比较的句子进行分词处理,获得每个句子对应的词语,然后通过预先训练好的停用词词典对待计算的句子及其比较的句子进行处理,去除待计算的句子及其比较的句子中的一些无实际意义的词语,获得各个句子的关键词语。
然后通过预先训练好的词向量模型(例如word2vec模型)计算待计算的句子和每一个比较的句子的词语之间的词语相似度,若两个词语的词语相似度大于预设阈值(例如80%),则认为这两个词语相同,通过同样的方法计算出待计算的句子与每一个比较的句子相同的词语的总数量w,然后根据公式计算所述待计算的句子与比较的句子的词袋重合度,其中,w为所述待计算的句子与比较的句子相同的词语的总数量,q1、q2分别为所述待计算的句子的词语总数量、比较的句子的词语总数量、X为所述待计算的句子与所述比较的句子的词袋重合度。若所述待计算的句子包括两个比较的句子,则所述待计算的句子能够计算获得两个词袋重合度,分别与第一个比较的句子、第二个比较的句子对应。
可选地,在本实施例中,计算所述待计算的句子与每一个比较的句子之间的句子相似度,包括:
针对每一个比较的句子,通过预先训练好的句子相似度模型对所述待计算的句子和所述比较的句子进行运算,获得所述待计算的句子与所述比较的句子之间的句子相似度。
在上述步骤中,针对每一个比较的句子,都能通过预先训练好的句子相似度模型(例如BERT模型)计算出所述待计算的句子与所述比较的句子的句子相似度Y。若所述待计算的句子包括两个比较的句子,则所述待计算的句子计算获得两个句子相似度,分别与第一个比较的句子、第二个比较的句子对应。
可选地,在本实施例中,根据所述待计算的句子在所述待标注的摘要标注文本中的位置获得所述待计算的句子的位置分值,包括:
判断所述待计算的句子是否位于所述待标注的摘要标注文本的首段落或尾段落;若是首段落或尾段落,则将所述待计算的句子的位置分值设置为第一分值;若不是首段落或尾段落,则判断所述待计算的句子是否为所述待标注的摘要标注文本的各个段落的首句;若是首句,则将所述待计算的句子的位置分值设置为第二分值;若不是首句,则将所述待计算的句子的位置分值设置为第三分值,其中,第一分值、第二分值及第三分值的和为1,且第一分值大于第二分值和第三分值,第二分值大于第三分值。
在通常情况下,一篇文本的首段落或者尾段落主要用于对文章进行总结,且每个段落的第一句话也是用于对该段落进行总结。因此,可以根据每个待计算的句子所在的位置判断该待计算的句子在待标注的摘要标注文本中的重要程度,通过位置分值表示该待计算的句子的重要程度。若该待计算的句子位于待标注的摘要标注文本的首段落或者尾段落,则将该待计算的句子的位置分值Z设置为第一分值a,若该待计算的句子不在待标注的摘要标注文本的首段落或者尾段落,则判断该待计算的句子是否位于其他段落的首句,若是首句,则将该待计算的句子的位置分值Z设置为第二分值b,若该待计算的句子既不位于首段落或者尾段落,也不是其他段落的首句,则将该待计算的句子的位置分值Z设置为第三分值c。其中,第一分值a、第二分值b及第三分值c的和为1,且a>b>c。
因此,根据所述待计算的句子在待标注的摘要标注文本中的位置可以获得该待计算的句子的位置分值Z,Z越大表示该待计算的句子越有可能是整个待标注的摘要标注文本的总结语句。
可选地,在本实施例中,针对每一个比较的句子,在计算获得所述待计算的句子在所述比较的句子下的词袋重合度X、句子相似度Y及位置分值Z之后,可以根据以下公式计算所述待计算的句子与所述比较的句子的初始摘要标注分数:
S=X*V1+Y*V2+Z*V3;
其中,S为所述待计算的句子的初始摘要标注分数,X为所述待计算的句子与所述比较的句子之间的词袋重合度分值,V1为词袋重合度的得分占比,Y为所述待计算的句子与所述比较的句子之间的句子相似度分值,V2为句子相似度的得分占比,Z为所述待计算的句子的位置分值,V3为位置分值的得分占比,V1、V2、V3的和为1。
所述待计算的句子的初始摘要标注分数的个数与该待计算的句子进行比较的句子的个数相同。若所述待计算的句子包括100个比较的句子,则计算获得的初始摘要标注分数S也会存在100个,每个初始摘要标注分数对应一个比较的句子。然后从这100个初始摘要标注分数S中选取值最大的数作为所述句子的目标摘要标注分数。
若待标注的摘要标注文本总共包括101个句子(1个待计算的句子及100个与所述待计算的句子进行比较的句子),则每个待计算的句子对应一个目标摘要标注分数,然后根据这101个目标摘要标注分数的大小从待标注的摘要标注文本的101个句子中选取预设数量的句子作为待标注的摘要标注文本的摘要数据标注。
综上所述,本申请实施例提供了一种文本摘要标注方法,所述方法包括:首先获取待标注的摘要标注文本;然后计算所述待标注的摘要标注文本的每一个句子的目标摘要标注分数;根据所述目标摘要标注分数的大小从所述待标注的摘要标注文本中选取预设数量的句子作为所述待标注的摘要标注文本的摘要数据标注。本申请首先计算待标注的摘要标注文本中的每一个句子的目标摘要标注分数,然后根据目标摘要标注分数的高低选取多个句子作为该待标注的摘要标注文本的摘要数据标注,从而可以自动为待标注的摘要标注文本添加摘要数据标注,无需人工标注,提高文本的标注效率的同时降低了标注的人力成本,另外,自动标注的方式也能统一摘要标注的标准,避免由于摘要标注的标准不统一影响模型的训练效果。
本申请实施例还提供了一种文本摘要标注装置,如图5所示,图5为本申请实施例提供的文本摘要标注装置110的功能模块图。在本实施例中,所述装置包括:
文本获取模块1101,用于获取待标注的摘要标注文本。
分数计算模块1102,用于计算所述待标注的摘要标注文本的每一个句子的目标摘要标注分数。
标注模块1103,用于根据所述目标摘要标注分数的大小从所述待标注的摘要标注文本中选取预设数量的句子作为所述待标注的摘要标注文本的摘要数据标注。
可选地,在本实施例中,所述分数计算模块用于:根据所述待标注的摘要标注文本中句子的位置、句子之间的词袋重合度以及句子相似度,计算所述待标注的摘要标注文本的每一个句子的目标摘要标注分数。
可选地,在本实施例中,所述分数计算模块包括:
比较的句子确定子模块,用于针对所述待标注的摘要标注文本的每一个待计算的句子,将所述待标注的摘要标注文本中除所述待计算的句子之外的其他句子作为与所述待计算的句子进行比较的句子;
初始摘要标注分数计算子模块,用于根据所述待计算的句子的位置、词袋重合度及句子相似度,计算所述待计算的句子与每一个比较的句子的初始摘要标注分数,获得所述待计算的句子的多个初始摘要标注分数;
目标摘要标注分数计算子模块,用于从多个初始摘要标注分数中选择最高的初始摘要标注分数作为所述待计算的句子的目标摘要标注分数。
可选地,在本实施例中,所述初始摘要标注分数计算子模块用于:
计算所述待计算的句子与每一个比较的句子之间的词袋重合度;
计算所述待计算的句子与每一个比较的句子之间的句子相似度;
根据所述待计算的句子在所述待标注的摘要标注文本中的位置获得所述待计算的句子的位置分值;
根据所述待计算的句子的位置分值、所述待计算的句子与每一个比较的句子之间的词袋重合度及句子相似度计算所述待计算的句子与每一个比较的句子的初始摘要标注分数,获得所述待计算的句子的多个初始摘要标注分数。
可选地,在本实施例中,所述初始摘要标注分数计算子模块具体用于:
对所述待计算的句子及所述比较的句子进行分词处理,并去除所述待计算的句子及所述比较的句子中的停用词,获得所述待计算的句子的关键词及所述比较的句子的关键词;
针对每一个比较的句子,通过预先训练好的词向量模型计算所述待计算句子的各个关键词与所述比较的句子的各个关键词之间的词语相似度;
判断所述词语相似度是否大于预设阈值,若大于,则判定两个关键词相同;
计算所述待计算的句子与所述比较的句子相同的关键词的数量;
根据所述待计算的句子与所述比较的句子相同的关键词的数量、所述待计算的句子的词语总数量、所述比较的句子的词语总数量计算所述待计算的句子与所述比较句子之间的词袋重合度。
可选地,在本实施例中,所述初始摘要标注分数计算子模块具体用于:
针对每一个比较的句子,通过预先训练好的句子相似度模型对所述待计算的句子和所述比较的句子进行运算,获得所述待计算述句子与所述比较句子之间的句子相似度。
可选地,在本实施例中,所述初始摘要标注分数计算子模块具体用于:
判断所述待计算的句子是否位于所述待标注的摘要标注文本的首段落或尾段落;
若是首段落或尾段落,则将所述待计算的句子的位置分值设置为第一分值;
若不是首段落或尾段落,则判断所述待计算的句子是否为所述待标注的摘要标注文本的各个段落的首句;
若是首句,则将所述待计算的句子的位置分值设置为第二分值;
若不是首句,则将所述待计算的句子的位置分值设置为第三分值,其中,第一分值、第二分值及第三分值的和为1,且第一分值大于第二分值和第三分值,第二分值大于第三分值。
可选地,在本实施例中,所述初始摘要标注分数计算子模块具体用于:
根据以下公式计算所述待计算的句子的初始摘要标注分数:
S=X*V1+Y*V2+Z*V3;
其中,S为所述待计算的句子的初始摘要标注分数,X为所述待计算的句子与所述比较的句子之间的词袋重合度分值,V1为词袋重合度的得分占比,Y为所述待计算的句子与所述比较的句子之间的句子相似度分值,V2为句子相似度的得分占比,Z为所述待计算的句子的位置分值,V3为位置分值的得分占比,V1、V2、V3的和为1。
值得说明的是,本实施例提供的文本摘要标注装置的具体实现方式已在前述实施例提供的文本摘要标注方法中进行了详细说明,在此不再赘述。
本申请实施例还提供了一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述实施例提供的非易失性内存检查点生成方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (10)
1.一种文本摘要标注方法,其特征在于,所述方法包括:
获取待标注的摘要标注文本;
计算所述待标注的摘要标注文本的每一个句子的目标摘要标注分数,其中,所述目标摘要标注分数表征句子在所述待标注的摘要标注文本中的重要程度;
根据所述目标摘要标注分数的大小从所述待标注的摘要标注文本中选取预设数量的句子作为所述待标注的摘要标注文本的摘要数据标注。
2.根据权利要求1所述的方法,其特征在于,计算所述待标注的摘要标注文本的每一个句子的目标摘要标注分数,包括:
根据所述待标注的摘要标注文本中句子的位置、句子之间的词袋重合度以及句子相似度,计算所述待标注的摘要标注文本的每一个句子的目标摘要标注分数。
3.根据权利要求1或2所述的方法,其特征在于,计算所述待标注的摘要标注文本的每一个句子的目标摘要标注分数,包括:
针对所述待标注的摘要标注文本的每一个待计算的句子,将所述待标注的摘要标注文本中除所述待计算的句子之外的其他句子作为与所述待计算的句子进行比较的句子;
根据所述待计算的句子的位置、词袋重合度及句子相似度,计算所述待计算的句子与每一个比较的句子的初始摘要标注分数,获得所述待计算的句子的多个初始摘要标注分数;
从多个初始摘要标注分数中选择最高的初始摘要标注分数作为所述待计算的句子的目标摘要标注分数。
4.根据权利要求3所述的方法,其特征在于,根据所述待计算的句子的位置、词袋重合度及句子相似度计算所述待计算的句子与每一个比较的句子的初始摘要标注分数,获得所述待计算的句子的多个初始摘要标注分数,包括:
计算所述待计算的句子与每一个比较的句子之间的词袋重合度;
计算所述待计算的句子与每一个比较的句子之间的句子相似度;
根据所述待计算的句子在所述待标注的摘要标注文本中的位置获得所述待计算的句子的位置分值;
根据所述待计算的句子的位置分值、所述待计算的句子与每一个比较的句子之间的词袋重合度及句子相似度计算所述待计算的句子与每一个比较的句子的初始摘要标注分数,获得所述待计算的句子的多个初始摘要标注分数。
5.根据权利要求4所述的方法,其特征在于,计算所述待计算的句子与每一个比较的句子之间的词袋重合度,包括:
对所述待计算的句子及所述比较的句子进行分词处理,并去除所述待计算的句子及所述比较的句子中的停用词,获得所述待计算的句子的关键词及所述比较的句子的关键词;
针对每一个比较的句子,通过预先训练好的词向量模型计算所述待计算的句子的各个关键词与所述比较的句子的各个关键词之间的词语相似度;
判断所述词语相似度是否大于预设阈值,若大于,则判定两个关键词相同;
计算所述待计算的句子与所述比较的句子相同的关键词的数量;
根据所述待计算的句子与所述比较的句子相同的关键词的数量、所述待计算的句子的词语总数量、所述比较的句子的词语总数量计算所述待计算的句子与所述比较的句子之间的词袋重合度。
6.根据权利要求4所述的方法,其特征在于,计算所述待计算的句子与每一个比较的句子之间的句子相似度,包括:
针对每一个比较的句子,通过预先训练好的句子相似度模型对所述待计算的句子和所述比较的句子进行运算,获得所述待计算的句子与所述比较的句子之间的句子相似度。
7.根据权利要求4所述的方法,其特征在于,根据所述待计算的句子在所述待标注的摘要标注文本中的位置获得所述待计算的句子的位置分值,包括:
判断所述待计算的句子是否位于所述待标注的摘要标注文本的首段落或尾段落;
若是首段落或尾段落,则将所述待计算的句子的位置分值设置为第一分值;
若不是首段落或尾段落,则判断所述待计算的句子是否为所述待标注的摘要标注文本的各个段落的首句;
若是首句,则将所述待计算的句子的位置分值设置为第二分值;
若不是首句,则将所述待计算的句子的位置分值设置为第三分值,其中,第一分值、第二分值及第三分值的和为1,且第一分值大于第二分值和第三分值,第二分值大于第三分值。
8.一种文本摘要标注装置,其特征在于,所述装置包括:
文本获取模块,用于获取待标注的摘要标注文本;
分数计算模块,用于计算所述待标注的摘要标注文本的每一个句子的目标摘要标注分数;
标注模块,用于根据所述目标摘要标注分数的大小从所述待标注的摘要标注文本中选取预设数量的句子作为所述待标注的摘要标注文本的摘要数据标注。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当所述电子设备运行时,所述处理器与所述存储器之间通过所述总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1-7任一项所述的方法。
10.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110796881.2A CN113626583A (zh) | 2021-07-14 | 2021-07-14 | 文本摘要标注方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110796881.2A CN113626583A (zh) | 2021-07-14 | 2021-07-14 | 文本摘要标注方法、装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113626583A true CN113626583A (zh) | 2021-11-09 |
Family
ID=78379719
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110796881.2A Pending CN113626583A (zh) | 2021-07-14 | 2021-07-14 | 文本摘要标注方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113626583A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114218923A (zh) * | 2021-12-20 | 2022-03-22 | 北京中科闻歌科技股份有限公司 | 文本摘要抽取方法、装置、设备及存储介质 |
CN114996444A (zh) * | 2022-06-28 | 2022-09-02 | 中国人民解放军63768部队 | 一种新闻自动摘要方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020052901A1 (en) * | 2000-09-07 | 2002-05-02 | Guo Zhi Li | Automatic correlation method for generating summaries for text documents |
CN106126620A (zh) * | 2016-06-22 | 2016-11-16 | 北京鼎泰智源科技有限公司 | 基于机器学习的中文自动文摘方法 |
CN106407182A (zh) * | 2016-09-19 | 2017-02-15 | 国网福建省电力有限公司 | 一种用于企业电子公文文档自动摘要的方法 |
CN111767393A (zh) * | 2020-06-22 | 2020-10-13 | 中国建设银行股份有限公司 | 一种文本核心内容提取方法及装置 |
CN112347240A (zh) * | 2020-10-16 | 2021-02-09 | 小牛思拓(北京)科技有限公司 | 文本摘要的抽取方法、装置、可读存储介质及电子设备 |
-
2021
- 2021-07-14 CN CN202110796881.2A patent/CN113626583A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020052901A1 (en) * | 2000-09-07 | 2002-05-02 | Guo Zhi Li | Automatic correlation method for generating summaries for text documents |
CN106126620A (zh) * | 2016-06-22 | 2016-11-16 | 北京鼎泰智源科技有限公司 | 基于机器学习的中文自动文摘方法 |
CN106407182A (zh) * | 2016-09-19 | 2017-02-15 | 国网福建省电力有限公司 | 一种用于企业电子公文文档自动摘要的方法 |
CN111767393A (zh) * | 2020-06-22 | 2020-10-13 | 中国建设银行股份有限公司 | 一种文本核心内容提取方法及装置 |
CN112347240A (zh) * | 2020-10-16 | 2021-02-09 | 小牛思拓(北京)科技有限公司 | 文本摘要的抽取方法、装置、可读存储介质及电子设备 |
Non-Patent Citations (3)
Title |
---|
夏冰等: "综合词位置和语义信息的专利文本相似度计算", 《计算机工程与设计》 * |
李娜娜等: "基于TextRank的自动摘要优化算法", 《计算机应用研究》 * |
王子璇等: "基于WMD语义相似度的TextRank改进算法识别论文核心主题句研究", 《数据分析与知识发现》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114218923A (zh) * | 2021-12-20 | 2022-03-22 | 北京中科闻歌科技股份有限公司 | 文本摘要抽取方法、装置、设备及存储介质 |
CN114218923B (zh) * | 2021-12-20 | 2022-08-30 | 北京中科闻歌科技股份有限公司 | 文本摘要抽取方法、装置、设备及存储介质 |
CN114996444A (zh) * | 2022-06-28 | 2022-09-02 | 中国人民解放军63768部队 | 一种新闻自动摘要方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109271401B (zh) | 一种题目搜索、批改方法、装置、电子设备和存储介质 | |
CN110287480B (zh) | 一种命名实体识别方法、装置、存储介质及终端设备 | |
CN110245259B (zh) | 基于知识图谱的视频打标签方法及装置、计算机可读介质 | |
CN113626583A (zh) | 文本摘要标注方法、装置、电子设备和存储介质 | |
CN104978354B (zh) | 文本分类方法和装置 | |
CN108268884B (zh) | 一种文档对比方法及装置 | |
CN111241230A (zh) | 一种基于文本挖掘识别串标风险的方法及系统 | |
CN112445831B (zh) | 数据标注方法及装置 | |
CN110633724A (zh) | 意图识别模型动态训练方法、装置、设备和存储介质 | |
CN112347997A (zh) | 一种试题检测识别方法、装置、电子设备及介质 | |
CN112200218A (zh) | 一种模型训练方法、装置及电子设备 | |
CN114722822A (zh) | 命名实体识别方法、装置、设备和计算机可读存储介质 | |
CN110796185A (zh) | 一种图像标注结果的检测方法和装置 | |
CN112148862A (zh) | 一种问题意图识别方法、装置、存储介质及电子设备 | |
CN117633214B (zh) | 一种文章大纲生成方法、装置和存储介质 | |
KR20240082294A (ko) | 텍스트의 데이터 구조화 방법 및 장치 | |
CN115393625A (zh) | 从粗略标记进行图像分段的半监督式训练 | |
CN111046649A (zh) | 一种文本分割方法和装置 | |
CN117252739B (zh) | 一种评卷方法、系统、电子设备及存储介质 | |
CN112818693A (zh) | 一种电子元器件型号词的自动提取方法及系统 | |
CN115995087B (zh) | 基于融合视觉信息的文档目录智能生成方法及系统 | |
CN111581341A (zh) | 一种获取文本摘要的方法及语言模型生成方法 | |
CN108021918B (zh) | 文字识别方法及装置 | |
CN111178062B (zh) | 一种面向人机交互多轮对话语料的加速标注方法及装置 | |
CN111460766B (zh) | 一种矛盾语块边界识别的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20211109 |
|
RJ01 | Rejection of invention patent application after publication |