CN115422322A - 一种摘要生成方法及装置 - Google Patents
一种摘要生成方法及装置 Download PDFInfo
- Publication number
- CN115422322A CN115422322A CN202210936402.7A CN202210936402A CN115422322A CN 115422322 A CN115422322 A CN 115422322A CN 202210936402 A CN202210936402 A CN 202210936402A CN 115422322 A CN115422322 A CN 115422322A
- Authority
- CN
- China
- Prior art keywords
- information
- sequence
- abstract
- word
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种摘要生成方法及装置,适用于信息处理技术领域,用以提高摘要信息的准确性。该方法包括:获取第一请求,第一请求用于请求获取文本信息的摘要信息;根据文本信息和序列预测模型确定摘要信息的任一摘要位的第一序列标签,序列预测模型是根据训练数据确定的模型,训练数据包括样本信息和样本信息中的样本词语的序列标签;将文本信息中的至少一个词语的第二序列标签与任一摘要位的第一序列标签匹配,确定摘要信息,摘要信息包括文本信息中的至少一个词语,第一序列标签和第二序列标签一一对应;输出摘要信息。
Description
技术领域
本发明涉及信息处理技术领域,尤其涉及一种摘要生成方法及装置。
背景技术
在检索和查阅信息量较大的文本数据时,通常需要花费大量的时间和精力,因此人们通常通过人工智能技术从大量公文信息中提取关键内容,组成摘要信息,以提高检索和查阅信息的效率。
目前的摘要生成方法主要有两种,一种是通过抽取模型提取文本信息中的全部语句,将其中的关键语句的组合作为摘要;另一种是通过生成模型确定文本信息的每一个词语成为摘要信息的概率,将概率最大的词语的组成的新的语句作为摘要。第一种方法是直接从文本信息中提取部分语句作为摘要,因此具备可读性,但是存在较大冗余,新颖性不足;第二种方法是重新组成的语句作为摘要,因此具备新颖性,但是连贯性不强,不具备可读性。也就是说,现有技术不能通过摘要信息准确地体现文本信息的含义,摘要信息的准确性有待提高。
发明内容
本发明提供了一种摘要生成方法及装置,用以确定文本信息的摘要信息,提高摘要信息的准确性。
第一方面,本发明提供了一种摘要生成方法。该方法包括:获取第一请求,第一请求用于请求获取文本信息的摘要信息;根据文本信息和序列预测模型确定摘要信息的任一摘要位的第一序列标签,序列预测模型是根据训练数据确定的模型,训练数据包括样本信息和样本信息中的样本词语的序列标签;将文本信息中的至少一个词语的第二序列标签与任一摘要位的第一序列标签匹配,确定摘要信息,摘要信息包括文本信息中的至少一个词语,第一序列标签和第二序列标签一一对应;输出摘要信息。
基于该方法,能够使得摘要信息最大程度的符合文本信息的含义,提高了摘要信息的准确性。
在一种可能的设计中,将文本信息中的至少一个词语的第二序列标签与任一摘要位的第一序列标签匹配,确定摘要信息,包括:根据摘要位的第一序列标签、第二序列标签确定摘要位的备选词语,备选词语为至少一个词语中的部分或全部;根据文本信息和生成模型确定备选词语的概率值,概率值用于指示备选词语作为摘要信息中的词语的概率;根据摘要位的备选词语和备选词语的概率值确定摘要信息。
采用该设计,摘要生成系统可以利用生成模型选择文本信息中最优的词语,这样得到的词语具备新颖性,从而得到的摘要信息能够克服冗余度大的问题,提高了摘要信息的准确性。
可选的,根据摘要位的第一序列标签、第二序列标签确定摘要位的备选词语,包括:将文本信息中的至少一个词语的第二序列标签与摘要位的第一序列标签相匹配,根据匹配规则确定摘要位的备选词语。这样,摘要生成系统可以通过调整匹配规则来适应不同的摘要生成需求或摘要生成背景,提高了确定摘要信息的灵活性。
在一种可能的设计中,根据文本信息和序列预测模型确定任一摘要位的第一序列标签,包括:根据文本信息中的至少一个句子信息和抽取模型确定至少一个句子信息的评分;根据至少一个句子信息的评分确定备选摘要,备选摘要为至少一个句子信息中的部分或全部;根据备选摘要和序列预测模型确定任一摘要位的第一序列标签。
采用这样的设计,摘要生成系统可以利用抽取模型对文本信息中的句子信息进行初步筛选,这样得到的备选摘要能够连贯性强,具备可读性,从而可以提高摘要信息的准确性。
在一种可能的设计中,该方法还包括:根据文本信息确定摘要位的数量。这样,摘要生成系统可以确定摘要信息的摘要位的数量,从而确定每一个摘要位分别对应的第一序列标签,提高摘要信息整体的准确性。
在一种可能的设计中,该方法还包括:获取至少一个样本词语和至少一个样本词语的第三序列标签,样本词语是根据样本信息和抽取模型确定的;根据至少一个样本词语和至少一个样本词语的第三序列标签确定序列预测模型。
采用该设计,摘要生成系统可以准确地确定序列预测模型,从而可以提高摘要信息对文本信息的忠诚度。
在一种可能的设计中,该方法还包括:根据第一训练数据确定抽取模型;其中,第一训练数据包括样本数据和样本数据对应的标注集合,标注集合包括样本数据中的句子信息的标注值,样本数据的句子信息的数量和标注集合中的标注值的数量相同。
采用这样的设计,摘要生成系统可以准确地确定抽取模型,从而可以提高摘要信息的准确性。
可选的,该方法还包括:获取样本数据和标注数据,标注数据为样本数据的部分或全部;根据样本数据和标注数据确定样本数据中的至少一个句子信息的第一分数和至少一个句子信息的第二分数,第一分数为至少一个句子信息和标注数据的语义相似度的值,第二分数为至少一个句子信息和标注数据的字面相似度的值;根据第一分数、第二分数、第一分数的第一权重和第二分数的第二权重确定至少一个句子信息的评分;根据至少一个句子信息的评分确定标注集合。这样,摘要生成系统可以准确地确定第一训练数据中的标注集合,因此提高了抽取模型的准确性,从而进一步提高摘要信息的准确性。
第二方面,本发明还提供了一种摘要生成装置,装置包括通信模块和处理模块。
该通信模块可用于:获取第一请求,第一请求用于请求获取文本信息的摘要信息。该处理模块可用于:根据文本信息和序列预测模型确定摘要信息的任一摘要位的第一序列标签,序列预测模型是根据训练数据确定的模型,训练数据包括样本信息和样本信息中的样本词语的序列标签。该处理模块还用于:将文本信息中的至少一个词语的第二序列标签与任一摘要位的第一序列标签匹配,确定摘要信息,摘要信息包括文本信息中的至少一个词语,第一序列标签和第二序列标签一一对应。该通信模块还用于:输出摘要信息。
在一种可能的设计中,处理模块具体可用于:根据摘要位的第一序列标签、第二序列标签确定摘要位的备选词语,备选词语为至少一个词语中的部分或全部;根据文本信息和生成模型确定备选词语的概率值,概率值用于指示备选词语作为摘要信息中的词语的概率;根据摘要位的备选词语和备选词语的概率值确定摘要信息。
在一种可能的设计中,处理模块具体可用于:将文本信息中的至少一个词语的第二序列标签与摘要位的第一序列标签相匹配,根据匹配规则确定摘要位的备选词语。
在一种可能的设计中,处理模块具体可用于:根据文本信息中的至少一个句子信息和抽取模型确定至少一个句子信息的评分;根据至少一个句子信息的评分确定备选摘要,备选摘要为至少一个句子信息中的部分或全部;根据备选摘要和序列预测模型确定任一摘要位的第一序列标签。
在一种可能的设计中,处理模块具体可用于:根据文本信息确定摘要位的数量。
在一种可能的设计中,通信模块还用于:获取至少一个样本词语和至少一个样本词语的第三序列标签,样本词语是根据样本信息和抽取模型确定的;处理模块还可用于:根据至少一个样本词语和至少一个样本词语的第三序列标签确定序列预测模型。
在一种可能的设计中,处理模块还用于:根据第一训练数据确定抽取模型;
其中,第一训练数据包括样本数据和样本数据对应的标注集合,标注集合包括样本数据中的句子信息的标注值,样本数据的句子信息的数量和标注集合中的标注值的数量相同。
在一种可能的设计中,处理模块还用于:
获取样本数据和标注数据,标注数据为样本数据的部分或全部;根据样本数据和标注数据确定样本数据中的至少一个句子信息的第一分数和至少一个句子信息的第二分数,第一分数为至少一个句子信息和标注数据的语义相似度的值,第二分数为至少一个句子信息和标注数据的字面相似度的值;
根据第一分数、第二分数、第一分数的第一权重和第二分数的第二权重确定至少一个句子信息的评分;根据至少一个句子信息的评分确定标注集合。
第三方面,本发明还提供了一种电子设备,电子设备包括处理器,处理器用于执行存储器中存储的计算机程序时实现如上述第一方面及其任一可能的设计摘要生成方法的步骤。
第四方面,本发明还提供了一种计算机可读存储介质,其存储有计算机程序,计算机程序被处理器执行时实现如上述第一方面及其任一可能的设计摘要生成方法的步骤。
上述第二方面至第四方面中任一方面可以达到的技术效果可以参照上述第一方面中任一种可能设计可以达到的技术效果说明,重复之处不予论述。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种摘要生成系统的模块化结构示意图;
图2为本发明实施例提供的一种摘要生成方法的流程示意图;
图3为本发明实施例提供的另一种摘要生成方法的流程示意图;
图4为本发明实施例提供的另一种摘要生成方法的流程示意图;
图5为本发明实施例提供的一种摘要生成装置的模块化结构示意图;
图6为本发明实施例提供的另一种摘要生成装置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明申请一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
为了准确地确定文本信息的摘要信息,本发明实施例提供了一种摘要生成的方法及装置。该方法可由摘要生成系统执行。摘要生成系统可以是用于执行本申请所示方法的计算机系统,或者可以是计算机系统中用于执行本申请所示方法的处理装置,如处理器或处理模块等,不具体限定。
图1所示为本申请实施例提供的一种摘要生成系统的模块化结构示意图,其中,摘要生成系统包括生成模型训练模块、抽取模型训练模块、序列预测模型训练模块和摘要处理模块。具体的,摘要处理模块可以调用生成模型训练模块、抽取模型训练模块和序列预测模型训练模块中的任一模块,序列预测模型训练模块可以调用抽取模型训练模块。
图2为本发明实施例提供的一种摘要生成方法的流程示意图,该流程包括以下步骤:
S201:摘要生成系统获取第一请求,第一请求用于请求获取文本信息的摘要信息。可选的,第一请求可以包括文本信息。例如,摘要生成系统可以获取来自终端设备的第一请求,本申请实施例中的终端可以是移动电话、具有移动终端功能的计算机等,终端还可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置。应理解,终端可被配置为支持与网络设备进行通信。
S202:摘要生成系统根据文本信息和序列预测模型确定摘要信息的任一摘要位的第一序列标签,序列预测模型是根据训练数据确定的模型,训练数据包括样本信息和样本信息中的样本词语的序列标签。
可选的,第一序列标签的类别包括S摘要位标签、B摘要位标签、I摘要位标签和O摘要位标签。其中,S摘要位标签表示该摘要位对应的词语为无法形成连续词组的词语;B摘要位标签表示该摘要位对应的词语为连续词组的第一个词语;I摘要位标签表示该摘要位对应的词语为连续词组中除第一个词语以外的其他词语;O摘要位标签表示该摘要位对应的词语为与原文无关的词语。连续词组为能够具有独立意义的词组,例如,句子信息“某市某科技有限公司某年收入增长20%,连续3年保持增长”中的连续词组包括“某市某科技有限公司”、“某年”、“收入增长20%”、“连续3年”“保持增长”。
可选的,摘要生成系统可以根据文本信息确定该文本信息的摘要信息的摘要位的数量。例如,摘要生成系统确定该摘要信息包括10个摘要位。进一步的,摘要生成系统可以根据该文本信息和序列预测模型确定每一个摘要位分别对应的第一序列标签。
在步骤S202的一种可能的设计中,摘要生成系统可以抽取文本信息中的部分或全部信息作为备选摘要,从而根据该备选摘要确定摘要位的第一序列标签。具体的,图3为本发明实施例提供的另一种摘要生成方法的流程示意图,该流程包括以下步骤:
S301:摘要生成系统根据文本信息中的至少一个句子信息和抽取模型确定至少一个句子信息的评分。具体的,摘要生成系统可以对文本信息进行分句处理,得到至少一个句子信息,例如得到e个句子信息(e为正整数);摘要生成系统根据该句子信息和抽取模型确定该至少一个句子信息的评分。
S302:摘要生成系统根据至少一个句子信息的评分确定备选摘要,备选摘要为前述至少一个句子信息中的部分或全部。可选的,摘要生成系统可以选择评分最高的f个句子信息作为备选摘要(f≤e)。可选的,摘要生成系统可以选择前述至少一个句子信息中的词语的部分或全部,作为备选摘要。例如,文本信息为“深圳市中远科技有限公司三年来持续快速增长”,则摘要信息可以是“中远科技公司快速增长”。应理解,此处所确定的备选摘要可以作为新的文本信息参与下一步运算,例如步骤S203中的文本信息可以是备选摘要。这样,摘要生成系统可以只需要针对备选摘要进行下一步的运算,减少了计算负担,提高了计算效率。
S303:摘要生成系统根据备选摘要和序列预测模型确定任一摘要位的第一序列标签。
采用这样的设计,摘要生成系统可以利用抽取模型对文本信息中的句子信息进行初步筛选,这样得到的备选摘要能够连贯性强,具备可读性,从而可以提高摘要信息的准确性。
S203:摘要生成系统根据文本信息、第一序列标签和第二序列标签确定摘要信息,第二序列标签为文本信息中的至少一个词语的序列标签。具体的,摘要生成系统可以将文本信息中的至少一个词语的第二序列标签与任一摘要位的第一序列标签匹配,确定摘要信息,摘要信息包括文本信息中的至少一个词语,其中,第一序列标签和第二序列标签一一对应。
可选的,第二序列标签的类别包括S词语标签、B词语标签、I词语标签和O词语标签。其中,S词语标签表示该词语为无法形成连续词组的词语;B词语标签表示该词语为连续词组的第一个词语;I词语标签表示该词语为连续词组中除第一个词语以外的其他词语;O词语标签表示该词语为与原文无关的词语。示例性的,文本信息为“中远科技公司快速增长”,则该文本信息的词语包括“中”、“远”、“科技”、“公司”、“快速”和“增长”,其中,词语“中”的序列标签为B词语标签,“远”的序列标签为I词语标签,“科技”的序列标签为I词语标签,“公司”的序列标签为I词语标签,“快速”的序列标签为O词语标签,“增长”的序列标签为S词语标签。
可选的,步骤S203中的文本信息可以是步骤S302中确定的备选摘要。
可选的,摘要生成系统可以将文本信息中的词语的第二序列标签与摘要位的第一序列标签相匹配,从而确定摘要信息。可选的,摘要生成系统可以分别对每一个摘要位的词语进行匹配。
示例性的,假设摘要信息包括10个摘要位,第一个摘要位的第一序列标签为B摘要位标签,那么,摘要生成系统可以在文本信息的词语中选择第二序列标签为B词语标签的词语,作为前述第一个摘要位的词语。其他摘要位的词语也可以采用相同的方法确定。进一步的,将10个摘要位的词语进行组合,从而确定摘要信息。
可选的,摘要生成系统还可以根据匹配规则确定摘要信息。其中,匹配规则可以是摘要生成系统预设的规则,也可以是从终端设备获取的规则。
示例性的,匹配规则包括:摘要位的第一序列标签为S摘要位标签,则该摘要位的前一个摘要位的第一序列标签为S摘要位标签、I摘要位标签和O摘要位标签中的任意一个。也就是说,当前摘要位的第一序列标签为S摘要位标签时,前一个摘要位的第一序列标签非为B摘要位标签。和/或,
摘要位的第一序列标签为B摘要位标签,则该摘要位的前一个摘要位的第一序列标签为S摘要位标签、I摘要位标签和O摘要位标签中的任意一个。也就是说,当前摘要位的第一序列标签为B摘要位标签时,前一个摘要位的第一序列标签非为B摘要位标签。和/或,
摘要位的第一序列标签为I摘要位标签,则该摘要位的前一个摘要位的第一序列标签为B摘要位标签或I摘要位标签。也就是说,当前摘要位的第一序列标签为I摘要位标签时,前一个摘要位的第一序列标签非为S摘要位标签,且非为O摘要位标签。和/或,
摘要位的第一序列标签为O摘要位标签,则该摘要位的前一个摘要位的第一序列标签为S摘要位标签、B摘要位标签、I摘要位标签和O摘要位标签中的任意一个。也就是说,当前摘要位的第一序列标签为O摘要位标签时,前一个摘要位的第一序列标签没有限制。
在步骤S203的一种可能的设计中,摘要生成系统可以通过确定备选词语,从而确定摘要信息。具体的,图4为本发明实施例提供的另一种摘要生成方法的流程示意图,该流程包括以下步骤:
S401:摘要生成系统根据摘要位的第一序列标签、第二序列标签确定摘要位的备选词语,备选词语为至少一个词语中的部分或全部。例如,摘要生成系统可以对文本信息进行分词处理,得到至少一个词语,该至少一个词语可以是文本信息中的所有词语,也可以是文本信息中的任一词组中的所有词语,词组是由多个(大于等于两个)字符组成的,例如得到c个词语;摘要生成系统还可以根据摘要位的第一序列标签和该c个词语的第二序列标签,确定d个备选词语(d≤c)。其中,备选词语可以是由一个字符组成的词语(例如“中”、“远”等),也可以是多个(大于等于两个)字符组成的词语(例如“公司”、“增长”等)。
可选的,摘要生成系统可以将文本信息中的至少一个词语的第二序列标签与摘要位的第一序列标签相匹配,从而确定备选词语。应理解,一个摘要位的备选词语可以是一个或多个。
示例性的,第一个摘要位的第一序列标签为I摘要位标签,那么,摘要生成系统可以在文本信息的词语中选择第二序列标签为I词语标签的词语,作为前述第一个摘要位的备选词语;进一步采用相同的方法确定全部摘要位的备选词语。
可选的,摘要生成系统还可以根据匹配规则确定备选词语。具体的,摘要生成系统还可以将至少一个词语中满足匹配规则的词语作为备选词语。其中,匹配规则可以是摘要生成系统预设的规则,也可以是从终端设备获取的规则,例如,该匹配规则可以与步骤S203中所示的匹配规则相同或不同,为避免重复,此处不再赘述。
S402:摘要生成系统根据文本信息和生成模型确定备选词语的概率值,概率值用于指示备选词语作为摘要信息中的词语的概率。示例性的,摘要生成系统可以根据文本信息和生成模型确定前述d个备选词语分别的概率值。
需要注意的是,步骤S401的动作和步骤S402的动作的执行顺序可以调换,本申请不做限制。举例来说,摘要生成系统可以首先对文本信息进行分句,得到至少一个词语;摘要生成系统根据文本信息和生成模块确定该至少一个语句的概率值;摘要生成系统根据该至少一个词语的第二序列标签、摘要位的第一序列标签确定备选标签。应理解,由于备选标签为至少一个词语中的部分或全部,因此,这里备选标签的概率值都可以从前述至少一个词语的概率值中得到。
S403:摘要生成系统根据摘要位的备选词语和备选词语的概率值确定摘要信息。可选的,摘要生成系统可以根据匹配规则、摘要位的备选词语和备选词语的概率值确定摘要信息。其中,匹配规则可以是摘要生成系统预设的规则,也可以是从终端设备获取的规则。例如,摘要生成系统可以根据匹配规则保留部分或全部备选词语;摘要生成系统根据保留的备选词语和该备选词语的概率值确定任一摘要位的最优的备选词语(例如摘要生成系统可以通过生成模型确定最优的备选词语),从而确定摘要信息。
采用该设计,摘要生成系统可以利用生成模型选择文本信息中最优的词语,这样得到的词语具备新颖性,从而得到的摘要信息能够克服冗余度大的问题,提高了摘要信息的准确性。
S204:摘要生成系统输出摘要信息。例如,摘要生成设备可以向终端设备发送该摘要信息。
采用该方法,能够使得摘要信息最大程度的符合文本信息的含义,提高了摘要信息的准确性。
在本申请的一种可能的设计中,在执行步骤S301所示的动作之前,摘要生成系统可以通过对第一训练数据的训练,得到抽取模型,该抽取模型用Me表示。可选的,摘要生成系统可以通过卷积神经网络(Convolutional Neural Network,CNN)、循环神经网络(Recurrent Neural Network,RNN)、长短期记忆网络(Long Short-Term Memory,LSTM)和基于转换器的双向编码表征(Bidirectional Enoceder Representations fromTransformers,BERT)中的任意一种模型,对第一训练数据进行训练,得到抽取模型,本申请不做限定。
在一种可能的设计中,摘要生成系统可以获取样本数据和标注数据,摘要生成系统还可以根据样本数据和标注数据确定第一训练数据。
具体的,摘要生成系统获取样本数据,对样本数据进行分句处理,得到X集合,例如,X集合包括n个句子信息,xj表示样本数据中的第j个句子信息,具体表示为X{x1,x2,x3...xj...xn};摘要生成系统获取标注数据,从而得到Z集合,例如Z集合包括m个句子信息(其中,m≤n,m和n均为正整数),zi表示样本数据中的第i个句子信息,具体表示为Z{z1,z2,z3...zi...zn}。需要注意的是,标注数据为样本数据中的部分或全部,标注数据是业务人员根据样本数据确定的可以作为摘要信息的数据。
进一步的,摘要生成系统可以确定X集合中的n个句子信息(例如xj)分别的第一分数和第二分数,第一分数为句子信息和标注数据的语义相似度的值,第二分数为句子信息和标注数据的字面相似度的值,第一分数用Pi,j表示,第二分数用Qi,j表示。摘要生成系统根据句子信息的第一分数、句子信息的第二分数、第一权重和第二权重确定句子信息的评分,第一权重为第一分数占评分的权重,第二权重为第二分数占评分的权重,评分用Ri,j表示,第一权重用α表示,第二权重用β表示。也就是说,第一分数、第二分数、第一权重、第二权重和评分之间满足:
Ri,j=α*Pi,j+β*Qi,j
可选的,摘要生成系统可以通过词向量、句向量和监督模型中的任意一种方法确定第一分数,本申请不做限定。可选的,摘要生成系统可以对句子信息xj和zi分词,通过重合的词语数量和最长连续词组的长度得到句子信息xj的第二分数,本申请不做限定。可选的,最长连续词组可以通过与预先设置的词库(例如领域主题词库)匹配获得。例如,句子信息“某市某科技有限公司某年收入增长20%,连续3年保持增长”中的最长连续词组为“某市某科技有限公司”。
进一步的,摘要生成系统可以根据X集合的n个句子信息分别的评分确定标注集合,该标注集合可以表示为Y集合。示例性的,摘要生成系统可以确定X集合的n个句子信息中评分最高的K个句子信息的标注值为1,其他句子信息的标注值为0,从而得到Y集合,Y集合包括n个标注值,n个标注值与X集合的n个句子信息一一对应,例如表示为Y{0,1,1...0...1}。应理解,第一训练数据包括X集合和Y集合。
采用该设计,摘要生成系统可以准确地确定抽取模型,从而可以提高摘要信息的准确性。
在本申请的一种可能的设计中,在执行步骤S202的动作之前,摘要生成系统可以通过对第二训练数据的训练,得到序列预测模型,该序列预测模型用Ms表示。
在一种可能的设计中,摘要生成系统获取至少一个样本词语和至少一个样本词语的第三序列标签,样本词语是根据样本信息和抽取模型确定的。这样,序列预测模型的第二训练数据是根据抽取模型确定的,提高了确定第二训练数据的效率,同时,提高了序列预测模型的准确性。应理解,第二训练数据包括至少一个样本词语和至少一个样本词语的第三序列标签。可选的,第三序列标签的类别可以和第二序列标签的类别相同或不同,本申请不做限定。
示例性的,样本信息包括前述样本数据和标注数据,摘要生成系统根据该样本信息和抽取模型确定该样本信息对应的X集合和Y集合;或者,摘要生成系统也可以直接获取前述X集合和Y集合。摘要生成系统可以将Y集合中数值为1的标注值对应的X集合中的句子信息作为H集合中的句子信息,从而确定H集合。其中,X集合包括n个句子信息,H集合中包括w个句子信息(其中,w≤n,w为正整数),具体表示为H{h1,h2,h3...hw}。摘要生成系统对H集合中的句子信息进行分词处理,得到样本词语。摘要生成系统根据至少一个样本词语和最长连续词组确定该至少一个样本词语的第三序列标签。可选的,最长连续词组可以通过与预先设置的词库(例如领域主题词库)匹配获得。
进一步的,摘要生成系统根据至少一个样本词语和至少一个样本词语的第三序列标签确定序列预测模型。可选的,摘要生成系统可以通过RNN、LSTM和BERT中的任意一种模型,对第二训练数据(例如至少一个样本词语和至少一个样本词语的第三序列标签)进行训练,得到序列预测模型,本申请不做限定。
采用该设计,摘要生成系统可以准确地确定序列预测模型,从而可以提高摘要信息对文本信息的忠诚度。
在本申请的一种可能的设计中,在执行步骤S402的动作之前,摘要生成系统可以通过对第三训练数据的训练,得到生成模型,该生成模型用Mc表示。可选的,摘要生成系统可以根据样本数据和标注数据确定第三训练数据。其中,标注数据为样本数据中的部分或全部,标注数据是业务人员根据样本数据确定的可以作为摘要信息的数据。例如,第三样本数据包括前述X集合和Z集合。可选的,摘要生成系统可以通过RNN,LSTM,BERT,生成预训练转换器(Generative Pre-Training,GPT)和其他序列对序列(Sequence to Sequence,Seq2Seq)模型中的任意一种模型,对第三训练数据进行训练,得到生成模型,本申请不做限定。
采用该设计,摘要生成系统可以准确地确定生成模型,从而可以提高摘要信息的准确性。
基于上述内容和相同构思,本申请提供一种摘要生成装置。图5所示为本申请实施例提供的一种摘要生成装置的模块化结构示意图。该装置可包括通信模块501和处理模块502。
示例性的,通信模块501可用于获取第一请求,第一请求用于请求获取文本信息的摘要信息。处理模块502可用于根据文本信息和序列预测模型确定摘要信息的任一摘要位的第一序列标签,序列预测模型是根据训练数据确定的模型,训练数据包括样本信息和样本信息中的样本词语的序列标签。该处理模块502还用于:将文本信息中的至少一个词语的第二序列标签与任一摘要位的第一序列标签匹配,确定摘要信息,摘要信息包括文本信息中的至少一个词语,第一序列标签和第二序列标签一一对应。该通信模块501还用于:输出摘要信息。
在一种可能的设计中,处理模块502具体可用于:根据摘要位的第一序列标签、第二序列标签确定摘要位的备选词语,备选词语为至少一个词语中的部分或全部;根据文本信息和生成模型确定备选词语的概率值,概率值用于指示备选词语作为摘要信息中的词语的概率;根据摘要位的备选词语和备选词语的概率值确定摘要信息。
在一种可能的设计中,处理模块502具体可用于:将文本信息中的至少一个词语的第二序列标签与摘要位的第一序列标签相匹配,根据匹配规则确定摘要位的备选词语。
在一种可能的设计中,处理模块502具体可用于:根据文本信息中的至少一个句子信息和抽取模型确定至少一个句子信息的评分;根据至少一个句子信息的评分确定备选摘要,备选摘要为至少一个句子信息中的部分或全部;根据备选摘要和序列预测模型确定任一摘要位的第一序列标签。
在一种可能的设计中,处理模块502还包括:根据所述文本信息确定所述摘要位的数量。
在一种可能的设计中,通信模块501还用于:获取至少一个样本词语和至少一个样本词语的第三序列标签,样本词语是根据样本信息和抽取模型确定的;处理模块502还可用于:根据至少一个样本词语和至少一个样本词语的第三序列标签确定序列预测模型。
在一种可能的设计中,所述处理模块502还包括:根据第一训练数据确定抽取模型;其中,第一训练数据包括样本数据和样本数据对应的标注集合,标注集合包括所述样本数据中的句子信息的标注值,样本数据的句子信息的数量和标注集合中的标注值的数量相同。
在一种可能的设计中,所述处理模块502还包括:获取样本数据和标注数据,标注数据为样本数据的部分或全部;根据样本数据和标注数据确定样本数据中的至少一个句子信息的第一分数和至少一个句子信息的第二分数,第一分数为至少一个句子信息和标注数据的语义相似度的值,第二分数为至少一个句子信息和标注数据的字面相似度的值;根据第一分数、第二分数、第一分数的第一权重和第二分数的第二权重确定至少一个句子信息的评分;根据至少一个句子信息的评分确定标注集合。
图6示出了本申请实施例提供的一种摘要生成装置结构示意图。
本申请实施例中的电子设备可包括处理器601。处理器601是该装置的控制中心,可以利用各种接口和线路连接该装置的各个部分,通过运行或执行存储在存储器602内的指令以及调用存储在存储器602内的数据。可选的,处理器601可包括一个或多个处理单元,处理器601可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器601中。在一些实施例中,处理器601和存储器602可以在同一芯片上实现,在一些实施例中,它们也可以在独立的芯片上分别实现。
处理器601可以是通用处理器,例如中央处理器(CPU)、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的摘要生成系统所执行的步骤可以直接由硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
在本申请实施例中,存储器602存储有可被至少一个处理器601执行的指令,至少一个处理器601通过执行存储器602存储的指令,可以用于执行前述由摘要生成系统执行的通信过程。
存储器602作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器602可以包括至少一种类型的存储介质,例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory,RAM)、静态随机访问存储器(Static Random Access Memory,SRAM)、可编程只读存储器(Programmable Read Only Memory,PROM)、只读存储器(Read Only Memory,ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性存储器、磁盘、光盘等等。存储器602是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本申请实施例中的存储器602还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令和/或数据。
本申请实施例中,该装置还可以包括通信接口603,电子设备可以通过该通信接口603传输数据。例如电子设备为摘要生成系统,通信接口603可用于获取第一请求,或者用于输出摘要信息。
可选的,可由图6所示处理器601(或处理器601和存储器602)实现图5所示的通信模块501和/或处理模块502,也就是说,可以由处理器601(或处理器601和存储器602)执行通信模块501和/或处理模块502的动作。
基于相同的发明构思,本申请实施例还提供一种计算机可读存储介质,其中可存储有指令,当该指令在计算机上运行时,使得计算机执行上述方法实施例提供的操作步骤。该计算机可读存储介质可以是图6所示的存储器602。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (10)
1.一种摘要生成方法,其特征在于,所述方法包括:
获取第一请求,所述第一请求用于请求获取文本信息的摘要信息;
根据所述文本信息和序列预测模型确定所述摘要信息的任一摘要位的第一序列标签,所述序列预测模型是根据训练数据确定的模型,所述训练数据包括样本信息和所述样本信息中的样本词语的序列标签;
将所述文本信息中的至少一个词语的第二序列标签与所述任一摘要位的第一序列标签匹配,确定摘要信息,所述摘要信息包括所述文本信息中的至少一个词语,所述第一序列标签和所述第二序列标签一一对应;
输出所述摘要信息。
2.如权利要求1所述的方法,其特征在于,所述将所述文本信息中的至少一个词语的第二序列标签与所述任一摘要位的第一序列标签匹配,确定摘要信息,包括:
根据所述摘要位的第一序列标签、所述第二序列标签确定所述摘要位的备选词语,所述备选词语为所述至少一个词语中的部分或全部;
根据所述文本信息和生成模型确定所述备选词语的概率值,所述概率值用于指示所述备选词语作为所述摘要信息中的词语的概率;
根据所述摘要位的备选词语和所述备选词语的概率值确定所述摘要信息。
3.如权利要求1所述的方法,其特征在于,所述根据所述文本信息和序列预测模型确定任一摘要位的第一序列标签,包括:
根据所述文本信息中的至少一个句子信息和抽取模型确定所述至少一个句子信息的评分;
根据所述至少一个句子信息的评分确定备选摘要,所述备选摘要为所述至少一个句子信息中的部分或全部;
根据所述备选摘要和所述序列预测模型确定所述任一摘要位的第一序列标签。
4.如权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述至少一个样本词语和所述至少一个样本词语的第三序列标签,所述样本词语是根据所述样本信息和抽取模型确定的;
根据所述至少一个样本词语和所述至少一个样本词语的第三序列标签确定所述序列预测模型。
5.一种摘要生成装置,其特征在于,所述方法包括:
通信模块,所述通信模块用于:获取第一请求,所述第一请求用于请求获取文本信息的摘要信息;
处理模块,所述处理模块用于:根据所述文本信息和序列预测模型确定所述摘要信息的任一摘要位的第一序列标签,所述序列预测模型是根据训练数据确定的模型,所述训练数据包括样本信息和所述样本信息中的样本词语的序列标签;
所述处理模块还用于:将所述文本信息中的至少一个词语的第二序列标签与所述任一摘要位的第一序列标签匹配,确定摘要信息,所述摘要信息包括所述文本信息中的至少一个词语,所述第一序列标签和所述第二序列标签一一对应;
所述通信模块还用于:输出所述摘要信息。
6.如权利要求5所述的装置,其特征在于,所述处理模块具体用于:
根据所述摘要位的第一序列标签、所述第二序列标签确定所述摘要位的备选词语,所述备选词语为所述至少一个词语中的部分或全部;
根据所述文本信息和生成模型确定所述备选词语的概率值,所述概率值用于指示所述备选词语作为所述摘要信息中的词语的概率;
根据所述摘要位的备选词语和所述备选词语的概率值确定所述摘要信息。
7.如权利要求5所述的装置,其特征在于,所述处理模块具体用于:
根据所述文本信息中的至少一个句子信息和抽取模型确定所述至少一个句子信息的评分;
根据所述至少一个句子信息的评分确定备选摘要,所述备选摘要为所述至少一个句子信息中的部分或全部;
根据所述备选摘要和所述序列预测模型确定所述任一摘要位的第一序列标签。
8.如权利要求5所述的装置,其特征在于,所述通信模块还用于:
获取所述至少一个样本词语和所述至少一个样本词语的第三序列标签,所述样本词语是根据所述样本信息和抽取模型确定的;
所述处理模块还用于:
根据所述至少一个样本词语和所述至少一个样本词语的第三序列标签确定所述序列预测模型。
9.一种电子设备,其特征在于,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序指令执行权利要求1-4中任一项所述的方法包括的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被计算机执行时,使所述计算机执行如权利要求1-4中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210936402.7A CN115422322B (zh) | 2022-08-05 | 2022-08-05 | 一种摘要生成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210936402.7A CN115422322B (zh) | 2022-08-05 | 2022-08-05 | 一种摘要生成方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115422322A true CN115422322A (zh) | 2022-12-02 |
CN115422322B CN115422322B (zh) | 2023-07-21 |
Family
ID=84195974
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210936402.7A Active CN115422322B (zh) | 2022-08-05 | 2022-08-05 | 一种摘要生成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115422322B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200285662A1 (en) * | 2019-03-09 | 2020-09-10 | Wipro Limited | Method and System for Generating Review Summaries |
CN111651996A (zh) * | 2019-03-04 | 2020-09-11 | 北京嘀嘀无限科技发展有限公司 | 摘要生成方法、装置、电子设备及存储介质 |
CN111709248A (zh) * | 2020-05-28 | 2020-09-25 | 北京百度网讯科技有限公司 | 文本生成模型的训练方法、装置及电子设备 |
CN113392641A (zh) * | 2020-10-26 | 2021-09-14 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、存储介质和设备 |
CN113987162A (zh) * | 2021-09-28 | 2022-01-28 | 润联智慧科技(西安)有限公司 | 文本摘要的生成方法、装置及计算机设备 |
CN113987169A (zh) * | 2021-10-14 | 2022-01-28 | 润联软件系统(深圳)有限公司 | 基于语义块的文本摘要生成方法、装置、设备及存储介质 |
-
2022
- 2022-08-05 CN CN202210936402.7A patent/CN115422322B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111651996A (zh) * | 2019-03-04 | 2020-09-11 | 北京嘀嘀无限科技发展有限公司 | 摘要生成方法、装置、电子设备及存储介质 |
US20200285662A1 (en) * | 2019-03-09 | 2020-09-10 | Wipro Limited | Method and System for Generating Review Summaries |
CN111709248A (zh) * | 2020-05-28 | 2020-09-25 | 北京百度网讯科技有限公司 | 文本生成模型的训练方法、装置及电子设备 |
CN113392641A (zh) * | 2020-10-26 | 2021-09-14 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、存储介质和设备 |
CN113987162A (zh) * | 2021-09-28 | 2022-01-28 | 润联智慧科技(西安)有限公司 | 文本摘要的生成方法、装置及计算机设备 |
CN113987169A (zh) * | 2021-10-14 | 2022-01-28 | 润联软件系统(深圳)有限公司 | 基于语义块的文本摘要生成方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115422322B (zh) | 2023-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107220235B (zh) | 基于人工智能的语音识别纠错方法、装置及存储介质 | |
CN111951780B (zh) | 语音合成的多任务模型训练方法及相关设备 | |
CN104933039A (zh) | 面向资源缺乏语言的实体链接系统 | |
CN112820269B (zh) | 文本转语音方法、装置、电子设备及存储介质 | |
CN113096242A (zh) | 虚拟主播生成方法、装置、电子设备及存储介质 | |
CN113688245B (zh) | 基于人工智能的预训练语言模型的处理方法、装置及设备 | |
CN114298053A (zh) | 一种基于特征和注意力机制融合的事件联合抽取系统 | |
CN111460800A (zh) | 一种事件生成方法、装置、终端设备及存储介质 | |
CN117093459A (zh) | 语言模型的评测方法、装置、电子设备及存储介质 | |
CN111563378A (zh) | 一种联合学习的多文档阅读理解实现方法 | |
CN113220854B (zh) | 机器阅读理解的智能对话方法及装置 | |
CN113918031A (zh) | 使用子字符信息进行中文标点恢复的系统和方法 | |
CN114020886A (zh) | 语音意图识别方法、装置、设备及存储介质 | |
CN112349294B (zh) | 语音处理方法及装置、计算机可读介质、电子设备 | |
CN113254814A (zh) | 网络课程视频打标签方法、装置、电子设备及介质 | |
CN112527967A (zh) | 文本匹配方法、装置、终端和存储介质 | |
CN116186200B (zh) | 模型训练方法、装置、电子设备和存储介质 | |
CN115422322B (zh) | 一种摘要生成方法及装置 | |
CN116341646A (zh) | Bert模型的预训练方法、装置、电子设备及存储介质 | |
CN114417891A (zh) | 基于粗糙语义的回复语句确定方法、装置及电子设备 | |
CN114757154A (zh) | 基于深度学习的作业生成方法、装置、设备及存储介质 | |
CN110955768B (zh) | 一种基于句法分析的问答系统答案生成方法 | |
CN110347813B (zh) | 一种语料处理方法、装置、存储介质及电子设备 | |
CN112597748A (zh) | 语料生成方法、装置、设备及计算机可读存储介质 | |
CN113160793A (zh) | 基于低资源语言的语音合成方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |