CN111639175B - 一种自监督的对话文本摘要方法及系统 - Google Patents
一种自监督的对话文本摘要方法及系统 Download PDFInfo
- Publication number
- CN111639175B CN111639175B CN202010475376.3A CN202010475376A CN111639175B CN 111639175 B CN111639175 B CN 111639175B CN 202010475376 A CN202010475376 A CN 202010475376A CN 111639175 B CN111639175 B CN 111639175B
- Authority
- CN
- China
- Prior art keywords
- text
- self
- dialogue
- supervision
- paragraphs
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种自监督的对话文本摘要方法及系统,方法包括:文本预处理,将文本字符序列转化为单词序列,并通过词嵌入模型将文本单词转化成语义向量编码;时序自监督编码,训练出将对话句子编码为语义向量的自监督编码模型;自监督分段,训练出将对话文本分割为若干段落的自监督分段模型;无监督主题聚类,将相同主题的段落聚到同一类别集合中;编解码生成式摘要,将主题段落编解码生成文本摘要。本发明还提供一种自监督的对话文本摘要系统。本方案利用自监督和无监督模型进行建模,结合了生成式模型的优点,经过分段和主题聚类处理后进行生成式摘要,对完备对话集进行编解码,获得了质量较好的摘要,克服了人工标注样本短缺的问题。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种自监督的对话文本摘要方法及系统。
背景技术
随着信息技术的发展,即时信息迅速膨胀,短信、微博、商品评论、客服对话等单句长度较小的文本成为自然语言处理的研究热点,此类段落长度不超过140个字符的文本被称为短文本,短文本处理技术在自动问答、AI客服等领域有广阔应用前景。对话文本属于典型的短文本,如电商平台客服对话、论坛交流贴、社交软件聊天记录等。相比较于来自文章的文本,对话文本的处理复杂性更高。对话文本摘要任务属于自动文本摘要任务的一种,自动文本摘要目前的方法集中在以下几个方面:
(1)基于统计学的抽取式摘要方法
基于统计学的方法,对文章进行抽取式摘要,统计学方法通过文本的统计特征,计算文本中词句的重要性程度,对源文档的重要句子和词组进行抽取组合成摘要。常见的文本统计特征有:词频率、词句的位置信息和词句的关联信息。
统计学的方法依赖于文本的统计特征,优点是计算简单,且不需要额外自然语言学知识,适用于格式相对规范的文档抽取式摘要。基于统计学的方法最先在自动文本摘要领域取得了重要进展,但该类方法只是基于词语和句子的表层特征进行统计计算,未能利用词句之间的语义信息与联系,抽取的摘要往往包含过多冗余信息,仍然存在很大的局限性。
(2)基于机器学习的抽取式摘要方法
基于传统机器学习的方法以监督学习为主,一般是通过对原文中的句子进行标注,将句子分为摘要句或非摘要句,然后利用机器学习模型对原文中的句子进行分类。这类方法有朴素贝叶斯分类模型、隐马尔可夫模型,线性回归模型、决策树模型等等,最终将分类后的摘要句组合成为摘要。
与无监督的方法相比,基于机器学习的方法可以学习人工标注信息,挖掘文本特征与目标标签间的关联,准确性和效率更高。但是对大量训练集进行人工标注需要消耗巨大的人力成本,在实际的自动文本摘要任务中,往往无法获取足够的标注数据对模型进行训练,因此基于机器学习的方法未能得到广泛应用。
(3)基于深度学习的生成式摘要方法
随着计算机性能的不断增长,深度学习逐渐登上了舞台。目前深度学习方法在自然语言处理领域有一个基本方向:首先寻求文本在指定维数空间内的语义表示,然后再应用到不同的任务中。深度学习应用于文本摘要的生成,可以基于Sequence-to-Sequence模型,利用CNN网络或RNN网络对原文档进行编码,然后利用RNN网络进行解码生成摘要。深度学习的方法更接近于人工的摘要方式:理解内容之后生成概括,目前效果最好,但是需要大量人工标注的样本,训练成本很高。
发明内容
本发明的目的在于实现一种自监督的对话文本摘要方法,主要通过自监督和无监督的技术进行处理,克服了对话文本摘要任务没有大规模标注训练集的问题,生成摘要的效果良好。
本发明的目的是通过以下技术方案来实现的:
一种自监督的对话文本摘要方法,包括以下步骤:文本预处理,将文本字符序列转化为单词序列,并通过词嵌入模型将文本单词转化成语义向量编码;时序自监督编码,训练出能将对话句子编码为语义向量的自监督编码模型;自监督分段,训练出能将对话文本分割为若干段落的自监督分段模型;无监督主题聚类,将相同主题的段落聚到同一类别集合中;编解码生成式摘要,将主题段落编解码生成文本摘要。
具体的,所述文本预处理步骤还包括以下子步骤:
S101,获取对话文本集合,若对话文本为中文,则进行中文分词处理,将对话文本句子转化为单词序列;
S102,利用在大规模语料库上预训练的词嵌入模型,将单词映射为固定维度的语义向量编码。
具体的,所述时序自监督编码步骤还包括以下子步骤:
S201,通过对话的角色转换把对话全文分成N次对话{(A1,B1),...,(AN,BN)},从前文对话中采样出的三次对话{(Ai,Bi),(Aj,Bj),(Ak,Bk)}简称为三元组;
S202,采样三个三元组,第一个三元组{(Ai,Bi),(Aj,Bj),(Ak,Bk)}有序排列,第二个三元组{(Ai,Bi),(Ak,Bk),(Aj,Bj)}乱序排列,其中i<j<k≤t,第三个三元组是待预测部分,有序则标注真实标签0,乱序则标注真实标签1;
S203,将三个三元组分别通过递归自动编码器编码和双向长短期记忆网络进行嵌入后,将得到的三个嵌入拼接后输入多层感知机对待预测三元组的顺序进行分类预测;
S204,重复S202和S203直至训练完成,从递归自动编码器的输出层取出句子的编码向量。
具体的,所述自监督分段步骤还包括以下子步骤:
S301,对于没有类型标签的对话文本,将对话文本随机划分成若干个段落后对句子进行标注,打乱顺序重新排列,以此构造标注训练集;对于带有类型标签的对话文本,从不同类型的对话抽取段落,拼接排列后构造标注训练集;
S302,将段落的开始句标注开始标签<B>,段落的中间句标注中部标签<M>,段落的结尾句标注结束标签<E>;
S303,利用上述时序自监督编码模型将对话句子转化为编码向量,则段落转化为句子编码向量序列,采用双向长短期记忆网络提取序列的特征,然后将双向长短期记忆网络的输出输入到条件随机场层进行分类;
S304,通过分类结果将对话文本划分为若干段落。
具体的,所述无监督主题聚类步骤中还包括以下子步骤:
S401,顺序处理对话文本,将对话段落作为最小聚类单位,首先以第一个对话段落为聚类种子,建立一个新主题,利用时序自监督编码获得段落内对话句子的编码向量后,将与段落内其他对话句子向量距离最小的向量作为主题聚类中心向量,假设段落向量序列为V=(v1,v2,...,vz),vi∈Rn,则序列元素与其它元素的距离计算如下式所示:
S402,后续的段落按相同方式获取中心向量,计算与已有主题中心的相似度,将其加入到与它相似度最大且大于设定阈值的主题里,并更新该主题的中心向量,若段落与所有已有主题中心的相似度都小于阈值,则以该段落为聚类种子,建立新的主题类;
S403,重复S402直至遍历全部对话文本段落。
具体的,所述编解码生成式摘要步骤还包括以下子步骤:
S501,在大规模公开摘要数据集上训练编解码器,中文可选择LCSTS数据集,英文可选择CNN/DailyMail等数据集;
S502,假设由上一步获得了K个主题,将主题分别输入训练好的编解码器,生成K个摘要;
S503,每个主题包含一个或多个段落,每个段落包含多个对话句,假设主题中共包含n 个对话句子,linei表示句子(Ai,Bi)在原文中的行号,||D||表示原文总行数,则计算出整个主题的相对位置,计算如下式所示:
S504,对K个生成的摘要根据对应主题的相对位置从小到大进行排列,组成最后的摘要。
一种自监督的对话文本摘要系统,包括中文分词模块,词嵌入模块,自监督编码模块,自监督分段模块,聚类模块,摘要生成模块,
所述中文分词模块,集成开源分词工具,用于将中文字符序列转化为单词序列;
所述词嵌入模块,集成开源预训练词嵌入模型,用于将文本单词转化成语义向量编码;
所述自监督编码模块,集成时序自监督编码模型,用于将对话句子编码为语义向量;
所述自监督分段模块,集成自监督分段模型,用于将对话文本分割为若干段落;
所述聚类模块,集成无监督聚类算法,用于将相同主题的段落聚到同一类别集合中;
所述摘要生成模块,集成编解码摘要模型及主题段落排列算法,用于将主题段落编解码生成文本摘要。
本发明的有益效果:
1、方法利用自监督和无监督模型进行建模,克服了人工标注样本短缺的问题;
2、方法结合了生成式模型的优点,经过分段和主题聚类处理后进行生成式摘要,可以对完备对话集进行编解码,获得较好质量的摘要。
附图说明
图1是本发明的方法流程图。
图2是本发明涉及的时序自监督编码器示意图。
图3是本发明涉及的分段标注训练集构造示意图。
图4是本发明的系统模块图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图说明本发明的具体实施方式,但本发明的保护范围不局限于以下所述。
本实施例中,如图1所示,一种自监督的对话文本摘要方法,方法步骤包括:文本预处理,时序自监督编码,自监督分段,无监督主题聚类,编解码生成式摘要。
其中,文本预处理步骤用于将文本字符序列转化为单词序列,并通过词嵌入模型将文本单词转化成语义向量编码,具体包括以下子步骤:
S101,获取对话文本集合,若对话文本为中文,则进行中文分词处理,将对话文本句子转化为单词序列;
S102,利用在大规模语料库上预训练的词嵌入模型,例如word2vec模型或Glove模型,将单词映射为固定维度的语义向量编码。
其中,时序自监督编码步骤用于训练出能将对话句子编码为语义向量的自监督编码模型,具体包括以下子步骤:
S201,通过对话的角色转换把对话全文分成N次对话{(A1,B1),...,(AN,BN)},从前文对话中采样出的三次对话{(Ai,Bi),(Aj,Bj),(Ak,Bk)}简称为三元组;
S202,采样三个三元组,第一个三元组{(Ai,Bi),(Aj,Bj),(Ak,Bk)}有序排列,第二个三元组{(Ai,Bi),(Ak,Bk),(Aj,Bj)}乱序排列,其中i<j<k≤t,第三个三元组是待预测部分,有序则标注真实标签0,乱序则标注真实标签1;
S203,如图2所示,将三个三元组分别通过递归自动编码器(RAE)编码和双向长短期记忆网络(BiLSTM)进行嵌入后,将得到的三个嵌入拼接后输入多层感知机(MLP)对待预测三元组的顺序进行分类预测;
S204,重复子步骤S202和S203直至训练完成,从递归自动编码器(RAE)的输出层取出句子的编码向量。
其中,自监督分段步骤用于训练出能将对话文本分割为若干段落的自监督分段模型,具体包括以下子步骤:
S301,如图3中(a)部分所示,对于没有类型标签的对话文本,将对话文本随机划分成若干个段落后对句子进行标注,打乱顺序重新排列,以此构造标注训练集;如图3中(b)部分所示,对于带有类型标签的对话文本,从不同类型的对话抽取段落,拼接排列后构造标注训练集;
S302,将段落的开始句标注开始标签<B>,段落的中间句标注中部标签<M>,段落的结尾句标注结束标签<E>;
S303,利用上述时序自监督编码模型将对话句子转化为编码向量,则段落转化为句子编码向量序列,采用双向长短期记忆网络提取序列的特征,然后将双向长短期记忆网络 (BiLSTM)的输出输入到条件随机场层(CRF)进行分类;
S304,通过分类结果将对话文本划分为若干段落。
其中,无监督主题聚类步骤用于将相同主题的段落聚到同一类别集合中,具体包括以下子步骤:
S401,顺序处理对话文本,将对话段落作为最小聚类单位,首先以第一个对话段落为聚类种子,建立一个新主题,利用时序自监督编码获得段落内对话句子的编码向量后,将与段落内其他对话句子向量距离最小的向量作为主题聚类中心向量,假设段落向量序列为V=(v1,v2,...,vz),vi∈Rn,则序列元素与其它元素的距离计算如下式所示:
S402,后续的段落按相同方式获取中心向量,计算与已有主题中心的相似度,将其加入到与它相似度最大且大于设定阈值的主题里,并更新该主题的中心向量,若段落与所有已有主题中心的相似度都小于阈值,则以该段落为聚类种子,建立新的主题类;
S403,重复S402直至遍历全部对话文本段落。
其中,编解码生成式摘要步骤用于主题段落编解码生成文本摘要,具体包括以下子步骤:
S501,在大规模公开摘要数据集上训练编解码器,中文可选择LCSTS数据集,英文可选择CNN/DailyMail等数据集;
S502,假设由上一步获得了K个主题,将主题分别输入训练好的编解码器,生成K个摘要;
S503,每个主题包含一个或多个段落,每个段落包含多个对话句,假设主题中共包含n 个对话句子,linei表示句子(Ai,Bi)在原文中的行号,||D||表示原文总行数,则计算出整个主题的相对位置,计算如下式所示:
S504,对K个生成的摘要根据对应主题的相对位置从小到大进行排列,组成最后的摘要。
本实施例中,如图4所示,还提供一种自监督的对话文本摘要系统,用于实施上述的自监督的对话文本摘要方法,系统包括中文分词模块,词嵌入模块,自监督编码模块,自监督分段模块,聚类模块,摘要生成模块。
其中,中文分词模块集成有开源分词工具,用于将中文字符序列转化为单词序列。词嵌入模块集成有开源预训练词嵌入模型,用于将文本单词转化成语义向量编码。自监督编码模块集成有时序自监督编码模型,用于将对话句子编码为语义向量。自监督分段模块集成有自监督分段模型,用于将对话文本分割为若干段落。聚类模块集成有无监督聚类算法,用于将相同主题的段落聚到同一类别集合中。摘要生成模块集成有编解码摘要模型及主题段落排列算法,用于将主题段落编解码生成文本摘要。
本实施例中,一种自监督的对话文本摘要系统的运行流程包括:首先获取对话文本集合,通过中文分词模块将中文字符序列转化为单词序列,运行词嵌入模块将文本单词转化成语义向量编码,并通过通过自监督编码模块将对话句子编码为语义向量,将编码向量传入自监督分段模块,将对话文本分割为若干段落,再利用聚类模块将相同主题的段落聚到同一类别集合中,最后通过摘要生成模块将主题段落编解码生成文本摘要。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护的范围由所附的权利要求书及其等效物界定。
Claims (4)
1.一种自监督的对话文本摘要方法,其特征在于,包括以下步骤:
文本预处理,将文本字符序列转化为单词序列,并通过词嵌入模型将文本单词转化成语义向量编码;
时序自监督编码,训练出能将对话句子编码为语义向量的自监督编码模型;
自监督分段,训练出能将对话文本分割为若干段落的自监督分段模型;
无监督主题聚类,将相同主题的段落聚到同一类别集合中;
编解码生成式摘要,将主题段落编解码生成文本摘要;
其中,所述时序自监督编码步骤还包括以下子步骤:
S201,通过对话的角色转换把对话全文分成N次对话{(A1,B1),...,(AN,BN)},从前文对话中采样出的三次对话{(Ai,Bi),(Aj,Bj),(Ak,Bk)}简称为三元组;
S202,采样三个三元组,第一个三元组{(Ai,Bi),(Aj,Bj),(Ak,Bk)}有序排列,第二个三元组{(Ai,Bi),(Ak,Bk),(Aj,Bj)}乱序排列,其中i<j<k≤t,第三个三元组是待预测部分,有序则标注真实标签0,乱序则标注真实标签1;
S203,将三个三元组分别通过递归自动编码器编码和双向长短期记忆网络进行嵌入后,将得到的三个嵌入拼接后输入多层感知机对待预测三元组的顺序进行分类预测;
S204,重复S202和S203直至训练完成,从递归自动编码器的输出层取出句子的编码向量;
所述自监督分段步骤还包括以下子步骤:
S301,对于没有类型标签的对话文本,将对话文本随机划分成若干个段落后对句子进行标注,打乱顺序重新排列,以此构造标注训练集;对于带有类型标签的对话文本,从不同类型的对话抽取段落,拼接排列后构造标注训练集;
S302,将段落的开始句标注开始标签<B>,段落的中间句标注中部标签<M>,段落的结尾句标注结束标签<E>;
S303,利用上述时序自监督编码模型将对话句子转化为编码向量,则段落转化为句子编码向量序列,采用双向长短期记忆网络提取序列的特征,然后将双向长短期记忆网络的输出输入到条件随机场层进行分类;
S304,通过分类结果将对话文本划分为若干段落;
所述编解码生成式摘要步骤还包括以下子步骤:
S501,在大规模公开摘要数据集上训练编解码器,中文可选择LCSTS数据集,英文可选择CNN/DailyMail等数据集;
S502,假设由上一步获得了K个主题,将主题分别输入训练好的编解码器,生成K个摘要;
S503,每个主题包含一个或多个段落,每个段落包含多个对话句,假设主题中共包含n个对话句子,linei表示句子(Ai,Bi)在原文中的行号,||D||表示原文总行数,则计算出整个主题的相对位置,计算如下式所示:
S504,对K个生成的摘要根据对应主题的相对位置从小到大进行排列,组成最后的摘要。
2.根据权利要求1所述的一种自监督的对话文本摘要方法,其特征在于,所述文本预处理步骤还包括以下子步骤:
S101,获取对话文本集合,若对话文本为中文,则进行中文分词处理,将对话文本句子转化为单词序列;
S102,利用在大规模语料库上预训练的词嵌入模型,将单词映射为固定维度的语义向量编码。
3.根据权利要求1所述的一种自监督的对话文本摘要方法,其特征在于,所述无监督主题聚类步骤中还包括以下子步骤:
S401,顺序处理对话文本,将对话段落作为最小聚类单位,首先以第一个对话段落为聚类种子,建立一个新主题,利用时序自监督编码获得段落内对话句子的编码向量后,将与段落内其他对话句子向量距离最小的向量作为主题聚类中心向量,假设段落向量序列为V=(v1,v2,...,vz),vi∈Rn,则序列元素与其它元素的距离计算如下式所示:
S402,后续的段落按相同方式获取中心向量,计算与已有主题中心的相似度,将其加入到与它相似度最大且大于设定阈值的主题里,并更新该主题的中心向量,若段落与所有已有主题中心的相似度都小于阈值,则以该段落为聚类种子,建立新的主题类;
S403,重复S402直至遍历全部对话文本段落。
4.一种自监督的对话文本摘要系统,基于权利要求1-3任意一项所述的一种自监督的对话文本摘要方法,其特征在于,包括:
中文分词模块,集成开源分词工具,用于将中文字符序列转化为单词序列;
词嵌入模块,集成开源预训练词嵌入模型,用于将文本单词转化成语义向量编码;自监督编码模块,集成时序自监督编码模型,用于将对话句子编码为语义向量;自监督分段模块,集成自监督分段模型,用于将对话文本分割为若干段落;
聚类模块,集成无监督聚类算法,用于将相同主题的段落聚到同一类别集合中;摘要生成模块,集成编解码摘要模型及主题段落排列算法,用于将主题段落编解码生成文本摘要。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010475376.3A CN111639175B (zh) | 2020-05-29 | 2020-05-29 | 一种自监督的对话文本摘要方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010475376.3A CN111639175B (zh) | 2020-05-29 | 2020-05-29 | 一种自监督的对话文本摘要方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111639175A CN111639175A (zh) | 2020-09-08 |
CN111639175B true CN111639175B (zh) | 2023-05-02 |
Family
ID=72330292
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010475376.3A Active CN111639175B (zh) | 2020-05-29 | 2020-05-29 | 一种自监督的对话文本摘要方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111639175B (zh) |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112070076B (zh) * | 2020-11-13 | 2021-04-06 | 深圳壹账通智能科技有限公司 | 文本段落结构还原方法、装置、设备及计算机存储介质 |
CN112541343B (zh) * | 2020-12-03 | 2022-06-14 | 昆明理工大学 | 基于词对齐的半监督对抗学习跨语言摘要生成方法 |
CN112883722B (zh) * | 2021-03-04 | 2023-04-21 | 中山大学 | 一种基于云数据中心分布式文本摘要方法 |
CN113138773B (zh) * | 2021-04-19 | 2024-04-16 | 杭州科技职业技术学院 | 云计算分布式服务集群方法 |
US11630958B2 (en) | 2021-06-02 | 2023-04-18 | Microsoft Technology Licensing, Llc | Determining topic labels for communication transcripts based on a trained generative summarization model |
CN113822038B (zh) * | 2021-06-03 | 2024-06-25 | 腾讯科技(深圳)有限公司 | 一种摘要生成方法和相关装置 |
CN113268579B (zh) * | 2021-06-24 | 2023-12-08 | 中国平安人寿保险股份有限公司 | 对话内容类别识别方法、装置、计算机设备及存储介质 |
CN113255319B (zh) * | 2021-07-02 | 2021-10-26 | 深圳市北科瑞声科技股份有限公司 | 模型训练方法、文本分段方法、摘要抽取方法及装置 |
CN113673251B (zh) * | 2021-08-09 | 2024-07-26 | 浙江浙能数字科技有限公司 | 一种基于无监督生成网络的多编码体系互迁移方法 |
CN114254084A (zh) * | 2021-08-12 | 2022-03-29 | 北京好欣晴移动医疗科技有限公司 | 心理疾病专业术语无监督聚类方法、装置和系统 |
CN113836941B (zh) * | 2021-09-27 | 2023-11-14 | 上海合合信息科技股份有限公司 | 一种合同导航方法及装置 |
CN114357987A (zh) * | 2021-12-28 | 2022-04-15 | 讯飞智元信息科技有限公司 | 摘要生成方法及相关装置、设备和存储介质 |
CN114492429B (zh) * | 2022-01-12 | 2023-07-18 | 平安科技(深圳)有限公司 | 文本主题的生成方法、装置、设备及存储介质 |
CN114492384A (zh) * | 2022-01-17 | 2022-05-13 | 海南车智易通信息技术有限公司 | 训练生成文本生成模型的方法及文本生成方法 |
CN116933801A (zh) * | 2022-04-01 | 2023-10-24 | 北京沃东天骏信息技术有限公司 | 对话摘要生成方法和装置、模型训练方法和设备 |
CN114841171B (zh) * | 2022-04-29 | 2023-04-28 | 北京思源智通科技有限责任公司 | 一种文本分段主题提取方法、系统、可读介质及设备 |
CN115062139B (zh) * | 2022-05-10 | 2024-06-11 | 电子科技大学 | 一种对话文本摘要模型自动搜索方法 |
CN115982600A (zh) * | 2022-12-28 | 2023-04-18 | 中国电信股份有限公司 | 匹配模型训练方法、设备及介质 |
CN116541505B (zh) * | 2023-07-05 | 2023-09-19 | 华东交通大学 | 一种基于自适应对话分割的对话摘要生成方法 |
CN116775497B (zh) * | 2023-08-17 | 2023-11-14 | 北京遥感设备研究所 | 数据库测试用例生成需求描述编码方法 |
CN117667867A (zh) * | 2023-12-07 | 2024-03-08 | 国网浙江浙电招标咨询有限公司 | 一种基于文件属性自适应压缩方法、系统和存储介质 |
CN117556025B (zh) * | 2024-01-10 | 2024-04-02 | 川投信息产业集团有限公司 | 基于ai和可视化的平台化项目服务信息优化方法及系统 |
CN118377895B (zh) * | 2024-06-20 | 2024-09-20 | 北京鼎泰智源科技有限公司 | 一种基于深度学习的专利摘要智能生成系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6963830B1 (en) * | 1999-07-19 | 2005-11-08 | Fujitsu Limited | Apparatus and method for generating a summary according to hierarchical structure of topic |
CN101620596A (zh) * | 2008-06-30 | 2010-01-06 | 东北大学 | 一种面向查询的多文档自动摘要方法 |
CN106126620A (zh) * | 2016-06-22 | 2016-11-16 | 北京鼎泰智源科技有限公司 | 基于机器学习的中文自动文摘方法 |
CN109800390A (zh) * | 2018-12-21 | 2019-05-24 | 北京石油化工学院 | 一种个性化情感摘要的计算方法与装置 |
CN109885683A (zh) * | 2019-01-29 | 2019-06-14 | 桂林远望智能通信科技有限公司 | 一种基于K-means模型和神经网络模型的生成文本摘要的方法 |
CN110413986A (zh) * | 2019-04-12 | 2019-11-05 | 上海晏鼠计算机技术股份有限公司 | 一种改进词向量模型的文本聚类多文档自动摘要方法及系统 |
CN110929024A (zh) * | 2019-12-10 | 2020-03-27 | 哈尔滨工业大学 | 一种基于多模型融合的抽取式文本摘要生成方法 |
CN111177365A (zh) * | 2019-12-20 | 2020-05-19 | 山东科技大学 | 一种基于图模型的无监督自动文摘提取方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150127323A1 (en) * | 2013-11-04 | 2015-05-07 | Xerox Corporation | Refining inference rules with temporal event clustering |
US9317498B2 (en) * | 2014-05-23 | 2016-04-19 | Codeq Llc | Systems and methods for generating summaries of documents |
-
2020
- 2020-05-29 CN CN202010475376.3A patent/CN111639175B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6963830B1 (en) * | 1999-07-19 | 2005-11-08 | Fujitsu Limited | Apparatus and method for generating a summary according to hierarchical structure of topic |
CN101620596A (zh) * | 2008-06-30 | 2010-01-06 | 东北大学 | 一种面向查询的多文档自动摘要方法 |
CN106126620A (zh) * | 2016-06-22 | 2016-11-16 | 北京鼎泰智源科技有限公司 | 基于机器学习的中文自动文摘方法 |
CN109800390A (zh) * | 2018-12-21 | 2019-05-24 | 北京石油化工学院 | 一种个性化情感摘要的计算方法与装置 |
CN109885683A (zh) * | 2019-01-29 | 2019-06-14 | 桂林远望智能通信科技有限公司 | 一种基于K-means模型和神经网络模型的生成文本摘要的方法 |
CN110413986A (zh) * | 2019-04-12 | 2019-11-05 | 上海晏鼠计算机技术股份有限公司 | 一种改进词向量模型的文本聚类多文档自动摘要方法及系统 |
CN110929024A (zh) * | 2019-12-10 | 2020-03-27 | 哈尔滨工业大学 | 一种基于多模型融合的抽取式文本摘要生成方法 |
CN111177365A (zh) * | 2019-12-20 | 2020-05-19 | 山东科技大学 | 一种基于图模型的无监督自动文摘提取方法 |
Non-Patent Citations (2)
Title |
---|
"Generating titles for paragraphs using statistically extracted keywords and phrases";D. Gokcay等;《1995 IEEE International Conference on Systems, Man and Cybernetics. Intelligent Systems for the 21st Century》;全文 * |
"面向对话文本的主题分割技术研究";王炳浩;《中国优秀硕士学位论文全文数据库》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111639175A (zh) | 2020-09-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111639175B (zh) | 一种自监督的对话文本摘要方法及系统 | |
CN109299273B (zh) | 基于改进seq2seq模型的多源多标签文本分类方法及其系统 | |
CN113128229B (zh) | 一种中文实体关系联合抽取方法 | |
CN110929030A (zh) | 一种文本摘要和情感分类联合训练方法 | |
CN111858932A (zh) | 基于Transformer的多重特征中英文情感分类方法及系统 | |
CN112800768A (zh) | 一种嵌套命名实体识别模型的训练方法及装置 | |
CN113987169A (zh) | 基于语义块的文本摘要生成方法、装置、设备及存储介质 | |
CN110569505B (zh) | 一种文本输入方法及装置 | |
CN112507190B (zh) | 一种财经快讯的关键词提取方法和系统 | |
CN111709242A (zh) | 一种基于命名实体识别的中文标点符号添加方法 | |
CN114154504B (zh) | 一种基于多信息增强的中文命名实体识别算法 | |
US11709989B1 (en) | Method and system for generating conversation summary | |
CN115759119B (zh) | 一种金融文本情感分析方法、系统、介质和设备 | |
CN112632244A (zh) | 一种人机通话的优化方法、装置、计算机设备及存储介质 | |
CN111145914A (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN116245110A (zh) | 基于图注意力网络的多维度信息融合用户立场检测方法 | |
CN113065349A (zh) | 基于条件随机场的命名实体识别方法 | |
CN115587184A (zh) | 一种关键信息抽取模型的训练方法、装置及其存储介质 | |
CN115098673A (zh) | 基于变体注意力及层次结构的业务文书信息抽取方法 | |
CN110717316B (zh) | 字幕对话流的主题分割方法及装置 | |
CN116861021A (zh) | 基于去噪和动量蒸馏的跨模态检索模型构建方法 | |
CN116484852A (zh) | 一种基于关系图注意力网络的中文专利实体关系联合抽取方法 | |
WO2023159759A1 (zh) | 模型的训练方法、情感消息生成方法和装置、设备、介质 | |
CN115759102A (zh) | 一种中国诗酒文化命名实体识别方法 | |
CN113297367B (zh) | 用户对话衔接语生成的方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |