CN112347758A - 文本摘要的生成方法、装置、终端设备及存储介质 - Google Patents

文本摘要的生成方法、装置、终端设备及存储介质 Download PDF

Info

Publication number
CN112347758A
CN112347758A CN202011228728.1A CN202011228728A CN112347758A CN 112347758 A CN112347758 A CN 112347758A CN 202011228728 A CN202011228728 A CN 202011228728A CN 112347758 A CN112347758 A CN 112347758A
Authority
CN
China
Prior art keywords
text
sentence
processed
word
tfidf
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011228728.1A
Other languages
English (en)
Other versions
CN112347758B (zh
Inventor
张炜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN202011228728.1A priority Critical patent/CN112347758B/zh
Priority claimed from CN202011228728.1A external-priority patent/CN112347758B/zh
Publication of CN112347758A publication Critical patent/CN112347758A/zh
Application granted granted Critical
Publication of CN112347758B publication Critical patent/CN112347758B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请适用于人工智能技术领域,提供了一种文本摘要的生成方法、装置、终端设备及存储介质,方法包括:基于待处理文本中单词的TFIDF权重,对待处理文本中单词对应的目标词向量进行加权,得到待处理文本的主题特征和待处理文本中每个句子的句子特征;根据主题特征与每个句子特征,计算待处理文本的文本主题与每个句子之间的相关度;根据与文本主题的相关度达到预设值的若干个目标句子,生成待处理文本的文本摘要。本方法根据句子与主题之间的语义相关性,抽取出与主题相关度较高的句子作为候选摘要,保证抽取出的摘要能够忠于文章原意,提高文本摘要的生成结果的准确度。

Description

文本摘要的生成方法、装置、终端设备及存储介质
技术领域
本申请涉及人工智能技术领域,尤其涉及一种文本摘要的生成方法、装置、终端设备及计算机可读存储介质。
背景技术
文本摘要是以提供文本内容梗概为目的,能够简明、确切地记述文本重要内容的短文,其可以帮助用户在不阅读全文的情况下,快速了解文本的核心内容。目前文本摘要的生成方法主要基于seq2seq算法的生成式方法。
在相关技术中,生成式方法根据原文内容,通过摘要生成模型生成文本摘要,但摘要生成模型需要人工标注大量标准摘要用于模型训练,导致成本非常高,以及生成式方法得到的文本摘要并非来自于原文原句,所以不一定能够准确表达原文原意。可见,目前文本摘要的生成方法存在生成结果准确度较低的问题。
发明内容
有鉴于此,本申请实施例提供了一种文本摘要的生成方法、装置、终端设备及计算机可读存储介质,以解决现有技术中文本摘要的生成方式存在生成结果准确度低的问题。
本申请实施例的第一方面提供了一种文本摘要的生成方法,包括:
基于待处理文本中单词的TFIDF权重,对待处理文本中单词对应的目标词向量进行加权,得到待处理文本的主题特征和待处理文本中每个句子的句子特征;
根据主题特征与每个句子特征,计算待处理文本的文本主题与每个句子之间的相关度;
根据与文本主题的相关度达到预设值的若干个目标句子,生成待处理文本的文本摘要。
本申请实施例提供的一种文本摘要的生成方法,通过待处理文本中单词的TFIDF权重,对待处理文本中单词对应的目标词向量进行加权,得到待处理文本的主题特征和待处理文本中每个句子的句子特征,从而能够在提取主题特征和句子特征时,针对重要词汇进行加权,保证重要词汇在生成最终主题特征或句子特征更加能够表达待处理文本的文本语义。根据主题特征与每个句子特征,计算待处理文本的文本主题与每个句子之间的相关度,并根据与文本主题的相关度达到预设值的若干个目标句子,生成待处理文本的文本摘要,从而能够根据句子与主题之间的语义相关性,抽取出与主题相关度较高的句子作为候选摘要,进而保证抽取出的摘要能够忠于文章原意,提高文本摘要的生成结果的准确度。另外,本方法无须事先进行样本标注,因而实施成本较低,具有较好的实用性。
本申请实施例的第二方面提供了一种文本摘要的生成装置,包括:
加权模块,用于基于待处理文本中单词的TFIDF权重,对待处理文本中单词对应的目标词向量进行加权,得到待处理文本的主题特征和待处理文本中每个句子的句子特征;
计算模块,用于根据主题特征与每个句子特征,计算待处理文本的文本主题与每个句子之间的相关度;
生成模块,用于根据与文本主题的相关度达到预设值的若干个句子,生成待处理文本的文本摘要。
本申请实施例的第三方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在终端设备上运行的计算机程序,所述处理器执行所述计算机程序时实现第一方案提供的文本摘要的生成方法的各步骤。
本申请实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现第一方案提供的文本摘要的生成方法的各步骤。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种文本摘要的生成方法的实现流程图;
图2是本申请一实施例提供的一种文本摘要的生成方法中步骤S101的具体实现流程图;
图3是本申请另一实施例提供的一种文本摘要的生成方法的实现流程图;
图4是本申请实施例提供的一种文本摘要的生成装置的结构框图;
图5是本申请实施例提供的一种终端设备的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
在相关技术中,生成式方法根据原文内容,通过摘要生成模型生成文本摘要,但摘要生成模型需要人工标注大量标准摘要用于模型训练,导致成本非常高,以及生成式方法得到的文本摘要并非来自于原文原句,所以不一定能够准确表达原文原意。可见,目前文本摘要的生成方法存在生成结果准确度较低的问题。
有鉴于此,本申请实施例提供一种文本摘要的生成方法,通过待处理文本中单词的TFIDF权重,对待处理文本中单词对应的目标词向量进行加权,得到待处理文本的主题特征和待处理文本中每个句子的句子特征,从而能够在提取主题特征和句子特征时,针对重要词汇进行加权,保证重要词汇在生成最终主题特征或句子特征更加能够表达待处理文本的文本语义。根据主题特征与每个句子特征,计算待处理文本的文本主题与每个句子之间的相关度,并根据与文本主题的相关度达到预设值的若干个目标句子,生成待处理文本的文本摘要,从而能够根据句子与主题之间的语义相关性,抽取出与主题相关度较高的句子作为候选摘要,进而保证抽取出的摘要能够忠于文章原意,提高文本摘要的生成结果的准确度。另外,本方法无须事先进行样本标注,因而实施成本较低,具有较好的实用性。
请参阅图1,图1示出了本申请实施例提供的一种文本摘要的生成方法的实现流程图。本申请实施例提供的文本摘要的生成方法的执行主体为终端设备,终端设备包括但不限于智能手机、平板电脑、桌上型计算机、超级计算机、个人数字助理等终端。如图1所示的文本摘要的生成方法包括步骤S101至S103,详述如下。
S101,基于待处理文本中单词的TFIDF权重,对待处理文本中单词对应的目标词向量进行加权,得到待处理文本的主题特征和待处理文本中每个句子的句子特征。
在本实施例中,终端设备预先获取待处理文本。文本是指书面语言的表现形式,通常是具有完整、系统含义的一个句子或多个句子的组合。本实施例的待处理文本是多个句子组合成的篇章,例如新闻文本、论文文本等。单词是组成待处理文本的词汇,其包括但不限于文本标题、文本备注、文本正文等组成部分中的词汇,词汇可以是一个字或多个字,例如“广州塔是广州著名地标”,“广州塔”、“是”等都是组成该句子的单词。终端设备通过中文分词或其他语言分词方式,对待处理文本的每个句子进行分词,得到组成句子的单词。示例性地,待处理文本为中文文本,终端设备基于支持向量机-隐马尔科夫模型(SupportVector Machine-Hidden Markov Model,SVM-HMM)构建的中文分词模型,或者基于双向长短期记忆网络-条件随机场模型(Long Short-Term Memory-Conditional Random Field,LSTM-CRF)构建的中文分词模型,对待处理文本中的每个句子进行中文分词,得到每个句子分别对应的多个单词。
TFIDF(Term Frequency-Inverse Document Frequency)权重为基于TFIDF算法计算得到的单词在待处理文本的权重,其用于表示单词在待处理文本中的重要性程度,权重越大,重要性越高。TFIDF算法为基于统计特征的算法,具体为通过词频特征来提取单词权重的算法。可选地,TFIDF算法的计算公式可以为:
Figure BDA0002764445830000051
其中
Figure BDA0002764445830000052
表示单词i在待处理文本中的TF-IDF权重值,TFij表示单词i的词频,IDFi表示单词i的逆文档词频,nij表示单词i在待处理文本中出现的次数,∑knk,j表示文本内容中所有单词的数目,|M|表示预设语料库中所有文档数,{j:wi∈mj}表示预设预料库中包含单词i的文档数。
词向量(Word embedding)是Word嵌入式自然语言处理(NLP)中的一组语言建模和特征学习技术的统称,其来自词汇表的单词或短语被映射到实数的向量。本实施例的目标词向量是目标单词对应的词向量。对于主题特征的提取,目标词向量可以是待处理文本中的主题词汇对应的词向量,例如待处理文本为论文文本,则目标词向量可以为论文题目和关键词对应的词向量。对于句子特征的提取,目标词向量可以是句子中每个单词词汇的词向量。主题特征为用于表征待处理文本的主题含义的特征向量,句子特征为用于表征待处理文本中句子含义的特征向量。
由于pagerank等算法采用平均池化(average pooling)方式计算的是句子和主题之间的静态权重,而静态权重无法体现重要主题词汇在主题特征中的贡献,也无法体现重要单词词汇在句子中的贡献,所以基于pagerank算法得到的文本摘要不能完全表征文章的核心思想。因而本实施例的终端设备基于待处理文本中单词的TFIDF权重,对待处理文本中单词对应的目标词向量进行加权,以提高重要主题词汇和重要单词词汇分别在主题特征和句子特征中的贡献,从而提高主题含义和句子含义的准确性,进而提高文本摘要生成结果的准确性。示例性地,对于主题特征的提取,获取待处理文本中的多个主题词汇,通过词嵌入层将每个主题词汇映射为主题词向量,以及基于TFIDF算法计算每个主题词汇的TFIDF权重,再根据每个主题词汇的TFIDF权重对主题词向量进行加权,将加权结果作为主题特征。对于句子特征的提取,对待处理文本中的每个句子进行分词操作,得到每个句子的多个单词,通过词嵌入层将每个单词映射为单词词向量,以及基于TFIDF算法计算每个单词的TFIDF权重,再针对每个句子,根据每个句子中单词的TFIDF权重对单词词向量进行加权,将加权结果作为句子特征。
可以理解的是,本实施例的句子没有特指是以句号结尾的句子,也就是说,本实施例的句子可以是以任意预设标点符号结尾的句子,其中预设标点符号可以是逗号、句号、问号、感叹号和分号等。例如,“今天是1月1日,天气晴朗,小王计划去野炊。”,则可以将“今天是1月1日”、“天气晴朗”和“小王计划去野炊”均作为本实施例的句子。
S102,根据主题特征与每个句子特征,计算待处理文本的文本主题与每个句子之间的相关度。
在本实施例中,由于句子含义与主题含义越相关,则说明该句子越能表达待处理文本的核心思想,所以本实施例根据主题特征与每个句子特征,计算待处理文本的文本主题与每个句子之间的相关度,从而确定出最能准确表达待处理文本的核心思想的若干个句子,进而生成更加符合原文原意的文本摘要。其中相关度为文本主题与句子之间存在相互联系的百分比,百分比越大,相互联系越强。可选地,基于余弦相似度公式计算每个句子特征与主题特征的相关度。
S103,根据与文本主题的相关度达到预设值的若干个目标句子,生成待处理文本的文本摘要。
在本实施例中,预设值为预先设定的常数,基于相关度的取值范围在0至1之间,预设值可以设定为0至1之间的一个数值,例如0.8。目标句子为作为文本摘要的句子。根据每个句子与文本主题的相关度,确定出相关度达到预设值的N个目标句子,将N个目标句子生成为待处理文本的文本摘要。需要说明的是,通常情况下,一篇文章中至少存在一个与文本主题的相关度达到预设值的句子,但是为了应对文章中句子与文本主题的相关度均未达到预设值的例外情况,本实施例可以选取相关度靠前的预设个数的句子作为目标句子。
进一步地,由于文本摘要是为了便于读者了解文章含义而生成的,所以文本摘要的段落应当简短,即目标句子的数量不能太多,因此也可以预先设定目标句子的个数。示例性地,待处理文本有100个句子,预设值为0.8,目标句子的预设个数为5个,其中与文本主题的相关度达到0.8的句子有20个,则可以根据该20个句子与文本主题的相关度,对20个句子进行大小递增排序或大小递减排序,并选取相关度数值较大的前5个句子作为目标句子。
在一实施例中,根据与文本主题的相关度达到预设值的若干个目标句子,生成待处理文本的文本摘要,包括:查询与文本主题的相关度达到预设值的若干个目标句子在待处理文本中的位置;根据目标句子在待处理文本中的位置,确定若干个目标句子的先后顺序;根据先后顺序,将若干个目标句子拼接为待处理文本的文本摘要。
本实施例中,终端设备查询与文本主题的相关度达到预设值的若干个目标句子在待处理文本中的位置。可选地,可以获取目标句子,将目标句子与待处理文本的全文进行匹配,以确定目标句子在待处理文本中的位置;也可以在步骤S101的特征提取过程中提取句子位置特征向量,再根据目标句子的句子位置特征向量,确定目标句子在待处理文本中的位置。为了保证文本摘要的连贯性,根据目标句子的先后顺序,将若干个目标句子拼接为待处理文本的文本摘要。具体地,以目标句子在待处理文本中从先到后的位置顺序,将若干个句子依次连接,得到文本摘要。
请参阅图2,图2是本申请一实施例提供的一种文本摘要的生成方法中步骤S101的具体实现流程图。相对于图1对应的实施例,本实施例提供的文本摘要的生成方法中单词包括主题词和句子组成词,步骤S101具体包括S201至S203。需要说明的是,与图1实施例相同的部分,此处不再赘述。
S201,提取待处理文本中主题词对应的主题词向量,以及句子组成词的组成词向量。
在本实施例中,主题词为表示待处理文本主题的词汇,其包括但不限于待处理文本的文本标题中的词汇、前言/序言/后言描述中的词汇、正文关键词描述中的词汇以及在待处理文本中出现频率最高的词汇等。例如,待处理文本为新闻文本,新闻标题可以很好的表达文章的主题思想,以及很多新闻作者会在文章中增加描述字段和关键词字段,因此可以将新闻标题中的词汇、描述字段和关键词字段作为新闻的主题词。句子组成词为组成句子的词汇,其可以是一个字或多个字,例如“今天的天气很好”,“今天”、“的”、“天气”“很好”都是组成该句子的单词。
在一实施例中,提取待处理文本中主题词对应的主题词向量,以及句子组成词的组成词向量,包括:基于待处理文本的文本标题和目标字段位置,确定待处理文本的多个主题词,并对每个主题词进行向量编码,得到多个主题词向量;针对待处理文本中的每个句子,对句子进行分词,得到组成句子的多个句子组成词,并对每个句子组成词进行向量编码,得到多个组成词向量。
本实施例中,目标字段位置为主题词在待处理文本中的位置,例如,待处理文本的前言位置、后言位置、序言位置和关键词描述位置等。终端设备基于待处理文本的文本标题和目标字段位置确定出主题词后,需要得到主题词的向量,向量编码可以使用word2vec模型。常用的Word2vec模型有SkipGram,它以一个词为输入,预测周围的上下文。该模型的输入是独热编码后的每一个词语,假设词语有V个,每个词语都有先后顺序,那么每一个词语在向量中都有一个位置,且都可以找到属于其自身的唯一表示。经过神经网络训练后,每个词都可以通过查表获取该词的词向量。从本质上看,word2vec将词语的向量维度从从独热编码的V维降低到N维。除了上面提到的词向量提取方法以外,还可以使用FastText、Glove等其他基于预训练模型进行词向量提取。
可以理解的是,对于文本标题确定主题词时,可以将整个文本标题作为主题词,以使主题表达更加准确。对于前言/序言/后言等位置确定主题词,可以将先对该位置的文本进行分词操作,再确定主题词。示例性地,终端设备基于支持向量机-隐马尔科夫模型(Support Vector Machine-Hidden Markov Model,SVM-HMM)构建的中文分词模型,或者基于双向长短期记忆网络-条件随机场模型(Long Short-Term Memory-Conditional RandomField,LSTM-CRF)构建的中文分词模型,对前言/序言/后言等位置的文本内容进行中文分词,得到多个单词;再基于条件随机场模型(Conditional Random Field,CRF)构建的实体识别模型,对基于上述中文分词模型得到的多个单词进行实体识别,得到多个实体;最后基于关键词的词频、位置信息和词长等特征构建的TF-IDF(term frequency-inversedocument frequency)算法,或者基于词语网络构建的TextRank算法,对多个实体进行主题词提取,得到一个或多个主题词。对于句子组成词的确定过程和向量编码过程,可类似于上述主题词,在此不再赘述。
S202,基于待处理文本中主题词的第一TFIDF权重,对主题词向量进行加权,得到待处理文本的主题特征,第一TFIDF权重用于表征主题词在待处理文本的文本主题中的重要程度。
在本实施例中,对于每个主题词,均计算主题词对应的第一TFIDF权重,再根据该主题词的第一TFIDF权重对该主题词进行加权,最后将所有主题词的加权结果进行求和,得到待处理文本的主题特征。
在一实施例中,基于待处理文本中主题词的第一TFIDF权重,对主题词对应的主题词向量进行加权,得到待处理文本的主题特征,包括:基于预设TFIDF算法,计算每个主题词在文本主题中的TFIDF原始权重;基于预设softmax算法,根据主题词的TFIDF原始权重,计算每个主题词在文本主题中的第一TFIDF权重;基于每个主题词的第一TFIDF权重,对每个主题词对应的主题词向量进行加权求和,得到待处理文本的主题特征;第一TFIDF权重的计算公式为:
Figure BDA0002764445830000101
其中ai表示基于softmax算法对第i个主题词的TFIDF原始权重进行归一化得到的第一TFIDF权重,tfii*idfii表示第i个主题词的TFIDF原始权重,∑i′exp(tfi′*idfi′)表示所有主题词的TFIDF原始权重之和。
本实施例中,不同于传统的average pooling方法,本实施例得到的主题向量为对每个主题词进行向量加权求和的结果,更够根据主题词的重要程度,使得重要主题词对文本主题的贡献更大,从而使文本主题的表达更加准确。具体地,根据上述第一TFIDF权重的计算公式得到每个主题词的TFIDF权重,再利用如下公式对所有主题词进行加权求和:
Figure BDA0002764445830000102
其中gi表示主题词i的词向量,该词向量一般设置为固定维数,如128维,Ns表示该主题词的总量,v表示词向量经过加权求和后得到的最终主题向量,即待处理文本的主题特征。
S203,针对待处理文本中的每个句子,基于句子中的每个句子组成词的第二TFIDF权重,对句子中的每个组成词向量进行加权,得到句子的句子特征,第二TFIDF权重用于表征句子组成词在句子中的重要程度。
在本实施例中,对于每个组成词,均计算组成词对应的第一TFIDF权重,再根据该组成词的第一TFIDF权重对该组成词进行加权,最后将所有组成词的加权结果进行求和,得到句子的句子特征。
在一实施例中,针对待处理文本中的每个句子,基于句子中的每个句子组成词的第二TFIDF权重,对句子中的每个句子组成词对应的组成词向量进行加权,得到句子的句子特征,包括:针对待处理文本中的每个句子,基于预设TFIDF算法,计算每个句子组成词在句子中的TFIDF原始权重;基于预设softmax算法,根据句子组成词的TFIDF原始权重,计算每个句子组成词在句子中的第二TFIDF权重;基于每个句子组成词的第二TFIDF权重,对每个句子组成词对应的组成词向量进行加权求和,得到句子的句子特征;第二TFIDF权重的计算公式为:
Figure BDA0002764445830000111
其中bj表示基于softmax算法对第j个句子组成词的TFIDF原始权重进行归一化得到的第二TFIDF权重,tfj*idfj表示第j个句子组成词在句子中的TFIDF原始权重,∑j′exp(tfj′*idfj′)表示句子中的所有句子组成词的TFIDF原始权重之和。
本实施例中,不同于传统的average pooling方法,本实施例得到的句子向量为对每个组成词进行向量加权求和的结果,这样能够根据组成词的重要程度,是重要组成词对句子含义的贡献更大,从而使句子含义的表达更加准确。具体地,根据上述第二TFIDF权重的计算公式得到每个组成词的TFIDF权重,再利用如下公式对所有组成词进行加权求和:
Figure BDA0002764445830000112
其中hi表示组成词i的词向量,Ns表示该句子的组成词总量,u表示词向量经过加权求和后得到的最终句子向量,即句子的句子特征。
请参阅图3,图3是本申请另一实施例提供的一种文本摘要的生成方法的实现流程图。相对于图1对应的实施例,本实施例提供的文本摘要的生成方法在步骤S101之前还包括S301。详述如下:
S301,基于预设去噪策略,去除待处理文本中目标文本位置的文本内容,得到去噪后的待处理文本。
在本实施例中,待处理文本一般包括与内容无关的语句,例如新闻文本的电文头(即表示作者和日期的语句)和正文的配图文字,论文文本的作者描述和参考文献等。为了简化文本摘要的生成过程的计算量,以及保证后面抽取的摘要可用性更好和质量更好。终端设备获取待处理文本后,还对待处理文本进行去噪处理。可选地,预设去噪策略可以基于正则表达式和字符串匹配规则等去噪方法实现。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
请参阅图4,图4是本申请实施例提供的一种文本摘要的生成装置的结构框图。本实施例中该装置包括的各模块用于执行图1至图3对应的实施例中的各步骤。具体请参阅图1至图3以及图1至图3所对应的实施例中的相关描述。为了便于说明,仅示出了与本实施例相关的部分。参见图4,文本摘要的生成装置包括:
加权模块401,用于基于待处理文本中单词的TFIDF权重,对待处理文本中单词对应的目标词向量进行加权,得到待处理文本的主题特征和待处理文本中每个句子的句子特征;
计算模块402,用于根据主题特征与每个句子特征,计算待处理文本的文本主题与每个句子之间的相关度;
生成模块403,用于根据与文本主题的相关度达到预设值的若干个句子,生成待处理文本的文本摘要。
本申请实施例提供的一种文本摘要的生成装置,通过加权模块401基于待处理文本中单词的TFIDF权重,对待处理文本中单词对应的目标词向量进行加权,得到待处理文本的主题特征和待处理文本中每个句子的句子特征,从而能够在提取主题特征和句子特征时,针对重要词汇进行加权,保证重要词汇在生成最终主题特征或句子特征更加能够表达待处理文本的文本语义。通过计算模块402根据主题特征与每个句子特征,计算待处理文本的文本主题与每个句子之间的相关度,并通过生成模块403根据与文本主题的相关度达到预设值的若干个目标句子,生成待处理文本的文本摘要,从而能够根据句子与主题之间的语义相关性,抽取出与主题相关度较高的句子作为候选摘要,进而保证抽取出的摘要能够忠于文章原意,提高文本摘要的生成结果的准确度。
作为本申请一实施例,加权模块401,还用于:
提取待处理文本中主题词对应的主题词向量,以及句子组成词的组成词向量;
基于待处理文本中主题词的第一TFIDF权重,对主题词向量进行加权,得到待处理文本的主题特征,第一TFIDF权重用于表征主题词在待处理文本的文本主题中的重要程度;
针对待处理文本中的每个句子,基于句子中的每个句子组成词的第二TFIDF权重,对句子中的每个组成词向量进行加权,得到句子的句子特征,第二TFIDF权重用于表征句子组成词在句子中的重要程度。
作为本申请一实施例,加权模块401,还用于:
基于待处理文本的文本标题和目标字段位置,确定待处理文本的多个主题词,并对每个主题词进行向量编码,得到多个主题词向量;
针对待处理文本中的每个句子,对句子进行分词,得到组成句子的多个句子组成词,并对每个句子组成词进行向量编码,得到多个组成词向量。
作为本申请一实施例,加权模块401,还用于:
基于预设TFIDF算法,计算每个主题词在文本主题中的TFIDF原始权重;
基于预设softmax算法,根据主题词的TFIDF原始权重,计算每个主题词在文本主题中的第一TFIDF权重;
基于每个主题词的第一TFIDF权重,对每个主题词对应的主题词向量进行加权求和,得到待处理文本的主题特征;
第一TFIDF权重的计算公式为:
Figure BDA0002764445830000141
其中ai表示基于softmax算法对第i个主题词的TFIDF原始权重进行归一化得到的第一TFIDF权重,tfii*idfii表示第i个主题词的TFIDF原始权重,∑i′exp(tfi′*idfi′)表示所有主题词的TFIDF原始权重之和。
作为本申请一实施例,加权模块401,还用于:
针对待处理文本中的每个句子,基于预设TFIDF算法,计算每个句子组成词在句子中的TFIDF原始权重;
基于预设softmax算法,根据句子组成词的TFIDF原始权重,计算每个句子组成词在句子中的第二TFIDF权重;
基于每个句子组成词的第二TFIDF权重,对每个句子组成词对应的组成词向量进行加权求和,得到句子的句子特征;
第二TFIDF权重的计算公式为:
Figure BDA0002764445830000142
其中bj表示基于softmax算法对第j个句子组成词的TFIDF原始权重进行归一化得到的第二TFIDF权重,tfj*idfj表示第j个句子组成词在句子中的TFIDF原始权重,∑j′exp(tfj′*idfj′)表示句子中的所有句子组成词的TFIDF原始权重之和。
作为本申请一实施例,文本摘要的生成装置,还包括:
去噪模块,用于基于预设去噪策略,去除待处理文本中目标文本位置的文本内容,得到去噪后的待处理文本。
作为本申请一实施例,生成模块403,还用于:
查询与文本主题的相关度达到预设值的若干个目标句子在待处理文本中的位置;
根据目标句子在待处理文本中的位置,确定若干个目标句子的先后顺序;
根据先后顺序,将若干个目标句子拼接为待处理文本的文本摘要。
应当理解的是,图4示出的文本摘要的生成装置的结构框图中,各模块用于执行图1至图3对应的实施例中的各步骤,而对于图1至图3对应的实施例中的各步骤已在上述实施例中进行详细解释,具体请参阅图1至图3以及图1至图3所对应的实施例中的相关描述,此处不再赘述。
图5是本申请另一实施例提供的一种终端设备的结构框图。如图5所示,该实施例的终端设备50包括:处理器51、存储器52以及存储在所述存储器52中并可在所述处理器51上运行的计算机程序53,例如文本摘要的生成方法的程序。处理器51执行所述计算机程序53时实现上述各个文本摘要的生成方法各实施例中的步骤,例如图1所示的S101至S103,或者图2和图3所示的S201至S203以及S301。或者,所述处理器51执行所述计算机程序53时实现上述图4对应的实施例中各模块的功能,例如,图4所示的模块401至403的功能,具体请参阅图4对应的实施例中的相关描述,此处不赘述。
示例性的,所述计算机程序53可以被分割成一个或多个模块,所述一个或者多个模块被存储在所述存储器52中,并由所述处理器51执行,以完成本申请文本摘要的生成方法的步骤。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序53在所述终端50中的执行过程。例如,所述计算机程序53可以被分割成加权模块、计算模块以及生成模块,各模块具体功能如上所述。
本领域技术人员可以理解,图5仅仅是终端设备50的示例,并不构成对终端设备50的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器51可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器52可以是所述终端设备50的内部存储单元,例如终端设备50的硬盘或内存。所述存储器52也可以是所述终端设备50的外部存储设备,例如所述终端设备50上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器52还可以既包括所述终端设备50的内部存储单元也包括外部存储设备。所述存储器52用于存储所述计算机程序以及所述转台设备所需的其他程序和数据。所述存储器52还可以用于暂时地存储已经输出或者将要输出的数据。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (10)

1.一种文本摘要的生成方法,其特征在于,包括:
基于待处理文本中单词的TFIDF权重,对所述待处理文本中所述单词对应的目标词向量进行加权,得到所述待处理文本的主题特征和所述待处理文本中每个句子的句子特征;
根据所述主题特征与每个所述句子特征,计算所述待处理文本的文本主题与每个所述句子之间的相关度;
根据与所述文本主题的相关度达到预设值的若干个目标句子,生成所述待处理文本的文本摘要。
2.根据权利要求1所述的文本摘要的生成方法,其特征在于,所述单词包括主题词和句子组成词,所述基于待处理文本中单词的TFIDF权重,对所述待处理文本中的目标词向量进行加权,得到所述待处理文本的主题特征和所述待处理文本中每个句子的句子特征,包括:
提取所述待处理文本中主题词对应的主题词向量,以及所述句子组成词的组成词向量;
基于所述待处理文本中所述主题词的第一TFIDF权重,对所述主题词向量进行加权,得到所述待处理文本的主题特征,所述第一TFIDF权重用于表征所述主题词在所述待处理文本的文本主题中的重要程度;
针对所述待处理文本中的每个句子,基于所述句子中的每个所述句子组成词的第二TFIDF权重,对所述句子中的每个所述组成词向量进行加权,得到所述句子的句子特征,所述第二TFIDF权重用于表征所述句子组成词在所述句子中的重要程度。
3.根据权利要求2所述的文本摘要的生成方法,其特征在于,所述提取所述待处理文本中主题词对应的主题词向量,以及所述句子组成词的组成词向量,包括:
基于待处理文本的文本标题和目标字段位置,确定所述待处理文本的多个所述主题词,并对每个所述主题词进行向量编码,得到多个所述主题词向量;
针对所述待处理文本中的每个句子,对所述句子进行分词,得到组成所述句子的多个所述句子组成词,并对每个所述句子组成词进行向量编码,得到多个所述组成词向量。
4.根据权利要求2所述的文本摘要的生成方法,其特征在于,所述基于所述待处理文本中所述主题词的第一TFIDF权重,对所述主题词对应的主题词向量进行加权,得到所述待处理文本的主题特征,包括:
基于预设TFIDF算法,计算每个所述主题词在所述文本主题中的TFIDF原始权重;
基于预设softmax算法,根据所述主题词的所述TFIDF原始权重,计算每个所述主题词在所述文本主题中的所述第一TFIDF权重;
基于每个所述主题词的所述第一TFIDF权重,对每个所述主题词对应的主题词向量进行加权求和,得到所述待处理文本的主题特征;
所述第一TFIDF权重的计算公式为:
Figure FDA0002764445820000021
其中ai表示基于所述softmax算法对第i个所述主题词的TFIDF原始权重进行归一化得到的所述第一TFIDF权重,tfi*idfii表示所述第i个所述主题词的所述TFIDF原始权重,∑i′exp(tfi′*idfi′)表示所有所述主题词的TFIDF原始权重之和。
5.根据权利要求2所述的文本摘要的生成方法,其特征在于,所述针对所述待处理文本中的每个句子,基于所述句子中的每个所述句子组成词的第二TFIDF权重,对所述句子中的每个所述句子组成词对应的组成词向量进行加权,得到所述句子的句子特征,包括:
针对所述待处理文本中的每个句子,基于预设TFIDF算法,计算每个所述句子组成词在所述句子中的TFIDF原始权重;
基于预设softmax算法,根据所述句子组成词的TFIDF原始权重,计算每个所述句子组成词在所述句子中的所述第二TFIDF权重;
基于每个所述句子组成词的所述第二TFIDF权重,对每个所述句子组成词对应的组成词向量进行加权求和,得到所述句子的句子特征;
所述第二TFIDF权重的计算公式为:
Figure FDA0002764445820000031
其中bj表示基于所述softmax算法对第j个所述句子组成词的TFIDF原始权重进行归一化得到的所述第二TFIDF权重,tfj*idfj表示所述第j个所述句子组成词在所述句子中的所述TFIDF原始权重,∑j′exp(tfj′*idfj′)表示所述句子中的所有所述句子组成词的TFIDF原始权重之和。
6.根据权利要求1所述的文本摘要的生成方法,其特征在于,所述基于待处理文本中单词的TFIDF权重,对所述待处理文本中所述单词对应的目标词向量进行加权,得到所述待处理文本的主题特征和所述待处理文本中每个句子的句子特征之前,还包括:
基于预设去噪策略,去除所述待处理文本中目标文本位置的文本内容,得到去噪后的所述待处理文本。
7.根据权利要求1所述的文本摘要的生成方法,其特征在于,所述根据与所述文本主题的相关度达到预设值的若干个目标句子,生成所述待处理文本的文本摘要,包括:
查询与所述文本主题的相关度达到预设值的若干个目标句子在所述待处理文本中的位置;
根据所述目标句子在所述待处理文本中的位置,确定若干个所述目标句子的先后顺序;
根据所述先后顺序,将若干个所述目标句子拼接为所述待处理文本的文本摘要。
8.一种文本摘要的生成装置,其特征在于,包括:
加权模块,用于基于待处理文本中单词的TFIDF权重,对所述待处理文本中所述单词对应的目标词向量进行加权,得到所述待处理文本的主题特征和所述待处理文本中每个句子的句子特征;
计算模块,用于根据所述主题特征与每个所述句子特征,计算所述待处理文本的文本主题与每个所述句子之间的相关度;
生成模块,用于根据与所述文本主题的相关度达到预设值的若干个所述句子,生成所述待处理文本的文本摘要。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。
CN202011228728.1A 2020-11-06 文本摘要的生成方法、装置、终端设备及存储介质 Active CN112347758B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011228728.1A CN112347758B (zh) 2020-11-06 文本摘要的生成方法、装置、终端设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011228728.1A CN112347758B (zh) 2020-11-06 文本摘要的生成方法、装置、终端设备及存储介质

Publications (2)

Publication Number Publication Date
CN112347758A true CN112347758A (zh) 2021-02-09
CN112347758B CN112347758B (zh) 2024-05-17

Family

ID=

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112966521A (zh) * 2021-03-01 2021-06-15 北京新方通信技术有限公司 一种短句相似度的计算方法及系统
CN113536772A (zh) * 2021-07-15 2021-10-22 浙江诺诺网络科技有限公司 一种文本处理方法、装置、设备及存储介质
CN113988049A (zh) * 2021-10-18 2022-01-28 浙江香侬慧语科技有限责任公司 一种自然语言模型的解释方法、装置及存储介质
CN116151193A (zh) * 2023-04-13 2023-05-23 济南风驰科技有限公司 基于大数据和数字化工厂的数据管理方法及系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060106767A1 (en) * 2004-11-12 2006-05-18 Fuji Xerox Co., Ltd. System and method for identifying query-relevant keywords in documents with latent semantic analysis
CN106708803A (zh) * 2016-12-21 2017-05-24 东软集团股份有限公司 一种特征提取方法及装置
CN108319668A (zh) * 2018-01-23 2018-07-24 义语智能科技(上海)有限公司 生成文本摘要的方法及设备
CN109582967A (zh) * 2018-12-03 2019-04-05 深圳前海微众银行股份有限公司 舆情摘要提取方法、装置、设备及计算机可读存储介质
CN110413986A (zh) * 2019-04-12 2019-11-05 上海晏鼠计算机技术股份有限公司 一种改进词向量模型的文本聚类多文档自动摘要方法及系统
CN110674283A (zh) * 2019-08-15 2020-01-10 中国平安财产保险股份有限公司 文本摘要的智能抽取方法、装置、计算机设备及存储介质
CN110737768A (zh) * 2019-10-16 2020-01-31 信雅达系统工程股份有限公司 基于深度学习的文本摘要自动生成方法及装置、存储介质
CN110825877A (zh) * 2019-11-12 2020-02-21 中国石油大学(华东) 一种基于文本聚类的语义相似度分析方法
CN111104794A (zh) * 2019-12-25 2020-05-05 同方知网(北京)技术有限公司 一种基于主题词的文本相似度匹配方法
CN111581374A (zh) * 2020-05-09 2020-08-25 联想(北京)有限公司 文本的摘要获取方法、装置及电子设备

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060106767A1 (en) * 2004-11-12 2006-05-18 Fuji Xerox Co., Ltd. System and method for identifying query-relevant keywords in documents with latent semantic analysis
CN106708803A (zh) * 2016-12-21 2017-05-24 东软集团股份有限公司 一种特征提取方法及装置
CN108319668A (zh) * 2018-01-23 2018-07-24 义语智能科技(上海)有限公司 生成文本摘要的方法及设备
CN109582967A (zh) * 2018-12-03 2019-04-05 深圳前海微众银行股份有限公司 舆情摘要提取方法、装置、设备及计算机可读存储介质
CN110413986A (zh) * 2019-04-12 2019-11-05 上海晏鼠计算机技术股份有限公司 一种改进词向量模型的文本聚类多文档自动摘要方法及系统
CN110674283A (zh) * 2019-08-15 2020-01-10 中国平安财产保险股份有限公司 文本摘要的智能抽取方法、装置、计算机设备及存储介质
CN110737768A (zh) * 2019-10-16 2020-01-31 信雅达系统工程股份有限公司 基于深度学习的文本摘要自动生成方法及装置、存储介质
CN110825877A (zh) * 2019-11-12 2020-02-21 中国石油大学(华东) 一种基于文本聚类的语义相似度分析方法
CN111104794A (zh) * 2019-12-25 2020-05-05 同方知网(北京)技术有限公司 一种基于主题词的文本相似度匹配方法
CN111581374A (zh) * 2020-05-09 2020-08-25 联想(北京)有限公司 文本的摘要获取方法、装置及电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
汪静: "基于词向量的中文短文本分类问题研究", 《中国优秀硕士学位论文全文数据库(信息科技辑)》, pages 5 - 49 *
赵晓平,等: "一种结合TF-IDF方法和词向量的短文本聚类算法", 《电子设计工程》, vol. 28, no. 21, pages 5 - 9 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112966521A (zh) * 2021-03-01 2021-06-15 北京新方通信技术有限公司 一种短句相似度的计算方法及系统
CN112966521B (zh) * 2021-03-01 2024-03-12 北京新方通信技术有限公司 一种短句相似度的计算方法及系统
CN113536772A (zh) * 2021-07-15 2021-10-22 浙江诺诺网络科技有限公司 一种文本处理方法、装置、设备及存储介质
CN113988049A (zh) * 2021-10-18 2022-01-28 浙江香侬慧语科技有限责任公司 一种自然语言模型的解释方法、装置及存储介质
CN116151193A (zh) * 2023-04-13 2023-05-23 济南风驰科技有限公司 基于大数据和数字化工厂的数据管理方法及系统
CN116151193B (zh) * 2023-04-13 2023-10-24 北京瀚博网络科技有限公司 基于大数据和数字化工厂的数据管理方法及系统

Similar Documents

Publication Publication Date Title
CN108121700B (zh) 一种关键词提取方法、装置及电子设备
WO2019118256A1 (en) Generation of text from structured data
CN111930929B (zh) 一种文章标题生成方法、装置及计算设备
CN111611807A (zh) 一种基于神经网络的关键词提取方法、装置及电子设备
WO2022174496A1 (zh) 基于生成模型的数据标注方法、装置、设备及存储介质
CN113051368B (zh) 双塔模型训练方法、检索方法、装置及电子设备
CN112395875A (zh) 一种关键词提取方法、装置、终端以及存储介质
WO2021007159A1 (en) Identifying entity attribute relations
CN112183111A (zh) 长文本语义相似度匹配方法、装置、电子设备及存储介质
CN114995903B (zh) 一种基于预训练语言模型的类别标签识别方法及装置
CN114818986A (zh) 一种文本相似度计算去重方法、系统、介质及设备
CN114003725A (zh) 信息标注模型的构建方法以及信息标注的生成方法
CN112613293A (zh) 摘要生成方法、装置、电子设备及存储介质
CN115033683B (zh) 摘要生成方法、装置、设备及存储介质
CN114943220B (zh) 一种面向科研立项查重的句向量生成方法及查重方法
CN107729509B (zh) 基于隐性高维分布式特征表示的篇章相似度判定方法
CN112347758B (zh) 文本摘要的生成方法、装置、终端设备及存储介质
CN110705287B (zh) 一种用于文本摘要的生成方法和系统
CN112347758A (zh) 文本摘要的生成方法、装置、终端设备及存储介质
WO2021179688A1 (zh) 医学文献检索方法、装置、电子设备及存储介质
CN114328894A (zh) 文档处理方法、装置、电子设备及介质
CN111859898B (zh) 一种基于隐藏关联网络的多领域文本隐式特征抽取方法及计算机存储介质
CN108733757B (zh) 文本搜索方法及系统
JP5342574B2 (ja) トピックモデリング装置、トピックモデリング方法、及びプログラム
CN112329417A (zh) 海报制作方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant