CN113535942B - 一种文本摘要生成方法、装置、设备及介质 - Google Patents

一种文本摘要生成方法、装置、设备及介质 Download PDF

Info

Publication number
CN113535942B
CN113535942B CN202110825030.6A CN202110825030A CN113535942B CN 113535942 B CN113535942 B CN 113535942B CN 202110825030 A CN202110825030 A CN 202110825030A CN 113535942 B CN113535942 B CN 113535942B
Authority
CN
China
Prior art keywords
sentence
viewpoint
text
abstract
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110825030.6A
Other languages
English (en)
Other versions
CN113535942A (zh
Inventor
杨冬
蒋红宇
胡伯良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Haitai Fangyuan High Technology Co Ltd
Original Assignee
Beijing Haitai Fangyuan High Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Haitai Fangyuan High Technology Co Ltd filed Critical Beijing Haitai Fangyuan High Technology Co Ltd
Priority to CN202110825030.6A priority Critical patent/CN113535942B/zh
Publication of CN113535942A publication Critical patent/CN113535942A/zh
Application granted granted Critical
Publication of CN113535942B publication Critical patent/CN113535942B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文本摘要生成方法、装置、设备及介质,用以提高生成文本摘要的准确性。由于本发明可以针对文本信息中包含的每个句子,将该句子输入预先训练完成的观点句识别模型,根据观点句识别模型的输出结果判断该句子是否为观点句;若是,则将该句子确定为观点句;并基于每个观点句,确定文本信息的文本摘要。相比现有技术,只基于统计层面确定文本信息的文本摘要,生成文本摘要的准确性主要依赖于文本信息的作者写作的规范性而言,本发明基于预先训练完成的观点句识别模型,确定文本信息中的观点句,并基于每个观点句,确定文本信息的文本摘要的方式,可以提高生成的文本摘要的准确性。

Description

一种文本摘要生成方法、装置、设备及介质
技术领域
本发明涉及文本摘要技术领域,尤其涉及一种文本摘要生成方法、装置、设备及介质。
背景技术
随着信息时代的迅猛发展,当今世界的信息量呈现出了几何级别的增长速度。信息爆炸使得人们要面对海量的文本信息,针对海量的文本信息,智能、快速的生成文本信息的文本摘要成为了一项重要的技术课题。
在生成文本信息的文本摘要时,通常可以采用抽取式方式或者生成式方式进行。相比采用生成式方式,采用抽取式方式的优势较明显,例如采用抽取式方式通常具有生成的文本摘要的主题不易偏离、适应性广、生成速度快等优点,因此,当前工业界广泛采用抽取式方式生成文本信息的文本摘要。
当前采用抽取式方式生成文本信息的文本摘要时,通常可以基于无监督抽取式方式进行。其中,无监督抽取式方式主要有Lead、TextRank等。然而无监督抽取式方式主要是基于统计层面的,如TextRank是通过计算句子相似度和句子权重来生成文本摘要,Lead是将文本信息的前3句作为文本摘要,无监督抽取式方式生成文本摘要的准确性主要依赖于文本信息的作者写作的规范性。
由上述分析可以看出,现有技术在生成文本摘要时,存在准确性不高的技术问题。
发明内容
本发明实施例提供了一种文本摘要生成方法、装置、设备及介质,用以提高生成文本摘要的准确性。
第一方面,本发明提供了一种文本摘要生成方法,所述方法包括:
确定文本信息中包含的每个句子,针对所述文本信息中包含的每个句子,将该句子输入预先训练完成的观点句识别模型,根据所述观点句识别模型的输出结果判断该句子是否为观点句;若是,则将该句子确定为观点句;
基于所述观点句,确定所述文本信息的文本摘要。
在一种可能的实施方式中,所述确定文本信息中包含的每个句子包括:
基于文本信息中包含的第一标点符号,确定文本信息中包含的每个句子。
在一种可能的实施方式中,所述确定文本信息中包含的每个句子之后,所述针对所述文本信息中包含的每个句子,将该句子输入预先训练完成的观点句识别模型之前,所述方法还包括:
针对所述文本信息中包含的每个句子,判断该句子中是否包含有网页链接,若是,则去除所述网页链接。
在一种可能的实施方式中,所述确定文本信息中包含的每个句子之后,所述针对所述文本信息中包含的每个句子,将该句子输入预先训练完成的观点句识别模型之前,所述方法还包括:
针对所述文本信息中包含的每个句子,判断该句子的字数是否小于设定的第一字数阈值,若否,则进行后续步骤;和/或,
针对所述文本信息中包含的每个句子,判断该句子的字数是否大于设定的第二字数阈值,若是,则基于该句子中的第二标点符号,将该句子拆分为至少两个子句子,其中,每个子句子的字数均不大于所述第二字数阈值且不小于所述第一字数阈值;针对每个子句子,进行后续步骤。
在一种可能的实施方式中,所述将该句子确定为观点句之后,所述基于所述观点句,确定所述文本信息的文本摘要之前,所述方法还包括:
针对每个观点句,分别确定该观点句与其他观点句的语义相似度;若该观点句与任一其他观点句的语义相似度大于设定的相似度阈值,则将该其他观点句确定为该观点句对应的后备观点句或进行删除。
在一种可能的实施方式中,所述基于所述观点句,确定所述文本信息的文本摘要包括:
判断每个观点句的总字数是否大于设定的摘要字数阈值;若是,则将每个观点句中的修饰词进行删除,基于删除修饰词后的观点句,确定所述文本信息的文本摘要。
在一种可能的实施方式中,所述基于所述观点句,确定所述文本信息的文本摘要包括:
若每个观点句的总字数大于设定的摘要字数阈值,则针对每个观点句,按照每个观点句在所述文本信息中的顺序,依次判断该观点句的字数是否不大于当前摘要剩余字数;若是,则将该观点句确定为文本摘要中的句子,并基于该观点句的字数对当前摘要剩余字数进行更新,其中,当前摘要剩余字数为摘要字数阈值与当前文本摘要中每个句子的总字数的差值。
在一种可能的实施方式中,所述方法还包括:
若该观点句的字数大于当前摘要剩余字数,且该观点句有对应的后备观点句,则针对任一后备观点句,判断该后备观点句的字数是否不大于当前摘要剩余字数;若是,则将该后备观点句确定为文本摘要中的句子,并基于该后备观点句的字数对当前摘要剩余字数进行更新。
在一种可能的实施方式中,所述方法还包括:
若该观点句的字数大于当前摘要剩余字数,且该观点句没有对应的后备观点句,则将该观点句进行删除;或,
若该观点句的字数大于当前摘要剩余字数,且该观点句对应的后备观点句的字数均大于当前摘要剩余字数,则将该观点句及对应的后备观点句进行删除。
在一种可能的实施方式中,训练所述观点句识别模型的过程包括:
获取预先配置的样本集中的任一样本句子,所述样本句子对应有标注的样本类别标签,其中,所述样本类别标签用于标识所述样本句子是否为观点句;
将所述样本句子输入待训练的观点句识别模型,通过所述待训练的观点句识别模型,确定所述样本句子对应的识别类别标签;
根据所述样本类别标签及所述识别类别标签,对所述待训练的观点句识别模型进行训练。
第二方面,本发明提供了一种文本摘要生成装置,所述装置包括:
判断模块,用于确定文本信息中包含的每个句子,针对所述文本信息中包含的每个句子,将该句子输入预先训练完成的观点句识别模型,根据所述观点句识别模型的输出结果判断该句子是否为观点句;若是,则将该句子确定为观点句;
确定模块,用于基于所述观点句,确定所述文本信息的文本摘要。
在一种可能的实施方式中,所述判断模块,具体用于基于文本信息中包含的第一标点符号,确定文本信息中包含的每个句子。
在一种可能的实施方式中,所述判断模块,还用于所述确定文本信息中包含的每个句子之后,所述针对所述文本信息中包含的每个句子,将该句子输入预先训练完成的观点句识别模型之前,针对所述文本信息中包含的每个句子,判断该句子中是否包含有网页链接,若是,则去除所述网页链接。
在一种可能的实施方式中,所述判断模块,还用于所述确定文本信息中包含的每个句子之后,所述针对所述文本信息中包含的每个句子,将该句子输入预先训练完成的观点句识别模型之前,针对文本信息中包含的每个句子,判断该句子的字数是否小于设定的第一字数阈值,若否,则进行后续步骤;和/或,
针对文本信息中包含的每个句子,判断该句子的字数是否大于设定的第二字数阈值,若是,则基于该句子中的第二标点符号,将该句子拆分为至少两个子句子,其中,每个子句子的字数均不大于所述第二字数阈值且不小于所述第一字数阈值;针对每个子句子,进行后续步骤。
在一种可能的实施方式中,所述装置还包括:
去冗余模块,用于针对每个观点句,分别确定该观点句与其他观点句的语义相似度;若该观点句与任一其他观点句的语义相似度大于设定的相似度阈值,则将该其他观点句确定为该观点句对应的后备观点句或进行删除。
在一种可能的实施方式中,所述确定模块,具体用于判断每个观点句的总字数是否大于设定的摘要字数阈值;若是,则将每个观点句中的修饰词进行删除,基于删除修饰词后的观点句,确定所述文本信息的文本摘要。
在一种可能的实施方式中,所述确定模块,具体用于若每个观点句的总字数大于设定的摘要字数阈值,则针对每个观点句,按照每个观点句在所述文本信息中的顺序,依次判断该观点句的字数是否不大于当前摘要剩余字数;若是,则将该观点句确定为文本摘要中的句子,并基于该观点句的字数对当前摘要剩余字数进行更新,其中,当前摘要剩余字数为摘要字数阈值与当前文本摘要中每个句子的总字数的差值。
在一种可能的实施方式中,所述确定模块,还用于若该观点句的字数大于当前摘要剩余字数,且该观点句有对应的后备观点句,则针对任一后备观点句,判断该后备观点句的字数是否不大于当前摘要剩余字数;若是,则将该后备观点句确定为文本摘要中的句子,并基于该后备观点句的字数对当前摘要剩余字数进行更新。
在一种可能的实施方式中,所述确定模块,还用于若该观点句的字数大于当前摘要剩余字数,且该观点句没有对应的后备观点句,则将该观点句进行删除;或,
若该观点句的字数大于当前摘要剩余字数,且该观点句对应的后备观点句的字数均大于当前摘要剩余字数,则将该观点句及对应的后备观点句进行删除。
在一种可能的实施方式中,所述装置还包括:
训练模块,用于获取预先配置的样本集中的任一样本句子,所述样本句子对应有标注的样本类别标签,其中,所述样本类别标签用于标识所述样本句子是否为观点句;将所述样本句子输入待训练的观点句识别模型,通过所述待训练的观点句识别模型,确定所述样本句子对应的识别类别标签;根据所述样本类别标签及所述识别类别标签,对所述待训练的观点句识别模型进行训练。
第三方面,本发明提供了一种电子设备,所述电子设备至少包括处理器和存储器,所述处理器用于执行存储器中存储的计算机程序时实现如上述任一所述一种文本摘要生成方法的步骤。
第四方面,本发明提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一所述一种文本摘要生成方法的步骤。
由于本发明可以针对文本信息中包含的每个句子,将该句子输入预先训练完成的观点句识别模型,根据观点句识别模型的输出结果判断该句子是否为观点句;若是,则将该句子确定为观点句;并基于每个观点句,确定文本信息的文本摘要。相比现有技术,只基于统计层面确定文本信息的文本摘要,生成文本摘要的准确性主要依赖于文本信息的作者写作的规范性而言,本发明基于预先训练完成的观点句识别模型,确定文本信息中的观点句,并基于每个观点句,确定文本信息的文本摘要的方式,可以提高生成的文本摘要的准确性。
附图说明
为了更清楚地说明本发明实施例或相关技术中的实施方式,下面将对实施例或相关技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的第一种文本摘要生成过程示意图;
图2为本发明实施例提供的第二种文本摘要生成过程示意图;
图3为本发明实施例提供的第三种文本摘要生成过程示意图;
图4为本发明实施例提供的第四种文本摘要生成过程示意图;
图5为本发明实施例提供的第五种文本摘要生成过程示意图;
图6为本发明实施例提供的第六种文本摘要生成过程示意图;
图7为本发明实施例提供的第七种文本摘要生成过程示意图;
图8为本发明实施例提供的一种文本摘要生成装置示意图;
图9为本发明实施例提供的一种电子设备结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明中说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似或同类的对象或实体,而不必然意味着限定特定的顺序或先后次序,除非另外注明。应该理解这样使用的用语在适当情况下可以互换。
为了提高生成文本摘要的准确性,本发明实施例提供了一种文本摘要生成方法、装置、设备及介质。
实施例1:
图1为本发明实施例提供的第一种文本摘要生成过程示意图,该过程包括以下步骤:
S101:确定文本信息中包含的每个句子,针对所述文本信息中包含的每个句子,将该句子输入预先训练完成的观点句识别模型,根据所述观点句识别模型的输出结果判断该句子是否为观点句;若是,则将该句子确定为观点句。
本发明实施例提供的生成观点句识别模型样本句子的方法应用于电子设备,该电子设备例如可以是PC、移动终端等设备,也可以是服务器等。
在一种可能的实施方式中,在确定文本信息的文本摘要时,可以先确定文本信息中包含的每个句子,基于文本信息中包含的每个句子,确定文本信息的文本摘要。在一种可能的实施方式中,确定文本信息中包含的每个句子时,可以先确定文本信息中包含的每个第一标点符号,其中,为方便描述,将句号、叹号、问号等通常用在句末的标点符号称为第一标点符号。确定了第一标点符号后,以第一标点符号为界限(基准),确定文本信息中包含的每个句子。
确定了文本信息中包含的每个句子后,针对文本信息中包含的每个句子,可以将该句子输入预先训练完成的观点句识别模型,根据该观点句识别模型的输出结果,判断该句子是否为观点句。在一种可能的实施方式中,若针对每个句子,观点句识别模型对该句子的输出结果为观点句,则可以将该句子确定为观点句;若观点句识别模型对该句子的输出结果为非观点句,则可以将该句子确定为非观点句。在一种可能的实施方式中,鉴于非观点句通常不能作为文本摘要中的句子,在确定文本摘要时,可以将非观点句舍弃。
S102:基于所述观点句,确定所述文本信息的文本摘要。
确定了文本信息中的每个观点句之后,可以基于每个观点句,确定文本信息的文本摘要。在一种可能的实施方式中,可以按照每个观点句在文本信息中的顺序,依次将每个观点句,确定为文本信息的文本摘要中的句子,即文本摘要中可以包含每个观点句。
由于本发明可以针对文本信息中包含的每个句子,将该句子输入预先训练完成的观点句识别模型,根据观点句识别模型的输出结果判断该句子是否为观点句;若是,则将该句子确定为观点句;并基于每个观点句,确定文本信息的文本摘要。相比现有技术,只基于统计层面确定文本信息的文本摘要,生成文本摘要的准确性主要依赖于文本信息的作者写作的规范性而言,本发明基于预先训练完成的观点句识别模型,确定文本信息中的观点句,并基于每个观点句,确定文本信息的文本摘要的方式,可以提高生成的文本摘要的准确性。
实施例2:
为了在将文本信息中的每个句子输入观点句识别模型之前,先对每个句子进行清洗,在上述实施例的基础上,在本发明实施例中,所述确定文本信息中包含的每个句子之后,所述针对所述文本信息中包含的每个句子,将该句子输入预先训练完成的观点句识别模型之前,所述方法还包括:
针对所述文本信息中包含的每个句子,判断该句子中是否包含有网页链接,若是,则去除所述网页链接。
在一种可能的实施方式中,在将文本信息中包含的每个句子输入观点句识别模型之前,可以先对每个句子进行清洗。鉴于文本摘要中通常不包含网页链接,在对句子进行清洗时,针对文本信息中的每个句子,可以先判断该句子中是否包含有网页链接。其中判断句子中是否包含有网页链接可以采用现有技术,在此不再赘述。若判断句子中包含有网页链接,则可以将该网页链接进行去除。将去除网页链接后的句子输入预先训练完成的观点句识别模型,根据观点句识别模型的输出结果判断该句子是否为观点句。
为方便理解,下面通过一个具体实施例对本发明实施例提供的文本摘要生成过程进行说明。图2为本发明一些实施例提供的第二种文本摘要生成过程示意图,该过程包括以下步骤:
S201:针对文本信息中包含的每个句子,判断该句子中是否包含有网页链接,若是,则进行S202;若否,则进行S203。
S202:去除句子中包含的网页链接。
S203:针对不包含有网页链接的每个句子及已经去除网页链接后的每个句子,将该句子输入预先训练完成的观点句识别模型,根据观点句识别模型的输出结果判断该句子是否为观点句;若是,则将该句子确定为观点句。
S204:基于每个观点句,确定文本信息的文本摘要。
实施例3:
为了在将文本信息中的每个句子输入观点句识别模型之前,先对每个句子进行筛选和/或拆分,使输入到观点句识别模型的句子的字数符合设定要求,进一步提高生成文本摘要的准确性,在上述各实施例的基础上,在本发明实施例中,所述确定文本信息中包含的每个句子之后,所述针对所述文本信息中包含的每个句子,将该句子输入预先训练完成的观点句识别模型之前,所述方法还包括:
针对所述文本信息中包含的每个句子,判断该句子的字数是否小于设定的第一字数阈值,若否,则进行后续步骤;和/或,
针对所述文本信息中包含的每个句子,判断该句子的字数是否大于设定的第二字数阈值,若是,则基于该句子中的第二标点符号,将该句子拆分为至少两个子句子,其中,每个子句子的字数均不大于所述第二字数阈值且不小于所述第一字数阈值;针对每个子句子,进行后续步骤。
在一种可能的实施方式中,针对文本信息中包含的每个句子,在将该句子输入观点句识别模型之前,可以先判断该句子的字数是否小于设定的第一字数阈值,若该句子的字数小于设定的第一字数阈值,可以认为该句子包含的信息过少,该句子大多没有对文本摘要有贡献的信息,可以将该句子舍弃。相反,如果该句子的字数不小于设定的第一字数阈值,则可以认为该句子可能包含对文本摘要有贡献的信息,可以将该句子输入预先训练完成的观点句识别模型,根据观点句识别模型的输出结果判断该句子是否为观点句。其中,第一字数阈值可以根据需求灵活设置,本发明对此不作具体限定。示例性的,第一字数阈值可以是10。
在一种可能的实施方式中,针对文本信息中的每个句子,在将该句子输入观点句识别模型之前,可以先判断句子的字数是否大于设定的第二字数阈值,若该句子的字数大于设定的第二字数阈值,则可以认为该句子较长。一方面,鉴于观点句识别模型对输入观点句识别模型的句子的字符长度有一定的限制(例如句子的字符长度不能超过512字符等),如果输入观点句识别模型的句子较长时,可能会出现无法准确调用观点句识别模型等情况;另一方面,鉴于有些文本信息的作者写作的规范性不够高,例如本应该用句号等标点符号(第一标点符号)的地方,仍然用了逗号等第二标点符号(其中,为方便描述,将逗号、分号等通常用在句中的标点符号称为第二标点符号),使得句子较长,较长的句子中通常表达了较多方面的意思(含义),除了可能包含有对文本摘要有贡献的信息之外,还可能包含有对文本摘要没有贡献的信息,若将较长的整个句子均作为文本摘要中的句子,可能会降低生成的文本摘要的准确性,也可能会降低用户体验。为了提高生成的文本摘要的准确性,可以对句子的字数大于设定的第二字数阈值的较长的句子进行拆分,拆分为至少两个较短的句子(子句子)。
在一种可能的实施方式中,可以基于句子中的标点符号,以其中至少一个标点符号为界限(基准),将该句子拆分为至少两个较短的子句子,其中,每个子句子的字数均不大于第二字数阈值且不小于第一字数阈值;针对每个子句子,执行将该子句子输入预先训练完成的观点句识别模型,根据观点句识别模型的输出结果判断该子句子是否为观点句的步骤。其中,第二字数阈值可以根据需求灵活设置,本发明对此不作具体限定。示例性的,第二字数阈值可以是100。另外,每个子句子的字数均不大于第二字数阈值且不小于第一字数阈值,可以使得输入观点句识别模型的每个句子(子句子)的字符长度较为接近,保证可以准确调用观点句识别模型的同时,也可以提高生成的文本摘要的准确性及用户体验。
为方便理解,下面通过一个具体实施例对本发明提供的基于句子中的标点符号,将句子拆分为至少两个较短的子句子的过程进行举例说明。假如该句子共有120个字,第一字数阈值为10,第二字数阈值为100,其中第8个字和第9个之间有一个逗号,第90个字和第91个字之间有一个逗号,则可以位于第100(第二字数阈值)个字之前且距离第100个字最近的标点符号(第二标点符号),即第90个字和第91个字之间的逗号为界限(基准),将该句子拆分为两个子句子,其中第一个子句子的字数为90(前90个字),第二个子句子的字数为30(后30个字)。
为方便理解,下面再通过一个具体实施例对本发明提供的基于句子中的标点符号,将句子拆分为至少两个较短的子句子的过程进行举例说明。假如该句子共有220个字,第一字数阈值为10,第二字数阈值为100,其中第8个字和第9个之间有一个逗号,第90个字和第91个字之间有一个逗号,第180个字和第181个字之间有一个逗号,则可先以位于第100(第二字数阈值)个字之前且距离第100个字最近的第二标点符号,即第90个字和第91个字之间的逗号为界限(基准),将该句子拆分为两个短句,其中第一个短句有90个字,第二个短句有130个字。针对第二个短句,可以距离该短句中第100(第二字数阈值)个字之前且距离第100个字最近的第二标点符号,即原句子中第180个字和第181个字(该第二个短句中第90个字和第91个字)之间的逗号为界限(基准),将该短句再拆分为两个短句,其中一个短句有90个字,另一个短句有40个字,最终得到三个子句子,其中第一个子句子的字数为90(原句子中的前90个字),第二个子句子的字数为90(原句子中的中间90个字),第三个子句子的字数为40(原句子中的后40个字)。
为方便理解,下面再通过一个具体实施例对本发明实施例的确定文本摘要的过程进行举例说明。图3为本发明实施例提供的第三种文本摘要生成过程示意图,如图3所示,该过程包括以下步骤:
S301:针对文本信息中包含的每个句子,判断该句子的字数是否小于设定的第一字数阈值,若是,则进行S302;若否,则进行S305。
S302:将该句子舍弃。
S303:针对文本信息中包含的每个句子,判断该句子的字数是否大于设定的第二字数阈值,若是,则进行S304;若否,则进行S305。
S304:基于该句子中的第二标点符号,将该句子拆分为至少两个子句子,其中,每个子句子的字数均不大于第二字数阈值且不小于第一字数阈值;针对每个子句子,进行S305。
S305:将句子(子句子)输入预先训练完成的观点句识别模型,根据该观点句识别模型的输出结果判断该句子是否为观点句;若是,则进行S306;若否,则进行S302将该句子(子句子)舍弃的步骤。
S306:将该句子确定为观点句;基于每个观点句,确定文本信息的文本摘要。
实施例4:
为了避免语义相似的观点句重复冗余的出现在文本摘要中,降低用户体验,在上述各实施例的基础上,在本发明实施例中,所述将该句子确定为观点句之后,所述基于所述观点句,确定所述文本信息的文本摘要之前,所述方法还包括:
针对每个观点句,分别确定该观点句与其他观点句的语义相似度;若该观点句与任一其他观点句的语义相似度大于设定的相似度阈值,则将该其他观点句确定为该观点句对应的后备观点句或进行删除。
在一种可能的实施方式中,为了避免文本摘要中有语义相似的观点句,造成重复冗余,可以在确定每个观点句之后,基于每个观点句,确定文本信息的文本摘要之前,针对每个观点句,分别确定该观点句与其他观点句的语义相似度;在一种可能的实施方式中,可以基于预先训练完成的语义相似度识别模型,确定两个观点句之间的语义相似度,例如可以将两个观点句分别输入预先训练完成的语义相似度识别模型,根据语义相似度识别模型的输出结果,确定两个观点句的语义相似度。
在一种可能的实施方式中,可以预先设置相似度阈值,其中,相似度阈值可以根据需求灵活设置,本发明对此不作具体限定。具体的,针对每个观点句,可以逐个判断该观点句与每个其他观点句的语义相似度,若该观点句与任一其他观点句的语义相似度大于设定的相似度阈值,则可以将该其他观点句确定为该观点句对应的后备观点句或进行删除,使语义相似的观点句在文本摘要中最终只保留一个即可,从而可以避免语义相似的观点句重复冗余的出现在文本摘要中,降低用户体验。其中,针对该观点句对应的后备观点句的用途,在实施例7中有详细说明,在此不再赘述。
为方便理解,下面通过一个具体实施例对本发明的确定文本摘要的过程进行举例说明。图4为本发明实施例提供的第四种文本摘要生成过程示意图,如图4所示,该过程包括以下步骤:
S401:针对文本信息中包含的每个句子,将该句子输入预先训练完成的观点句识别模型,根据观点句识别模型的输出结果判断该句子是否为观点句;若是,则将该句子确定为观点句。
S402:针对每个观点句,分别确定该观点句与其他观点句的语义相似度;若该观点句与任一其他观点句的语义相似度大于设定的相似度阈值,则将该其他观点句确定为该观点句对应的后备观点句或进行删除。
S403:基于每个观点句,确定文本信息的文本摘要。
实施例5:
鉴于文本摘要通常有字数的限制,为了使生成的文本摘要符合设定的字数要求,在上述各实施例的基础上,在本发明实施例中,所述基于所述观点句,确定所述文本信息的文本摘要包括:
判断每个观点句的总字数是否大于设定的摘要字数阈值;若是,则将每个观点句中的修饰词进行删除,基于删除修饰词后的观点句,确定所述文本信息的文本摘要。
在一种可能的实施方式中,在基于每个观点句,确定文本信息的文本摘要时,可以先判断每个观点句的总字数是否大于设定的摘要字数阈值,如果每个观点句的总字数大于设定的摘要字数阈值,为了在减少观点句的总字数,使观点句的总字数满足设定的字数要求(不大于设定的摘要字数阈值)的同时,不影响文本摘要的实质内容,可以对观点句中不太重要的修饰词进行删除,基于删除修饰词后的每个观点句,确定文本信息的文本摘要。其中,确定观点句中的修饰词的过程可以采用现有技术,在此不再赘述。
为方便理解,下面通过一个具体实施例对本发明的确定文本摘要的过程进行举例说明。图5为本发明实施例提供的第五种文本摘要生成过程示意图,如图5所示,该过程包括以下步骤:
S501:针对文本信息中包含的每个句子,将该句子输入预先训练完成的观点句识别模型,根据观点句识别模型的输出结果判断该句子是否为观点句;若是,则将该句子确定为观点句。
S502:针对每个观点句,分别确定该观点句与其他观点句的语义相似度;若该观点句与任一其他观点句的语义相似度大于设定的相似度阈值,则将该其他观点句确定为该观点句对应的后备观点句或进行删除。
S503:判断每个观点句的总字数是否大于设定的摘要字数阈值;若是,则进行S504;若否,则进行S505。
S504:将每个观点句中的修饰词进行删除,基于删除修饰词后的观点句,确定文本信息的文本摘要。
S505:基于每个观点句,确定文本信息的文本摘要。
实施例6:
为了使生成的文本摘要符合设定的字数要求,在上述各实施例的基础上,在本发明实施例中,所述基于所述观点句,确定所述文本信息的文本摘要包括:
若每个观点句的总字数大于设定的摘要字数阈值,则针对每个观点句,按照每个观点句在所述文本信息中的顺序,依次判断该观点句的字数是否不大于当前摘要剩余字数;若是,则将该观点句确定为文本摘要中的句子,并基于该观点句的字数对当前摘要剩余字数进行更新,其中,当前摘要剩余字数为摘要字数阈值与当前文本摘要中每个句子的总字数的差值。
在一种可能的实施方式中,如果每个观点句(包括已删除修饰词的观点句)的总字数大于设定的摘要字数阈值,则需要对观点句进行筛选,只选择其中的一部分观点句组成文本摘要,以满足文本摘要的字数要求。为方便理解,下面通过一个具体实施例对本发明实施例提供的筛选观点句的具体过程进行举例说明:
针对每个观点句,按照每个观点句在文本信息中的顺序,依次判断该观点句是否可以作为文本摘要中的句子保留下来,具体的,可以从第一个观点句开始判断,判断第一个观点句时,当前摘要剩余字数即为设定的摘要字数阈值,假设判断第一个观点句的字数不大于当前摘要剩余字数,则可以将该第一个观点句确定为文本摘要中的句子保留下来,并基于该第一个观点句的字数对当前摘要剩余字数进行更新,以摘要字数阈值为300,第一个观点句的字数为80为例,则可以将当前摘要剩余字数更新为220。
再接着判断第二个观点句是否可以作为文本摘要中的句子保留下来,假如第二个观点句的字数为90,第二个观点句的字数不大于当前摘要剩余字数,则可以将该第二个观点句确定为文本摘要中的句子保留下来,并基于该第二个观点句的字数对当前摘要剩余字数进行更新,则可以将当前摘要剩余字数更新为130。
再接着判断第三个观点句是否可以作为文本摘要中的句子保留下来,假如第三个观点句的字数为80,第三个观点句的字数不大于当前摘要剩余字数,则可以将该第三个观点句确定为文本摘要中的句子保留下来,并基于该第三个观点句的字数对当前摘要剩余字数进行更新,则可以将当前摘要剩余字数更新为50。
再接着判断第四个观点句是否可以作为文本摘要中的句子保留下来,假如第四个观点句的字数为60,则第四个观点句的字数大于当前摘要剩余字数,则第四个观点句不能作为文本摘要中的句子保留下来。
在一种可能的实施方式中,若某个观点句的字数大于当前摘要剩余字数,则可以将该观点句进行删除,并进行判断下一相邻观点句的字数是否不大于当前摘要剩余字数的步骤。例如,可以将第四个观点句进行删除(舍弃)。
再接着判断第五观点句是否可以作为文本摘要中的句子保留下来,假如第五个观点句的字数为40,第五个观点句的字数不大于当前摘要剩余字数,则可以将该第五个观点句确定为文本摘要中的句子保留下来,并基于该第五个观点句的字数对当前摘要剩余字数进行更新,则可以将当前摘要剩余字数更新为10。
再接着判断第六观点句是否可以作为文本摘要中的句子保留下来,其中判断每个观点句是否可以作为文本摘要中的句子保留下来的步骤与上述过程类似,在此不再赘述,假如第六个观点句及之后的每个观点句的字数均大于当前摘要字数,则可以将第六个观点句及之后的每个观点句均删除(舍弃)。
则最终确定的文本摘要中的句子(观点句)为第一个观点句、第二个观点句、第三个观点句和第五个观点句。
为方便理解,下面再通过一个具体实施例对本发明的确定文本摘要的过程进行举例说明。图6为本发明实施例提供的第六种文本摘要生成过程示意图,如图6所示,该过程包括以下步骤:
S601:针对文本信息中包含的每个句子,将该句子输入预先训练完成的观点句识别模型,根据观点句识别模型的输出结果判断该句子是否为观点句;若是,则将该句子确定为观点句。
S602:判断每个观点句的总字数是否大于设定的摘要字数阈值;若是,则进行S603;若否,则进行S605。
S603:将每个观点句中的修饰词进行删除,判断删除修饰词后的每个观点句的总字数是否大于设定的摘要字数阈值,若是,则进行S604;若否,则进行S605。
S604:针对每个删除修饰词后的观点句,按照每个观点句在文本信息中的顺序,依次判断该观点句的字数是否不大于当前摘要剩余字数;若是,则将该观点句确定为文本摘要中的句子,并基于该观点句的字数对当前摘要剩余字数进行更新,其中,当前摘要剩余字数为摘要字数阈值与当前文本摘要中每个句子的总字数的差值;若否,则将该观点句进行删除,并进行判断下一相邻观点句的字数是否不大于当前摘要剩余字数的步骤。
S605:按照每个观点句在文本信息中的顺序,依次将每个观点句均确定为文本摘要中的句子。
实施例7:
为了使生成的文本摘要符合设定的字数要求,在上述各实施例的基础上,在本发明实施例中,所述方法还包括:
若该观点句的字数大于当前摘要剩余字数,且该观点句有对应的后备观点句,则针对任一后备观点句,判断该后备观点句的字数是否不大于当前摘要剩余字数;若是,则将该后备观点句确定为文本摘要中的句子,并基于该后备观点句的字数对当前摘要剩余字数进行更新。
在一种可能的实施方式中,针对每个观点句,按照每个观点句在文本信息中的顺序,依次判断该观点句是否可以作为文本摘要中的句子保留下来时,如果该观点句的字数大于当前摘要剩余字数,可以进一步判断该观点句是否有对应的后备观点句,如果该观点句有对应的后备观点句,则可以再判断后备观点句中是否存在字数不大于当前摘要剩余字数的一个后备观点句,如果存在一个字数不大于当前摘要剩余字数的后备观点句,则可以将这个后备观点句作为文本摘要中的句子保留下来(即将该后备观点句代替该观点句,作为文本摘要中的句子保留下来),从而既可以保证生成的文本摘要符合设定的字数要求,又可以保证语义相似的观点句在文本摘要中最终只保留一个,避免语义相似的观点句重复冗余的出现在文本摘要中,降低用户体验。
可以理解的,如果将某一后备观点句作为文本摘要中的句子保留下来的话,则可以基于该后备观点句的字数对当前摘要剩余字数进行更新。
另外,如果该观点句的字数大于当前摘要剩余字数,且该观点句没有对应的后备观点句,则可以将该观点句进行删除(舍弃)。
另外,如果该观点句的字数大于当前摘要剩余字数,且该观点句对应的后备观点句的字数均大于当前摘要剩余字数,则可以将该观点句及对应的后备观点句均进行删除(舍弃)。
为方便理解,下面再通过一个具体实施例对本发明的确定文本摘要的过程进行举例说明。图7为本发明实施例提供的第七种文本摘要生成过程示意图,如图7所示,该过程包括以下步骤:
S701:针对文本信息中包含的每个句子,将该句子输入预先训练完成的观点句识别模型,根据观点句识别模型的输出结果判断该句子是否为观点句;若是,则将该句子确定为观点句。
S702:判断每个观点句的总字数是否大于设定的摘要字数阈值;若是,则进行S703;若否,则进行S705。
S703:将每个观点句中的修饰词进行删除,判断删除修饰词后的每个观点句的总字数是否大于设定的摘要字数阈值,若是,则进行S704;若否,则进行S705。
S704:针对每个删除修饰词后的观点句,按照每个观点句在文本信息中的顺序,依次判断该观点句的字数是否不大于当前摘要剩余字数;
若该观点句的字数不大于当前摘要剩余字数,则将该观点句确定为文本摘要中的句子,并基于该观点句的字数对当前摘要剩余字数进行更新,其中,当前摘要剩余字数为摘要字数阈值与当前文本摘要中每个句子的总字数的差值;
若该观点句的字数大于当前摘要剩余字数,且该观点句有对应的后备观点句,则针对任一后备观点句,判断该后备观点句的字数是否不大于当前摘要剩余字数;若是,则将该后备观点句确定为文本摘要中的句子,并基于该后备观点句的字数对当前摘要剩余字数进行更新;
若该观点句的字数大于当前摘要剩余字数,且该观点句没有对应的后备观点句,则将该观点句进行删除;
若该观点句的字数大于当前摘要剩余字数,且该观点句对应的后备观点句的字数均大于当前摘要剩余字数,则将该观点句及对应的后备观点句进行删除。
S705:按照每个观点句在文本信息中的顺序,依次将每个观点句均确定为文本摘要中的句子。
实施例8:
在上述各实施例的基础上,在本发明实施例中,训练观点句识别模型的过程包括:
获取预先配置的样本集中的任一样本句子,所述样本句子对应有标注的样本类别标签,其中,所述样本类别标签用于标识所述样本句子是否为观点句;
将所述样本句子输入待训练的观点句识别模型,通过所述待训练的观点句识别模型,确定所述样本句子对应的识别类别标签;
根据所述样本类别标签及所述识别类别标签,对所述待训练的观点句识别模型进行训练。
为了保证观点句识别模型识别结果的准确性和召回率较高,在本发明实施例中,在训练观点句识别模型时,用户等预先配置的样本集中可以包含多个样本句子,每个样本句子均对应有人工标注的样本类别标签。在一种可能的实施方式中,可以将样本句子中的观点句的样本类别标签标注为1,将样本句子中的非观点句的样本类别标签标注为2等,其中,样本类别标签可以根据需求灵活设置,本发明对此不做具体限定,只要能区分观点句和非观点句即可。
在对待训练的观点句识别模型进行训练时,可以获取样本集中任一样本句子,该样本句子对应有标注的样本类别标签。将获取到的样本句子输入待训练的观点句识别模型,根据观点句识别模型的输出结果,确定样本句子对应的识别类别标签。其中,为了方便描述,将人工标注的类别标签称为样本类别标签,将观点句识别模型确定的类比标签称为识别类别标签。
具体实施中,确定了样本句子的识别类别标签后,因为预先保存了该样本句子的样本类别标签,因此可以根据样本类别标签与识别类别标签是否一致,确定该观点句识别模型的识别结果是否准确。具体实施中,若不一致,说明该观点句识别模型的识别结果不准确,则需要对该观点句识别模型的参数进行调整,从而对观点句识别模型进行训练。
具体实施中,对观点句识别模型中的参数进行调整时,可以采用梯度下降算法,对观点句识别模型的参数的梯度进行反向传播,从而对观点句识别模型进行训练。
在一种可能的实施方式中,可以对样本集中的每个样本句子都进行上述操作,当满足预设的收敛条件时,确定该观点句识别模型训练完成。
其中,满足预设的收敛条件可以为样本集中的样本句子通过该待训练的观点句识别模型,被正确识别的样本句子的个数大于设定数量,或对观点句识别模型进行训练的迭代次数达到设置的最大迭代次数等。具体实施中可以灵活进行设置,在此不做具体限定。
在一种可能的实施方式中,在进行观点句识别模型训练时,可以把样本集中的样本句子分为训练样本句子和测试样本句子,先基于训练样本句子对待训练的观点句识别模型进行训练,再基于测试样本句子对上述已训练的观点句识别模型的可靠程度进行验证。
实施例9:
基于相同的技术构思,在上述各实施例的基础上,本发明实施例提供的一种生成文本纠错模型训练语料的装置。图8为本发明实施例提供的一种文本摘要生成装置示意图,如图8所示,所述装置包括:
判断模块81,用于确定文本信息中包含的每个句子,针对所述文本信息中包含的每个句子,将该句子输入预先训练完成的观点句识别模型,根据所述观点句识别模型的输出结果判断该句子是否为观点句;若是,则将该句子确定为观点句;
确定模块82,用于基于所述观点句,确定所述文本信息的文本摘要。
在一种可能的实施方式中,所述判断模块81,具体用于基于文本信息中包含的第一标点符号,确定文本信息中包含的每个句子。
在一种可能的实施方式中,所述判断模块81,还用于所述确定文本信息中包含的每个句子之后,所述针对所述文本信息中包含的每个句子,将该句子输入预先训练完成的观点句识别模型之前,针对所述文本信息中包含的每个句子,判断该句子中是否包含有网页链接,若是,则去除所述网页链接。
在一种可能的实施方式中,所述判断模块81,还用于所述确定文本信息中包含的每个句子之后,所述针对所述文本信息中包含的每个句子,将该句子输入预先训练完成的观点句识别模型之前,针对所述文本信息中包含的每个句子,判断该句子的字数是否小于设定的第一字数阈值,若否,则进行后续步骤;和/或,
针对所述文本信息中包含的每个句子,判断该句子的字数是否大于设定的第二字数阈值,若是,则基于该句子中的第二标点符号,将该句子拆分为至少两个子句子,其中,每个子句子的字数均不大于所述第二字数阈值且不小于所述第一字数阈值;针对每个子句子,进行后续步骤。
在一种可能的实施方式中,所述装置还包括:
去冗余模块,用于针对每个观点句,分别确定该观点句与其他观点句的语义相似度;若该观点句与任一其他观点句的语义相似度大于设定的相似度阈值,则将该其他观点句确定为该观点句对应的后备观点句或进行删除。
在一种可能的实施方式中,所述确定模块82,具体用于判断每个观点句的总字数是否大于设定的摘要字数阈值;若是,则将每个观点句中的修饰词进行删除,基于删除修饰词后的观点句,确定所述文本信息的文本摘要。
在一种可能的实施方式中,所述确定模块82,具体用于若每个观点句的总字数大于设定的摘要字数阈值,则针对每个观点句,按照每个观点句在所述文本信息中的顺序,依次判断该观点句的字数是否不大于当前摘要剩余字数;若是,则将该观点句确定为文本摘要中的句子,并基于该观点句的字数对当前摘要剩余字数进行更新,其中,当前摘要剩余字数为摘要字数阈值与当前文本摘要中每个句子的总字数的差值。
在一种可能的实施方式中,所述确定模块82,还用于若该观点句的字数大于当前摘要剩余字数,且该观点句有对应的后备观点句,则针对任一后备观点句,判断该后备观点句的字数是否不大于当前摘要剩余字数;若是,则将该后备观点句确定为文本摘要中的句子,并基于该后备观点句的字数对当前摘要剩余字数进行更新。
在一种可能的实施方式中,所述确定模块82,还用于若该观点句的字数大于当前摘要剩余字数,且该观点句没有对应的后备观点句,则将该观点句进行删除;或,
若该观点句的字数大于当前摘要剩余字数,且该观点句对应的后备观点句的字数均大于当前摘要剩余字数,则将该观点句及对应的后备观点句进行删除。
在一种可能的实施方式中,所述装置还包括:
训练模块,用于获取预先配置的样本集中的任一样本句子,所述样本句子对应有标注的样本类别标签,其中,所述样本类别标签用于标识所述样本句子是否为观点句;将所述样本句子输入待训练的观点句识别模型,通过所述待训练的观点句识别模型,确定所述样本句子对应的识别类别标签;根据所述样本类别标签及所述识别类别标签,对所述待训练的观点句识别模型进行训练。
实施例10:
基于相同的技术构思,在上述各实施例的基础上,本发明实施例还提供了一种电子设备,图9为本发明实施例提供的一种电子设备结构示意图,如图9所示,该电子设备包括:处理器91、通信接口92、存储器93和通信总线94,其中,处理器91,通信接口92,存储器93通过通信总线94完成相互间的通信;
所述存储器93中存储有计算机程序,当所述程序被所述处理器91执行时,使得所述处理器91执行如下步骤:
确定文本信息中包含的每个句子,针对所述文本信息中包含的每个句子,将该句子输入预先训练完成的观点句识别模型,根据所述观点句识别模型的输出结果判断该句子是否为观点句;若是,则将该句子确定为观点句;
基于所述观点句,确定所述文本信息的文本摘要。
在一种可能的实施方式中,所述处理器91,具体用于基于文本信息中包含的第一标点符号,确定文本信息中包含的每个句子。
在一种可能的实施方式中,所述处理器91,还用于所述确定文本信息中包含的每个句子之后,所述针对所述文本信息中包含的每个句子,将该句子输入预先训练完成的观点句识别模型之前,针对所述文本信息中包含的每个句子,判断该句子中是否包含有网页链接,若是,则去除所述网页链接。
在一种可能的实施方式中,所述处理器91,还用于所述确定文本信息中包含的每个句子之后,所述针对所述文本信息中包含的每个句子,将该句子输入预先训练完成的观点句识别模型之前,针对所述文本信息中包含的每个句子,判断该句子的字数是否小于设定的第一字数阈值,若否,则进行后续步骤;和/或,
针对所述文本信息中包含的每个句子,判断该句子的字数是否大于设定的第二字数阈值,若是,则基于该句子中的第二标点符号,将该句子拆分为至少两个子句子,其中,每个子句子的字数均不大于所述第二字数阈值且不小于所述第一字数阈值;针对每个子句子,进行后续步骤。
在一种可能的实施方式中,所述处理器91,还用于针对每个观点句,分别确定该观点句与其他观点句的语义相似度;若该观点句与任一其他观点句的语义相似度大于设定的相似度阈值,则将该其他观点句确定为该观点句对应的后备观点句或进行删除。
在一种可能的实施方式中,所述处理器91,具体用于判断每个观点句的总字数是否大于设定的摘要字数阈值;若是,则将每个观点句中的修饰词进行删除,基于删除修饰词后的观点句,确定所述文本信息的文本摘要。
在一种可能的实施方式中,所述处理器91,具体用于若每个观点句的总字数大于设定的摘要字数阈值,则针对每个观点句,按照每个观点句在所述文本信息中的顺序,依次判断该观点句的字数是否不大于当前摘要剩余字数;若是,则将该观点句确定为文本摘要中的句子,并基于该观点句的字数对当前摘要剩余字数进行更新,其中,当前摘要剩余字数为摘要字数阈值与当前文本摘要中每个句子的总字数的差值。
在一种可能的实施方式中,所述处理器91,还用于若该观点句的字数大于当前摘要剩余字数,且该观点句有对应的后备观点句,则针对任一后备观点句,判断该后备观点句的字数是否不大于当前摘要剩余字数;若是,则将该后备观点句确定为文本摘要中的句子,并基于该后备观点句的字数对当前摘要剩余字数进行更新。
在一种可能的实施方式中,所述处理器91,还用于若该观点句的字数大于当前摘要剩余字数,且该观点句没有对应的后备观点句,则将该观点句进行删除;或,
若该观点句的字数大于当前摘要剩余字数,且该观点句对应的后备观点句的字数均大于当前摘要剩余字数,则将该观点句及对应的后备观点句进行删除。
在一种可能的实施方式中,所述处理器91,还用于获取预先配置的样本集中的任一样本句子,所述样本句子对应有标注的样本类别标签,其中,所述样本类别标签用于标识所述样本句子是否为观点句;将所述样本句子输入待训练的观点句识别模型,通过所述待训练的观点句识别模型,确定所述样本句子对应的识别类别标签;根据所述样本类别标签及所述识别类别标签,对所述待训练的观点句识别模型进行训练。
由于上述电子设备解决问题的原理与文本摘要生成方法相似,因此上述电子设备的实施可以参见方法的实施,重复之处不再赘述。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口92用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。
上述处理器可以是通用处理器,包括中央处理器、网络处理器(NetworkProcessor,NP)等;还可以是数字指令处理器(Digital Signal Processing,DSP)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
实施例11:
基于相同的技术构思,在上述各实施例的基础上,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有可由电子设备执行的计算机程序,当所述程序在所述电子设备上运行时,使得所述电子设备执行时实现如下步骤:
确定文本信息中包含的每个句子,针对所述文本信息中包含的每个句子,将该句子输入预先训练完成的观点句识别模型,根据所述观点句识别模型的输出结果判断该句子是否为观点句;若是,则将该句子确定为观点句;
基于所述观点句,确定所述文本信息的文本摘要。
在一种可能的实施方式中,所述确定文本信息中包含的每个句子包括:
基于文本信息中包含的第一标点符号,确定文本信息中包含的每个句子。
在一种可能的实施方式中,所述确定文本信息中包含的每个句子之后,所述针对所述文本信息中包含的每个句子,将该句子输入预先训练完成的观点句识别模型之前,所述方法还包括:
针对所述文本信息中包含的每个句子,判断该句子中是否包含有网页链接,若是,则去除所述网页链接。
在一种可能的实施方式中,所述确定文本信息中包含的每个句子之后,所述针对所述文本信息中包含的每个句子,将该句子输入预先训练完成的观点句识别模型之前,所述方法还包括:
针对所述文本信息中包含的每个句子,判断该句子的字数是否小于设定的第一字数阈值,若否,则进行后续步骤;和/或,
针对所述文本信息中包含的每个句子,判断该句子的字数是否大于设定的第二字数阈值,若是,则基于该句子中的第二标点符号,将该句子拆分为至少两个子句子,其中,每个子句子的字数均不大于所述第二字数阈值且不小于所述第一字数阈值;针对每个子句子,进行后续步骤。
在一种可能的实施方式中,所述将该句子确定为观点句之后,所述基于所述观点句,确定所述文本信息的文本摘要之前,所述方法还包括:
针对每个观点句,分别确定该观点句与其他观点句的语义相似度;若该观点句与任一其他观点句的语义相似度大于设定的相似度阈值,则将该其他观点句确定为该观点句对应的后备观点句或进行删除。
在一种可能的实施方式中,所述基于所述观点句,确定所述文本信息的文本摘要包括:
判断每个观点句的总字数是否大于设定的摘要字数阈值;若是,则将每个观点句中的修饰词进行删除,基于删除修饰词后的观点句,确定所述文本信息的文本摘要。
在一种可能的实施方式中,所述基于所述观点句,确定所述文本信息的文本摘要包括:
若每个观点句的总字数大于设定的摘要字数阈值,则针对每个观点句,按照每个观点句在所述文本信息中的顺序,依次判断该观点句的字数是否不大于当前摘要剩余字数;若是,则将该观点句确定为文本摘要中的句子,并基于该观点句的字数对当前摘要剩余字数进行更新,其中,当前摘要剩余字数为摘要字数阈值与当前文本摘要中每个句子的总字数的差值。
在一种可能的实施方式中,所述方法还包括:
若该观点句的字数大于当前摘要剩余字数,且该观点句有对应的后备观点句,则针对任一后备观点句,判断该后备观点句的字数是否不大于当前摘要剩余字数;若是,则将该后备观点句确定为文本摘要中的句子,并基于该后备观点句的字数对当前摘要剩余字数进行更新。
在一种可能的实施方式中,所述方法还包括:
若该观点句的字数大于当前摘要剩余字数,且该观点句没有对应的后备观点句,则将该观点句进行删除;或,
若该观点句的字数大于当前摘要剩余字数,且该观点句对应的后备观点句的字数均大于当前摘要剩余字数,则将该观点句及对应的后备观点句进行删除。
在一种可能的实施方式中,训练所述观点句识别模型的过程包括:
获取预先配置的样本集中的任一样本句子,所述样本句子对应有标注的样本类别标签,其中,所述样本类别标签用于标识所述样本句子是否为观点句;
将所述样本句子输入待训练的观点句识别模型,通过所述待训练的观点句识别模型,确定所述样本句子对应的识别类别标签;
根据所述样本类别标签及所述识别类别标签,对所述待训练的观点句识别模型进行训练。
上述计算机可读存储介质可以是电子设备中的处理器能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器如软盘、硬盘、磁光盘(MO)等、光学存储器如CD、DVD、BD、HVD等、以及半导体存储器如ROM、EPROM、EEPROM、非易失性存储器(NAND FLASH)、固态硬盘(SSD)等。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (16)

1.一种文本摘要生成方法,其特征在于,所述方法包括:
确定文本信息中包含的每个句子,针对所述文本信息中包含的每个句子,将该句子输入预先训练完成的观点句识别模型,根据所述观点句识别模型的输出结果判断该句子是否为观点句;若是,则将该句子确定为观点句;
基于所述观点句,确定所述文本信息的文本摘要;
所述基于所述观点句,确定所述文本信息的文本摘要包括:
按照每个观点句在所述文本信息中的顺序,依次将每个观点句,确定为文本信息的文本摘要中的句子;或者,
若每个观点句的总字数大于设定的摘要字数阈值,则针对每个观点句,按照每个观点句在所述文本信息中的顺序,依次判断该观点句的字数是否不大于当前摘要剩余字数;若是,则将该观点句确定为文本摘要中的句子,并基于该观点句的字数对当前摘要剩余字数进行更新,其中,当前摘要剩余字数为摘要字数阈值与当前文本摘要中每个句子的总字数的差值;
若该观点句的字数大于当前摘要剩余字数,且该观点句有对应的后备观点句,则针对任一后备观点句,判断该后备观点句的字数是否不大于当前摘要剩余字数;若是,则将该后备观点句确定为文本摘要中的句子,并基于该后备观点句的字数对当前摘要剩余字数进行更新;
所述将该句子确定为观点句之后,所述基于所述观点句,确定所述文本信息的文本摘要之前,所述方法还包括:
针对每个观点句,分别确定该观点句与其他观点句的语义相似度;若该观点句与任一其他观点句的语义相似度大于设定的相似度阈值,则将该其他观点句确定为该观点句对应的后备观点句。
2.根据权利要求1所述的方法,其特征在于,所述确定文本信息中包含的每个句子包括:
基于文本信息中包含的第一标点符号,确定文本信息中包含的每个句子。
3.根据权利要求1所述的方法,其特征在于,所述确定文本信息中包含的每个句子之后,所述针对所述文本信息中包含的每个句子,将该句子输入预先训练完成的观点句识别模型之前,所述方法还包括:
针对所述文本信息中包含的每个句子,判断该句子中是否包含有网页链接,若是,则去除所述网页链接。
4.根据权利要求1所述的方法,其特征在于,所述确定文本信息中包含的每个句子之后,所述针对所述文本信息中包含的每个句子,将该句子输入预先训练完成的观点句识别模型之前,所述方法还包括:
针对所述文本信息中包含的每个句子,判断该句子的字数是否小于设定的第一字数阈值,若否,则进行后续步骤;和/或,
针对所述文本信息中包含的每个句子,判断该句子的字数是否大于设定的第二字数阈值,若是,则基于该句子中的第二标点符号,将该句子拆分为至少两个子句子,其中,每个子句子的字数均不大于所述第二字数阈值且不小于所述第一字数阈值;针对每个子句子,进行后续步骤。
5.根据权利要求1所述的方法,其特征在于,所述基于所述观点句,确定所述文本信息的文本摘要包括:
判断每个观点句的总字数是否大于设定的摘要字数阈值;若是,则将每个观点句中的修饰词进行删除,基于删除修饰词后的观点句,确定所述文本信息的文本摘要。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若该观点句的字数大于当前摘要剩余字数,且该观点句没有对应的后备观点句,则将该观点句进行删除;或,
若该观点句的字数大于当前摘要剩余字数,且该观点句对应的后备观点句的字数均大于当前摘要剩余字数,则将该观点句及对应的后备观点句进行删除。
7.根据权利要求1所述的方法,其特征在于,训练所述观点句识别模型的过程包括:
获取预先配置的样本集中的任一样本句子,所述样本句子对应有标注的样本类别标签,其中,所述样本类别标签用于标识所述样本句子是否为观点句;
将所述样本句子输入待训练的观点句识别模型,通过所述待训练的观点句识别模型,确定所述样本句子对应的识别类别标签;
根据所述样本类别标签及所述识别类别标签,对所述待训练的观点句识别模型进行训练。
8.一种文本摘要生成装置,其特征在于,所述装置包括:
判断模块,用于确定文本信息中包含的每个句子,针对所述文本信息中包含的每个句子,将该句子输入预先训练完成的观点句识别模型,根据所述观点句识别模型的输出结果判断该句子是否为观点句;若是,则将该句子确定为观点句;
确定模块,用于基于所述观点句,确定所述文本信息的文本摘要;
所述确定模块,具体用于按照每个观点句在所述文本信息中的顺序,依次将每个观点句,确定为文本信息的文本摘要中的句子;或者,
若每个观点句的总字数大于设定的摘要字数阈值,则针对每个观点句,按照每个观点句在所述文本信息中的顺序,依次判断该观点句的字数是否不大于当前摘要剩余字数;若是,则将该观点句确定为文本摘要中的句子,并基于该观点句的字数对当前摘要剩余字数进行更新,其中,当前摘要剩余字数为摘要字数阈值与当前文本摘要中每个句子的总字数的差值;
所述确定模块,还用于若该观点句的字数大于当前摘要剩余字数,且该观点句有对应的后备观点句,则针对任一后备观点句,判断该后备观点句的字数是否不大于当前摘要剩余字数;若是,则将该后备观点句确定为文本摘要中的句子,并基于该后备观点句的字数对当前摘要剩余字数进行更新;
去冗余模块,用于针对每个观点句,分别确定该观点句与其他观点句的语义相似度;若该观点句与任一其他观点句的语义相似度大于设定的相似度阈值,则将该其他观点句确定为该观点句对应的后备观点句。
9.根据权利要求8所述的装置,其特征在于,所述判断模块,具体用于基于文本信息中包含的第一标点符号,确定文本信息中包含的每个句子。
10.根据权利要求8所述的装置,其特征在于,所述判断模块,还用于所述确定文本信息中包含的每个句子之后,所述针对所述文本信息中包含的每个句子,将该句子输入预先训练完成的观点句识别模型之前,针对所述文本信息中包含的每个句子,判断该句子中是否包含有网页链接,若是,则去除所述网页链接。
11.根据权利要求8所述的装置,其特征在于,所述判断模块,还用于所述确定文本信息中包含的每个句子之后,所述针对所述文本信息中包含的每个句子,将该句子输入预先训练完成的观点句识别模型之前,针对文本信息中包含的每个句子,判断该句子的字数是否小于设定的第一字数阈值,若否,则进行后续步骤;和/或,
针对所述文本信息中包含的每个句子,判断该句子的字数是否大于设定的第二字数阈值,若是,则基于该句子中的第二标点符号,将该句子拆分为至少两个子句子,其中,每个子句子的字数均不大于所述第二字数阈值且不小于所述第一字数阈值;针对每个子句子,进行后续步骤。
12.根据权利要求8所述的装置,其特征在于,所述确定模块,具体用于判断每个观点句的总字数是否大于设定的摘要字数阈值;若是,则将每个观点句中的修饰词进行删除,基于删除修饰词后的观点句,确定所述文本信息的文本摘要。
13.根据权利要求8所述的装置,其特征在于,所述确定模块,还用于若该观点句的字数大于当前摘要剩余字数,且该观点句没有对应的后备观点句,则将该观点句进行删除;或,
若该观点句的字数大于当前摘要剩余字数,且该观点句对应的后备观点句的字数均大于当前摘要剩余字数,则将该观点句及对应的后备观点句进行删除。
14.根据权利要求8所述的装置,其特征在于,所述装置还包括:
训练模块,用于获取预先配置的样本集中的任一样本句子,所述样本句子对应有标注的样本类别标签,其中,所述样本类别标签用于标识所述样本句子是否为观点句;将所述样本句子输入待训练的观点句识别模型,通过所述待训练的观点句识别模型,确定所述样本句子对应的识别类别标签;根据所述样本类别标签及所述识别类别标签,对所述待训练的观点句识别模型进行训练。
15.一种电子设备,其特征在于,所述电子设备至少包括处理器和存储器,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1-7中任一所述一种文本摘要生成方法的步骤。
16.一种计算机可读存储介质,其特征在于,其存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-7中任一所述一种文本摘要生成方法的步骤。
CN202110825030.6A 2021-07-21 2021-07-21 一种文本摘要生成方法、装置、设备及介质 Active CN113535942B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110825030.6A CN113535942B (zh) 2021-07-21 2021-07-21 一种文本摘要生成方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110825030.6A CN113535942B (zh) 2021-07-21 2021-07-21 一种文本摘要生成方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN113535942A CN113535942A (zh) 2021-10-22
CN113535942B true CN113535942B (zh) 2022-08-19

Family

ID=78100764

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110825030.6A Active CN113535942B (zh) 2021-07-21 2021-07-21 一种文本摘要生成方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN113535942B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101501623A (zh) * 2006-05-03 2009-08-05 数据机器人技术公司 感知文件系统的块存储系统、装置和方法
CN108268668A (zh) * 2018-02-28 2018-07-10 福州大学 一种基于话题多样性的文本数据观点摘要挖掘方法
CN108628833A (zh) * 2018-05-11 2018-10-09 北京三快在线科技有限公司 原创内容摘要确定方法及装置,原创内容推荐方法及装置
CN109657053A (zh) * 2018-12-13 2019-04-19 北京百度网讯科技有限公司 多文本摘要生成方法、装置、服务器及存储介质
CN110287489A (zh) * 2019-06-24 2019-09-27 北京大米科技有限公司 文本生成方法、装置、存储介质和电子设备
CN111310461A (zh) * 2020-01-15 2020-06-19 腾讯云计算(北京)有限责任公司 事件元素提取方法、装置、设备及存储介质
AU2018348336A1 (en) * 2018-12-13 2020-07-02 Advanced New Technologies Co., Ltd. Performing a change of primary node in a distributed system
CN111708878A (zh) * 2020-08-20 2020-09-25 科大讯飞(苏州)科技有限公司 一种体育文本摘要提取方法、装置、存储介质及设备
CN111859463A (zh) * 2014-09-13 2020-10-30 先进元素科技公司 用于基于安全和可靠标识的计算的方法和系统
CN113127595A (zh) * 2021-04-26 2021-07-16 数库(上海)科技有限公司 研报摘要的观点详情提取方法、装置、设备和存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8805110B2 (en) * 2008-08-19 2014-08-12 Digimarc Corporation Methods and systems for content processing
US9378065B2 (en) * 2013-03-15 2016-06-28 Advanced Elemental Technologies, Inc. Purposeful computing
CN108304445B (zh) * 2017-12-07 2021-08-03 新华网股份有限公司 一种文本摘要生成方法和装置
CN110609997B (zh) * 2018-06-15 2023-05-23 北京百度网讯科技有限公司 生成文本的摘要的方法和装置
CN110929022A (zh) * 2018-09-18 2020-03-27 阿基米德(上海)传媒有限公司 一种文本摘要生成方法及系统
CN109657054B (zh) * 2018-12-13 2021-02-02 北京百度网讯科技有限公司 摘要生成方法、装置、服务器及存储介质
CN112214996B (zh) * 2020-10-13 2024-06-04 华中科技大学 一种面向科技信息文本的文本摘要生成方法及系统
CN112541073B (zh) * 2020-12-15 2022-12-06 科大讯飞股份有限公司 一种文本摘要生成方法、装置、电子设备及存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101501623A (zh) * 2006-05-03 2009-08-05 数据机器人技术公司 感知文件系统的块存储系统、装置和方法
CN111859463A (zh) * 2014-09-13 2020-10-30 先进元素科技公司 用于基于安全和可靠标识的计算的方法和系统
CN108268668A (zh) * 2018-02-28 2018-07-10 福州大学 一种基于话题多样性的文本数据观点摘要挖掘方法
CN108628833A (zh) * 2018-05-11 2018-10-09 北京三快在线科技有限公司 原创内容摘要确定方法及装置,原创内容推荐方法及装置
CN109657053A (zh) * 2018-12-13 2019-04-19 北京百度网讯科技有限公司 多文本摘要生成方法、装置、服务器及存储介质
AU2018348336A1 (en) * 2018-12-13 2020-07-02 Advanced New Technologies Co., Ltd. Performing a change of primary node in a distributed system
CN110287489A (zh) * 2019-06-24 2019-09-27 北京大米科技有限公司 文本生成方法、装置、存储介质和电子设备
CN111310461A (zh) * 2020-01-15 2020-06-19 腾讯云计算(北京)有限责任公司 事件元素提取方法、装置、设备及存储介质
CN111708878A (zh) * 2020-08-20 2020-09-25 科大讯飞(苏州)科技有限公司 一种体育文本摘要提取方法、装置、存储介质及设备
CN113127595A (zh) * 2021-04-26 2021-07-16 数库(上海)科技有限公司 研报摘要的观点详情提取方法、装置、设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《基于语义图优化算法的中文微博观点摘要研究》;张聪等;《山东大学学报(理学版)》;20170614;第52卷(第7期);59-65 *

Also Published As

Publication number Publication date
CN113535942A (zh) 2021-10-22

Similar Documents

Publication Publication Date Title
CN107122346B (zh) 一种输入语句的纠错方法及装置
JP7251181B2 (ja) 対訳処理方法および対訳処理プログラム
US10741092B1 (en) Application of high-dimensional linguistic and semantic feature vectors in automated scoring of examination responses
CN108875059B (zh) 用于生成文档标签的方法、装置、电子设备和存储介质
CN110276023B (zh) Poi变迁事件发现方法、装置、计算设备和介质
CN110276071B (zh) 一种文本匹配方法、装置、计算机设备及存储介质
JP5071373B2 (ja) 言語処理装置、言語処理方法および言語処理用プログラム
CN105378707A (zh) 情感反馈
CN115186654B (zh) 一种公文文本摘要生成方法
CN106610990A (zh) 情感倾向性分析的方法及装置
CN112328747B (zh) 事件脉络生成方法、装置、终端设备及存储介质
CN103678271A (zh) 一种文本校正方法及用户设备
CN111354354B (zh) 一种基于语义识别的训练方法、训练装置及终端设备
CN114329112A (zh) 内容审核方法、装置、电子设备及存储介质
CN114610894A (zh) 一种基于篇章语境的多任务联合知识挖掘方法及装置
CN110750980B (zh) 短语语料获取方法及短语语料获取装置
CN113535942B (zh) 一种文本摘要生成方法、装置、设备及介质
CN108052686A (zh) 一种摘要提取方法及相关设备
CN112527967A (zh) 文本匹配方法、装置、终端和存储介质
CN116484809A (zh) 基于人工智能的文本处理方法及装置
CN112733517B (zh) 需求模板符合性检查的方法、电子设备及存储介质
CN114580391A (zh) 中文错误检测模型训练方法、装置、设备及存储介质
CN114141235A (zh) 语音语料库生成方法、装置、计算机设备和存储介质
CN108304367A (zh) 分词方法及装置
CN112101019A (zh) 一种基于词性标注和组块分析的需求模板符合性检查优化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant