CN114281979A - 生成文本摘要的文本处理方法、装置、设备以及存储介质 - Google Patents

生成文本摘要的文本处理方法、装置、设备以及存储介质 Download PDF

Info

Publication number
CN114281979A
CN114281979A CN202011030440.3A CN202011030440A CN114281979A CN 114281979 A CN114281979 A CN 114281979A CN 202011030440 A CN202011030440 A CN 202011030440A CN 114281979 A CN114281979 A CN 114281979A
Authority
CN
China
Prior art keywords
keyword
text
initial
abstract
contain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011030440.3A
Other languages
English (en)
Inventor
关雅卓
郭垿宏
刘巍
李安新
陈岚
中村一成
藤本拓
池田大志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to CN202011030440.3A priority Critical patent/CN114281979A/zh
Priority to JP2021108732A priority patent/JP2022055305A/ja
Publication of CN114281979A publication Critical patent/CN114281979A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

公开了一种文本处理方法,该方法包括:获取内容文本;获取至少一个第一关键字;生成不包含所述至少一个第一关键字的所述内容文本的文本摘要。其中,生成不包含所述至少一个第一关键字的所述内容文本的文本摘要包括:基于所述内容文本生成所述内容文本的初始摘要;以及基于所述初始摘要生成不包含所述至少一个第一关键字的文本摘要。

Description

生成文本摘要的文本处理方法、装置、设备以及存储介质
技术领域
本申请涉及自然语言处理,尤其涉及一种生成文本摘要的文本处理方法、装置、设备以及存储介质。
背景技术
针对文本进行摘要的提取一直是自然语言处理的重点任务。通过提取长篇文本的核心知识和关键内容,可以生成简短的摘要文本,从而有助于用户对长篇文本的内容进行快速并且准确的了解。
在某些情况下,用户可能希望看到不包含某些关键字的摘要。例如,从事网络安全研究的人员如果想从一篇会议论文中提取摘要用于研究安全防护,如果其更希望看到例如“安全”、“防火墙”一类的关键字,而不希望看到诸如“黑客”、“病毒”等相关的信息,则生成不包含诸如“黑客”、“病毒”等这些关键字的摘要就显得尤为重要,这有助于帮助用户过滤掉一些不需要或者不希望看到的信息。
现有的摘要生成方式通常通过直接从提取的摘要中删除用户指定的关键字,从而生成不包含不需要信息的摘要。这会进一步引入其它问题,例如,直接删除关键字可能会导致语法错误或者使得语义不流畅,导致用户无法理解其中的含义。
发明内容
本申请是鉴于以上问题做出的。本申请的目的在于,提供一种生成文本摘要的方法及装置,其能够为用户生成提取了文本的关键内容的文本摘要,同时在保证语法正确和语义流畅的情况下,删除掉用户不需要或者不希望看到的信息。
在一个示例性方面,本公开提供了一种文本处理方法,该方法包括:获取内容文本;获取至少一个第一关键字;生成不包含所述至少一个第一关键字的所述内容文本的文本摘要。
根据本公开的一些实施例,生成不包含所述至少一个第一关键字的所述内容文本的文本摘要包括:基于所述内容文本生成所述内容文本的初始摘要;以及基于所述初始摘要生成不包含所述至少一个第一关键字的文本摘要。
根据本公开的一些实施例,基于所述内容文本生成所述内容文本的初始摘要包括:对所述内容文本进行分句以及句法分析,获取多个句子的句法结构;从所述句法结构中提取知识点,生成所述内容文本的所述初始摘要。
根据本公开的一些实施例,基于所述初始摘要生成不包含所述至少一个第一关键字的文本摘要包括:判断所述初始摘要中是否包含所述第一关键字;在所述初始摘要不包含所述第一关键字的情况下,输出所述初始摘要,作为不包含所述第一关键字的文本摘要。
根据本公开的一些实施例,在所述初始摘要包含所述第一关键字的情况下:从所述初始摘要中删除所述第一关键字;判断删除所述第一关键字之后的初始摘要的语法是否正确;在删除所述第一关键字之后的初始摘要的语法正确的情况下,输出删除所述第一关键字之后的初始摘要,作为不包含所述第一关键字的文本摘要。
根据本公开的一些实施例,在删除所述第一关键字之后的初始摘要的语法不正确的情况下:从所述内容文本中获取一个或多个不包含所述第一关键字的句子;从删除所述第一关键字之前的初始摘要中获取包含所述第一关键字的句子;基于所述一个或多个不包含所述第一关键字的句子、以及所述包含所述第一关键字的句子,获取不包含所述第一关键字的文本摘要。
根据本公开的一些实施例,基于所述一个或多个不包含所述第一关键字的句子、以及所述包含所述第一关键字的句子,获取不包含所述第一关键字的文本摘要包括:将所述包含所述第一关键字的句子中的每一个与所述一个或多个不包含所述第一关键字的句子作比较,获得与所述一个或多个不包含所述第一关键字的句子相对应的一个或多个相似度;对所述一个或多个相似度进行排序,获取与最高相似度相对应的所述一个或多个不包含所述第一关键字的句子中的一个;用与所述最高相似度相对应的所述一个或多个不包含所述第一关键字的句子中的一个替换所述初始摘要中包含所述第一关键字的句子;将所述替换后的初始摘要输出,作为不包含所述第一关键字的文本摘要。
根据本公开的一些实施例,该文本处理方法还包括:获取第二关键字;在所述包含所述第一关键字的句子还包含所述第二关键字的情况下,如果所述一个或多个不包含所述第一关键字的句子包含所述第二关键字,则用所述包含所述第二关键字的句子替换所述初始摘要中包含所述第一关键字的句子,如果所述一个或多个不包含所述第一关键字的句子不包含所述第二关键字,则跳过对所述包含所述第一关键字且包含所述第二关键字的句子的处理。
根据本公开的一些实施例,该文本处理方法还包括:还包括:获取第二关键字;在所述包含所述第一关键字的句子还包含所述第二关键字的情况下,通过语法树压缩掉所述第一关键字。
根据本公开的一些实施例,该文本处理方法还包括:还包括:基于所述第一关键字,从所述初始摘要生成不包含与所述第一关键字相关联的信息的文本摘要。
根据本公开的一些实施例,判断删除所述第一关键字之后的初始摘要的语法是否正确包括:从所述初始摘要的句法结构中提取多个子树;识别每个子树的语序;如果所述子树的语序为正常语序,则确定删除所述第一关键字之后的初始摘要的语法正确;如果所述子树的语序为非正常语序,则确定删除所述第一关键字之后的初始摘要的语法不正确。
根据本公开的一些实施例,判断删除所述第一关键字之后的初始摘要的语法是否正确还包括:获取删除所述第一关键字之前的初始摘要的对应句子的第一困惑度;获取删除所述第一关键字之后的初始摘要的对应句子的第二困惑度;如果所述第二困惑度小于或等于所述第一困惑度,则确定删除所述第一关键字之后的初始摘要的语法正确;如果所述第二困惑度大于所述第一困惑度,则确定删除所述第一关键字之后的初始摘要的语法不正确。
在另一示例性方面,本公开提供了一种文本处理装置,该装置包括:内容文本获取模块,其被配置为获取内容文本;关键字获取模块,其被配置为获取至少一个第一关键字;文本摘要生成模块,其被配置为生成不包含所述至少一个第一关键字的所述内容文本的文本摘要。
在又一示例性方面,本公开提供了一种用于文本处理的设备,该设备包括:处理器;存储器,存储有一个或多个计算机程序模块;其中,所述一个或多个计算机程序模块被配置为当由所述处理器运行时,执行上述文本处理方法。
在又一示例性方面,本公开提供了一种非暂时性计算机可读存储介质,其上存储有计算机指令,其中,所述计算机指令被处理器执行时执行上述文本处理方法。
附图说明
图1示出了根据本公开原理的实施例的文本处理方法的流程图。
图2示出了根据本公开原理的实施例的文本处理方法的另一流程图。
图3示出了根据本公开原理的实施例的文本处理方法的又一流程图。
图4示出了根据本公开原理的实施例的文本处理方法的又一流程图。
图5示出了根据本公开原理的实施例的获取的内容文本的示例。
图6示出了根据本公开原理的实施例的直接删除第一关键字的处理的示例。
图7示出了根据本公开原理的实施例的具有单个第一关键字的处理的示例。
图8示出了根据本公开原理的实施例的具有多个第一关键字的处理的示例。
图9示出了根据本公开原理的实施例的文本处理方法的又一流程图。
图10示出了根据本公开原理的实施例的针对第二关键字的处理的示例。
图11示出了根据本公开原理的实施例的文本处理装置的框图。
图12示出了根据本公开原理的实施例的文本处理设备的示意图。
图13示出了根据本公开原理的实施例的非暂时性计算机可读存储介质的示意图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中示出了本公开的一些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反地,提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
应当理解的是,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施例可以包括其它的步骤和/或省略某些步骤。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
应当理解的是,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开的实施例提供了一种文本处理方法。图1示出了根据本公开原理的实施例的文本处理方法100的流程图。
如图1所示,根据本公开的实施例的文本处理方法100包括以下步骤:
步骤S101:获取内容文本。例如,内容文本可以是通过各种途径、以各种不同的方式获取的各种形式的文本。例如,其可以是存储在本地计算机中的任意篇幅的论文,也可以是利用搜索引擎等在互联网中搜索到的新闻资讯、会议文章。此外,也可以基于现有的图像识别技术从纸质书本、报纸、杂志等扫描得到该内容文本。内容文本可以是简体中文的,也可以是以任何一个国家的语言文字记载的文字性内容。
步骤S102:获取至少一个第一关键字。
在本实施例中,第一关键字例如是用户指定的不需要或者不想看到的信息。例如,如果从事网络安全研究的人员如果想从一篇会议论文中提取摘要用于研究安全防护,如果他不希望看到诸如“黑客”、“病毒”等相关的信息,可以将“黑客”、“病毒”等指定为第一关键字。第一关键字可以是单个字、单词或短语,也可以是短句子,对其长度不做限制。另外,可以根据需要同时指定多个第一关键字,对第一关键字的数量也不做任何限制。
步骤S103:生成不包含所述至少一个第一关键字的所述内容文本的文本摘要。
如前所述,根据本公开的实施例,可以提供一种生成文本摘要的方法及装置,其能够为用户生成提取了文本的关键内容的文本摘要,同时在保证语法正确和语义流畅的情况下,删除掉用户不需要或者不希望看到的信息。优选地,可以基于图2所示的文本处理方法生成上述不包含第一关键字的文本摘要。
图2-4示出了生成上述不包含第一关键字的文本摘要的详细流程图。以下将结合图2-4以及具体的处理示例,对步骤S103的处理进行进一步详细说明。
如图2所示,首先,对于在步骤S101中获取的内容文本进行分句处理以得到处理后的多个句子,然后对每个句子进行句法分析以得到多个句子的语法结构(S201)。具体地,可以按照常用的标点符号,例如句号、问号、感叹号等对内容文本进行分句。此外,可以通过对分句后的每个句子进行词性标注,并根据标注的词性对每个句子中的各个分词进行分析以得到句法结构。
在获取多个句子的句法结构以后,可以从各个句法结构中提取多个知识点,然后对各个知识点进行融合,生成内容文本的初始摘要(S202)。
然后,在步骤S203中,基于在步骤S102中获得的至少一个第一关键字,以及在S202中获得的初始摘要,生成不包含所述至少一个第一关键字的内容文本的文本摘要。
如图3所示的文本处理方法300包括两个输入,其中输入1是如上所述的第一关键字,即不需要的或不想看到的内容,并且输入2是在步骤S202中生成的内容文本的初始摘要。首先,判断初始摘要中是否包含第一关键字(S301),即判断输入2的内容文本的初始摘要中是否包含输入1中的第一关键字,其中,第一关键字是例如是用户通过输入设备(例如,键盘、鼠标、麦克风输入等)指定的不需要的信息或不想看到的信息。
如果初始摘要不包含第一关键字,则在不做任何处理的情况下直接输出初始摘要,作为不包含第一关键字的文本摘要。反之,如果初始摘要包含第一关键字,则依次进行以下处理:
步骤S302:从初始摘要中删除第一关键字。
步骤S303:判断删除第一关键字之后的初始摘要的语法是否正确。
在判断出删除第一关键字之后的初始摘要的语法正确的情况下,输出删除第一关键字之后的初始摘要,作为不包含所述第一关键字的文本摘要。如果删除第一关键字之后的初始摘要的语法不正确,则继续进行到稍后关于图4所述的文本处理方法400。
在本公开的实施例中,优选地,可以利于基于语法树提取的方式判断删除第一关键字之后的初始摘要的语法是否正确。具体地,在删除第一关键字之后,可以从删除第一关键字之后的初始摘要的句法结构中提取多个子树,然后依次识别每个子树的语序。如果该子树的语序为正常语序,则确定删除第一关键字之后的初始摘要的语法正确;否则,确定删除第一关键字之后的初始摘要的语法不正确。
可选地,也可以基于困惑度(perplexity)判断删除第一关键字之后的初始摘要的语法是否正确。在自然语言处理中,困惑度是用来衡量语言概率模型优劣的一个方法。从编码长度的角度来理解,可认为困惑度是在语言模型下,等可能性的输出结果的个数。所以在给定历史信息后,语言模型等可能性输出的结果个数越少越好,越少就表示模型就越知道对给定的历史信息,应该给出什么样的输出,即困惑度越小,表示语言模型越好。
具体地,本实施例中基于困惑度判断删除第一关键字之后的初始摘要的语法是否正确的方法包括:获取删除第一关键字之前的初始摘要的对应句子的第一困惑度,同时获取删除第一关键字之后的初始摘要的对应句子的第二困惑度。如果第二困惑度小于或等于第一困惑度,则确定删除第一关键字之后的初始摘要的语法正确。否则,如果第二困惑度大于所述第一困惑度,则确定删除第一关键字之后的初始摘要的语法不正确。换言之,在删除第一关键字之后,对比没被删除第一关键字的句子的困惑度与删除第一关键字之后句子的困惑度,困惑度提升说明语法有错误,困惑度不变或降低说明语法正确。
应当理解的是,不论是上述基于语法树提取的判断方法,还是基于困惑度的判断方法,都仅仅是示例性的而非限制,本领域技术人员也可以利用其它方式判断删除第一关键字之后的初始摘要的语法是否正确,本公开不对判断语法是否正确的方法做任何限制。
图4示出了在步骤303中确定删除第一关键字之后的初始摘要的语法不正确的情况下的具体处理流程。
具体地,如图4所示,方法400包括三个输入,其中,输入1是如前所述的第一关键字,例如用户指定的不需要或不想看到的内容,并且输入2是如前所述生成的初始摘要。此外,方法400还将原始内容文本作为附加输入,即输入3。根据本公开的实施例,在删除第一关键字之后的初始摘要的语法不正确的情况下,进行以下处理:
步骤S401:将初始摘要成两个部分,其中A表示不包含第一关键字的句子;并且A-表示包含第一关键字的句子。
步骤S402:从原始内容文本中找到不包含第一关键字的所有句子,表示为B。
步骤S403:比较B与A-的相似度。
步骤S404:保留相似度最高的B。
步骤S405:将B与A结合,然后输出。
其中,在步骤S403中,依次将从初始摘要中提取的包含第一关键字的句子A-中的每一个与从原始内容文本中提取的不包含第一关键字的句子B中的每一个作比较,获得A-与B中每个句子的一个或多个相似度。对所述一个或多个相似度进行排序,获取与最高相似度相对应的B中的一个。然后,用与最高相似度相对应的B中的一个替换初始摘要中包含第一关键字的句子,并且将替换后的初始摘要输出,作为不包含所述第一关键字的文本摘要。
应当理解的是,图4中示出的步骤S401和S402尽管具有不同的标记,但该标记并不限定这两个步骤的具体的执行顺序。在一些实施例中,可以同时执行步骤S401和S402,即可以在获取A和A-的同时一并获取B。可选地,也可以先从输入2中获取A和A-,然后从输入3中获取B,反之亦然。
至此,已经描述了基于用户指定的第一关键字生成不包含该第一关键字的文本摘要的具体方法。下面将参照图5-8进一步描述上述方法的具体示例及其输出结果。
图5示出了根据本公开原理的实施例的获取的内容文本的示例。图6示出了根据本公开原理的实施例的直接删除第一关键字的处理的示例。
如图5所示,本实施例中的内容文本例如是从百度百科获取的与奥林匹克运动会相关的一段文字性描述。其中,下划线部分示出了本示例中获取的第一关键字,即“国际奥林匹克委员会”。
如图6所示,基于方法200中的步骤S202生成了初始摘要。如果直接从初始摘要中删除第一关键字“国际奥林匹克委员会”,则会得到图6所示的处理后的摘要,其中,我们发现,句子“发源于两千多年前的奥林匹克运动会,是主办的世界规模最大的综合性运动会”是有语法错误的,因为删除了“国际奥林匹克委员会”,导致动词“主办”缺乏主语。
在这种情况下,根据本公开的实施例,可以使用如前所述的方法400,即用原始内容文本中不包含“国际奥林匹克委员会”、且与包含第一关键字的句子最为相似的句子来替换上述删除会导致语法错误的句子,将会得到如图7所示的输出结果。图7所示的输出结果通过用不包含第一关键字的且含义最相近的语句来替换上述删除会导致有语法错误的句子,使得输出的摘要含义明确、语义流畅且不存在语法错误。
对比图7所示的单个第一关键字的处理的示例,图8示出了根据本公开原理的实施例的具有多个第一关键字的处理的示例。其中,多个第一关键字分别是“发源于两千多年前的”、“国际奥林匹克委员会”以及“综合性运动会”。根据本公开的实施例,用原始内容文本中不包含发源于两千多年前的”、“国际奥林匹克委员会”以及“综合性运动会”、且与包含上述多个关键字的句子最为相似的句子来替换上述删除会导致语法错误的句子,将会得到如图8所示的输出结果。
根据本发明的实施例,在文本摘要生成过程中,用户不仅可以指定不需要或不想看到的第一关键字,还可以根据具体情况指定需要或想看到的第二关键字。例如,前述从事网络安全研究的人员如果想从一篇会议论文中提取摘要用于研究安全防护,如果其希望看到例如“安全”、“防火墙”一类的关键字,而不希望看到诸如“黑客”、“病毒”等相关的信息,则可以基于诸如“黑客”、“病毒”等的第一关键字,同时基于诸如“安全”、“防火墙”等的第二关键字,生成优先包含上述第二关键字、其次不包含上述第一关键字的文本摘要。
在这种情况下,如果上述初始摘要中的一个句子既包含第一关键字,又包含第二关键字,直接使用上述删除或替换方法可能会导致删除不想要信息的同时一并删除了用户想要的信息。图9示出了解决上述冲突的示例性处理实例。
如图9所示的方法900包括四个输入,其中输入1例如为用户指定的不需要或不想看到的内容,即“第一关键字”,输入2例如为用户指定的需要或想看到的内容,及“第二关键字”,并且输入3和输入4分别是如前所述的初始摘要和原始内容文本。
当判断出初始摘要中的句子A同时包含第一关键字和第二关键字的情况下(S901中的是),从输入4中寻找B*,即不包含第一关键字但包含第二关键字的句子(S902)。如果B*存在,则用B*替换上述同时包含第一关键字和第二关键字的句子A(S904),并输出替换后的摘要。否则,如果B*不存在,则不对时包含第一关键字和第二关键字的句子A做任何处理(S905)。
上述方法优先保证用户需要或想看到的内容的输出,并且在原始内容文本存在包含第二关键字且不包含第一关键字的情况下,同时保证不需要或不想看到的内容的删除。然而,如果在原始文本中不存在包含第二关键字且不包含第一关键字的句子,则优先保证第二关键字的输出,而不考虑第一关键字的删除。
图10示出了根据本公开原理的实施例的针对第二关键字的处理的示例。其中,第一关键字被指定为“综合性运动会”,并且第二关键字被指定为“奥林匹亚”,在初始摘要中的句子“发源于两千多年前的奥林匹克运动会,举办地在奥林匹亚,是国际奥林匹克委员会主办的世界规模最大的综合性运动会”同时包括上述第一和第二关键字的情况下,从原始内容文本中找出包括“奥林匹亚”但不包括“综合性运动会”的句子“奥林匹克运动会发源于两千多年前的古希腊,因举办地在奥林匹亚而得名”来替换初始摘要中的上述句子,以生成最终的文本摘要。
上述方法900是处理是解决上述冲突的示例性处理实施例。可选地,当判断出初始摘要中的句子A同时包含第一关键字和第二关键字的情况下,还可以通过语法树压缩掉所述第一关键字,以生成不包括第一关键字但包括第二关键字的文本摘要。
根据本公开的一些实施例,不仅可以生成不包括第一关键字的文本摘要,还可以从初始摘要生成不包含与第一关键字相关联的信息的文本摘要。例如,本公开的实施例可以根据获取的第一关键字进一步生成与第一关键字相关联的进一步信息,然后利用上述方法生成不包括第一关键字及其相关联的信息的文本摘要。相关联的信息可以是第一关键字的子类别或具有相似属性,例如,如果指定“网络病毒”为第一关键字,可以将“木马”、“蠕虫”、“漏洞”等信息指定为与其相关联的信息。相关联的信息也可以是与第一关键字有其他关系的信息,其他关系例如地域关系、时间关系、血缘关系、雇佣关系、供应链关系等。该相关联的信息可以以列表的方式保存在本地存储器中,也可以是通过互联网或其他工具动态获取的。
本公开的实施例还提供了一种文本处理装置。图11示出了根据本公开原理的实施例的文本处理装置1100的功能性框图。如图11所示,文本处理装置1100包括内容文本获取模块1101,关键字获取模块1102和文本摘要生成模块1103。这些模块可以通过软件、硬件、固件或它们的任意组合实现。
在本公开的实施例中,内容文本获取模块1101被配置为获取内容文本。内容文本获取模块1101例如可以是诸如键盘、鼠标等具有文本输入功能的外部设备,也可以是集成在文本处理装置1100中的诸如触摸屏等输入界面。可选地,内容文本获取模块1101可以是具有语音识别功能的麦克风单元,其将来自用户的语音输入自动转换为原始内容文本。此外,可选地,内容文本获取模块1101也可以是具有语义识别功能的相机模块,其可以将相机捕获到的关于书本、杂志、报纸等上印刷的文字的图片转换为可供文本处理装置1100使用的内容本文。
在本公开的实施例中,关键字获取模块1102被配置为获取至少一个第一关键字。可用如上关于内容文本获取模块1101所述的各种示例类似地实现关键字获取模块1102的部分或全部功能。此外,关键字获取模块1102可与内容文本获取模块1101集成在一起,或者共享相同的部分或全部组件。
在本公开的实施例中,文本摘要生成模块1103被配置为生成不包含所述至少一个第一关键字的所述内容文本的文本摘要。可以用各种方式实现文本摘要生成模块1103,包括但不限于模拟电路、数字电路、软件、硬件、固件、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、其他逻辑电路等,或其上的任意组合,或者作为计算机可执行程序存储在非暂时性计算机可读介质上。
在本公开的实施例中,内容文本获取模块1101、关键字获取模块1102可以与文本摘要生成模块1103集成在一起,也可以作为单独的外部设备通总线、无线或有线网络与文本摘要生成模块1103连接。
在本公开的实施例中,文本处理装置1100包括内容文本获取模块1101,关键字获取模块1102和文本摘要生成模块1103,其被配置为执行如上所述的类似处理,在此不再赘述。
应当理解的是,本公开的实施例中,文本处理装置1100还可以包括更多的模块,而不限于上述文本获取模块1101,关键字获取模块1102和文本摘要生成模块1103。例如,文本处理装置1100可以包括通信模块,以与服务器或其它设备进行有线或无线通信。例如,文本处理装置1100还可以包括附加的输入/输出模块,以例如向用户输出最终生成的文本摘要。
本公开的实施例还提供了一种文本处理设备。图12示出了根据本公开原理的实施例的文本处理设备1200的示意图。
如图12所示,根据本实施例的文本处理设备1200包括处理器1210、存储部分1220、通信部分1230、输入/输出部分1240、和显示部分1250,这些部分耦接到I/O接口1260上。
处理器1210是诸如微处理器的程序控制设备,例如,其根据安装在文本处理设备1200中的程序进行操作。存储部分1220例如是存储元件,诸如ROM或RAM等。将由处理器1210等执行的程序存储在存储部分1220中。通信部分1230例如是通信接口,诸如无线LAN模块。输入/输出部分1240例如是输入/输出端口,诸如HDMI(注册商标)(高清多媒体接口)端口、USB(通用串行总线)端口或AUX(辅助)端口。显示部分1250例如是显示器,诸如液晶显示器或有机EL(电致发光)显示器。
图12所示的文本处理设备1200可用于实现本申请公开的文本处理方法。例如,根据本公开的实施例的文本处理方法可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包括用于执行上述文本处理方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1230从网络上被下载和安装,或者从存储部分1220安装。在该计算机程序被文本处理设备1200执行时,可以执行本公开实施例提供的文本处理方法中限定的功能。该文本处理方法已在上文中结合附图做出了详细描述,在此不再赘述。
本公开的实施例还提供一种非暂时性计算机可读存储介质。图13示出了根据本公开原理的实施例的非暂时性计算机可读存储介质1300的示意图。其中,在计算机可读存储介质1300上存储有计算机程序指令1301,其中,所述计算机程序指令1301被处理器执行时执行本公开实施例提供的文本处理方法中限定的功能。
在上述描述中,已经基于实施例描述了本发明。本实施例仅是说明性的,并且本领域技术人员应当理解,可以以各种方式修改本实施例的构成元素和处理的组合,并且这种修改也在本发明的范围内。

Claims (10)

1.一种文本处理方法,包括:
获取内容文本;
获取至少一个第一关键字;
生成不包含所述至少一个第一关键字的所述内容文本的文本摘要。
2.根据权利要求1所述的文本处理方法,其中,生成不包含所述至少一个第一关键字的所述内容文本的文本摘要包括:
基于所述内容文本生成所述内容文本的初始摘要;以及
基于所述初始摘要生成不包含所述至少一个第一关键字的文本摘要。
3.根据权利要求2所述的文本处理方法,其中,基于所述初始摘要生成不包含所述至少一个第一关键字的文本摘要包括:
判断所述初始摘要中是否包含所述第一关键字;
在所述初始摘要不包含所述第一关键字的情况下,输出所述初始摘要,作为不包含所述第一关键字的文本摘要。
4.根据权利要求3所述的文本处理方法,其中,在所述初始摘要包含所述第一关键字的情况下:
从所述初始摘要中删除所述第一关键字;
判断删除所述第一关键字之后的初始摘要的语法是否正确;
在删除所述第一关键字之后的初始摘要的语法正确的情况下,输出删除所述第一关键字之后的初始摘要,作为不包含所述第一关键字的文本摘要。
5.根据权利要求4所述的文本处理方法,其中,在删除所述第一关键字之后的初始摘要的语法不正确的情况下:
从所述内容文本中获取一个或多个不包含所述第一关键字的句子;
从删除所述第一关键字之前的初始摘要中获取包含所述第一关键字的句子;
基于所述一个或多个不包含所述第一关键字的句子、以及所述包含所述第一关键字的句子,获取不包含所述第一关键字的文本摘要。
6.根据权利要求5所述的文本处理方法,其中,基于所述一个或多个不包含所述第一关键字的句子、以及所述包含所述第一关键字的句子,获取不包含所述第一关键字的文本摘要包括:
将所述包含所述第一关键字的句子中的每一个与所述一个或多个不包含所述第一关键字的句子作比较,获得与所述一个或多个不包含所述第一关键字的句子相对应的一个或多个相似度;
对所述一个或多个相似度进行排序,获取与最高相似度相对应的所述一个或多个不包含所述第一关键字的句子中的一个;
用与所述最高相似度相对应的所述一个或多个不包含所述第一关键字的句子中的一个替换所述初始摘要中包含所述第一关键字的句子;
将所述替换后的初始摘要输出,作为不包含所述第一关键字的文本摘要。
7.根据权利要求4至6中任一项所述的文本处理方法,其中,判断删除所述第一关键字之后的初始摘要的语法是否正确包括:
获取删除所述第一关键字之前的初始摘要的对应句子的第一困惑度;
获取删除所述第一关键字之后的初始摘要的对应句子的第二困惑度;
如果所述第二困惑度小于或等于所述第一困惑度,则确定删除所述第一关键字之后的初始摘要的语法正确;
如果所述第二困惑度大于所述第一困惑度,则确定删除所述第一关键字之后的初始摘要的语法不正确。
8.一种文本处理装置,包括:
内容文本获取模块,其被配置为获取内容文本;
关键字获取模块,其被配置为获取至少一个第一关键字;
文本摘要生成模块,其被配置为生成不包含所述至少一个第一关键字的所述内容文本的文本摘要。
9.一种用于文本处理的设备,包括:
处理器;
存储器,存储有一个或多个计算机程序模块;
其中,所述一个或多个计算机程序模块被配置为当由所述处理器运行时,执行权利要求1-7中任一项所述的文本处理方法。
10.一种非暂时性计算机可读存储介质,其上存储有计算机指令,其中,所述计算机指令被处理器执行时执行权利要求1-7中任一项所述的文本处理方法。
CN202011030440.3A 2020-09-27 2020-09-27 生成文本摘要的文本处理方法、装置、设备以及存储介质 Pending CN114281979A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011030440.3A CN114281979A (zh) 2020-09-27 2020-09-27 生成文本摘要的文本处理方法、装置、设备以及存储介质
JP2021108732A JP2022055305A (ja) 2020-09-27 2021-06-30 テキスト要約を生成するテキスト処理方法、装置、デバイス及び記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011030440.3A CN114281979A (zh) 2020-09-27 2020-09-27 生成文本摘要的文本处理方法、装置、设备以及存储介质

Publications (1)

Publication Number Publication Date
CN114281979A true CN114281979A (zh) 2022-04-05

Family

ID=80867517

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011030440.3A Pending CN114281979A (zh) 2020-09-27 2020-09-27 生成文本摘要的文本处理方法、装置、设备以及存储介质

Country Status (2)

Country Link
JP (1) JP2022055305A (zh)
CN (1) CN114281979A (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7474296B2 (ja) 2022-09-01 2024-04-24 三菱電機インフォメーションシステムズ株式会社 情報処理システム、情報処理方法、およびプログラム
JP7474295B2 (ja) 2022-09-01 2024-04-24 三菱電機インフォメーションシステムズ株式会社 情報処理システム、情報処理方法、およびプログラム

Also Published As

Publication number Publication date
JP2022055305A (ja) 2022-04-07

Similar Documents

Publication Publication Date Title
CN105917327B (zh) 用于将文本输入到电子设备中的系统和方法
US7774193B2 (en) Proofing of word collocation errors based on a comparison with collocations in a corpus
US8463598B2 (en) Word detection
US8010344B2 (en) Dictionary word and phrase determination
US20080312911A1 (en) Dictionary word and phrase determination
US20120047172A1 (en) Parallel document mining
US9208140B2 (en) Rule based apparatus for modifying word annotations
JP2015038731A (ja) 言語変換において複数の読み方の曖昧性を除去する方法
US9881001B2 (en) Image processing device, image processing method and non-transitory computer readable recording medium
CN111259645A (zh) 一种裁判文书结构化方法及装置
CN114281979A (zh) 生成文本摘要的文本处理方法、装置、设备以及存储介质
US20100185438A1 (en) Method of creating a dictionary
Ganfure et al. Design and implementation of morphology based spell checker
CN111241276A (zh) 题目搜索方法、装置、设备及存储介质
US9875232B2 (en) Method and system for generating a definition of a word from multiple sources
JPH09244969A (ja) パーソナル情報抽出方法及び装置
US20120265520A1 (en) Text processor and method of text processing
JP4307287B2 (ja) メタデータ抽出装置
Gleßgen et al. Resources and tools for analyzing Old French texts
Alkhazi Compression-Based Parts-of-Speech Tagger for the Arabic Language
JP2007142631A (ja) 画像形成装置
JP2006185334A (ja) リンク関係取得方法、装置、プログラムおよびコンピュータ読み取り可能な記録媒体
Vale et al. Building a large dictionary of abbreviations for named entity recognition in Portuguese historical corpora
JP2004287710A (ja) 言語処理システム
KR101158331B1 (ko) 띄어쓰기 일관성 검사 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination