CN110704608A - 文本主题生成方法、装置和计算机设备 - Google Patents

文本主题生成方法、装置和计算机设备 Download PDF

Info

Publication number
CN110704608A
CN110704608A CN201910809353.9A CN201910809353A CN110704608A CN 110704608 A CN110704608 A CN 110704608A CN 201910809353 A CN201910809353 A CN 201910809353A CN 110704608 A CN110704608 A CN 110704608A
Authority
CN
China
Prior art keywords
text
sentence
module
preset
sentences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910809353.9A
Other languages
English (en)
Inventor
秦宁远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN201910809353.9A priority Critical patent/CN110704608A/zh
Publication of CN110704608A publication Critical patent/CN110704608A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供一种文本主题生成方法、装置和计算机设备。本申请实施例提供的文本主题生成方法中,在文本中查找预设关键词之后,当文本中不存在预设关键词时,计算上述文本中每个语句的权重,然后根据每个语句的权重,提取上述文本的目标语句,最后根据上述目标语句,生成上述文本的主题,通过上述方式生成的文本主题,有助于用户把握文本的主要信息,快速了解文本的关键内容,使得用户在阅读文本时更为高效。

Description

文本主题生成方法、装置和计算机设备
技术领域
本申请涉及大数据技术领域,尤其涉及一种文本主题生成方法、装置和计算机设备。
背景技术
随着信息技术的发展,互联网已经成为了人们获取信息的主要渠道,互联网上的文本数据内容也呈现指数级增长的趋势。互联网上的文本数据中包含了丰富的信息,但是,用户使用文本数据进行阅读时,不可能无限期阅读,一般都有时间限制,所以可能会出现用户在有限的时间内没有将重要的数据内容阅读完的情况。
因此,需要生成文本的主题,方便用户快速了解文本的内容,但现有技术中,并未提供如何生成文本主题的技术方案。
发明内容
本申请实施例提供一种文本主题生成方法、装置和计算机设备,有助于用户把握文本的主要信息,快速了解文本的关键内容,使得用户阅读文本更为高效。
第一方面,本申请实施例提供了一种文本主题生成方法,包括:
对文本进行过滤处理;
基于预设分段标签,对过滤处理后的文本进行分段处理;
在分段处理后的文本中,查找预设关键词;
当所述文本中不存在所述预设关键词时,计算所述文本中每个语句的权重;
根据所述每个语句的权重,提取所述文本的目标语句;以及,
根据所述目标语句,生成所述文本的主题。
其中在一种可能的实现方式中,所述在分段处理后的文本中,查找所述预设关键词之后,还包括:
当文本中存在预设关键词时,提取所述预设关键词所在的语句为目标语句;
根据所述目标语句,生成所述文本的主题。
其中在一种可能的实现方式中,所述计算所述文本中每个语句的权重包括:
循环计算所述文本中任意两个语句之间的相似度值;
根据所述相似度值,构建所述文本中任意两个语句之间的节点连接图;
从所述节点连接图中获取所述文本中每个语句对应的权重。
其中在一种可能的实现方式中,所述根据所述相似度值,构建所述文本中任意两个语句之间的节点连接图包括:
获取所述文本中相似度值大于或等于预设第一阈值的语句;
在获取的每个语句之间进行有向连接。
其中在一种可能的实现方式中,所述根据每个语句的权重,提取所述文本的目标语句包括:
在所述文本中提取所述权重大于或等于预设第二阈值的语句,以提取的语句作为所述文本的目标语句。
第二方面,本申请实施例还提供了一种文本主题生成装置,包括:
过滤模块,用于对文本进行过滤处理;
分段模块,用于基于预设分段标签,对经所述过滤模块过滤处理之后的文本进行分段处理;
查找模块,用于在经所述分段模块分段处理后的文本中,查找预设关键词;
计算模块,用于当所述查找模块的查找结果为所述文本中不存在所述预设关键词时,计算所述文本中每个语句的权重;
提取模块,用于根据所述计算模块计算得到的所述文本中每个语句的权重,提取所述文本的目标语句;
生成模块,用于根据所述提取模块提取到的所述目标语句,生成所述文本的主题。
其中在一种可能的实现方式中,所述提取模块还用于当所述查找模块的查找结果为所述文本中存在预设关键词时,提取所述预设关键词所在的语句为目标语句。
其中在一种可能的实现方式中,所述计算模块包括:
计算单元,用于当所述查找模块的查找结果为所述文本中不存在预设关键词时,循环计算所述文本中任意两个语句之间的相似度值;
构建单元,用于根据所述相似度值,构建所述文本中任意两个语句之间的节点连接图;
获取单元,用于获取所述节点连接图中每个语句对应的权重。
第三方面,本申请实施例还提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现上述文本主题生成方法。
第四方面,本申请实施例还提供了一种非临时性计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述文本主题生成方法。
以上技术方案中,在文本中查找预设关键词之后,当文本中不存在预设关键词时,计算上述文本中每个语句的权重,然后根据每个语句的权重,提取上述文本的目标语句,最后根据上述目标语句,生成上述文本的主题。通过上述方式生成的文本主题,有助于用户把握文本的主要信息,快速了解文本的关键内容,使得用户在阅读文本时更为高效。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请文本主题生成方法的一实施例流程图;
图2为本申请文本主题生成方法的另一实施例流程图;
图3为本申请文本主题生成方法的再一实施例流程图;
图4为本申请文本主题生成装置的一实施例的连接结构示意图;
图5为本申请文本主题生成装置的再一实施例的连接结构示意图;
图6为本申请计算机设备一个实施例的结构示意图。
具体实施方式
为了更好的理解本申请的技术方案,下面结合附图对本申请实施例进行详细描述。
应当明确,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
图1为本申请文本主题生成方法的一实施例流程图,如图1所示,上述方法可以包括:
步骤101:对文本进行过滤处理。
一般而言,对于获取到的文本,往往包括网页链接、网页广告等不必要的信息,本申请为了提高预设关键词的查找效率,需要对文本进行过滤处理。在实际应用中,可通过正则表达式对文本进行过滤处理。
具体地,上述正则表达式,又称规则表达式,通常被用来检索、替换那些符合某个模式(规则)的文本。
通常来说,本申请采用正则表达式进行过滤时,需要先将带有预设前缀的标识符复制到正则表达式中,紧接着,通过上述正则表达式对文本进行遍历操作,以查找不必要的网页链接,这样,就完成了对网页链接的过滤。在实际应用中,上述预设标识符可以是src、href等。
步骤102:基于预设分段标签,对过滤处理后的文本进行分段处理。
具体地,上述预设分段标签可以是<p>和<br>。在具体实现时,可以根据分段标签<p>和<br>,对过滤处理后的文本进行分段处理。在实际应用中,在基于预设分段标签对过滤处理后的文本进行分段处理之后,还需删除上述文本中包括的预设分段标签,使得提取到的文本为无标签纯文字的文本。同样,可以通过正则表达式来对预设分段标签进行删除。
步骤103:在分段处理后的文本中,查找预设关键词。
上述预设关键词可以在具体实现时,根据实现需求进行自行设定,本实施例对上述预设关键词的类别不作限定,举例来说,上述预设关键词可以是摘要、概要或总结。
步骤104:当上述文本中不存在预设关键词时,计算上述文本中每个语句的权重。
其中,上述权重指某一因素或指标相对于某一事物的重要程度,其不同于一般的比重,体现的不仅仅是某一因素或指标所占的百分比,强调的是因素或指标的相对重要程序,倾向于贡献度或重要性。本实施例通过计算上述文本中每个语句的权重,方便用户了解每个语句相对于整篇文本的重要程度。
步骤105:根据上述每个语句的权重,提取上述文本的目标语句。
进一步而言,上述步骤105可以包括:
在上述文本中提取权重大于或等于预设第二阈值的语句,以提取的语句作为上述文本的目标语句。
同样地,本实施例对上述预设第二阈值的大小不作限定,举例来说,上述预设第二阈值可以是0.85。
步骤106:根据上述目标语句,生成上述文本的主题。
在实际应用中,上述目标语句往往存在多个,本申请根据上述目标语句出现的先后顺序,进行目标语句的排列,故本实施例中的上述主题为对上述多个目标语句进行排列之后的集合。
上述文本主题生成方法中,在文本中查找预设关键词之后,当文本中不存在上述预设关键词时,计算文本中每个语句的权重,然后根据每个语句的权重,提取上述文本的目标语句,最后在根据上述目标语句,生成上述文本的主题。通过上述方式生成的文本主题,有助于用户把握文本的主要信息,快速了解文本的关键内容,使得用户在阅读文本时更为高效。
图2为本申请文本主题生成方法的另一实施例流程图,如图2所示,本申请图1所示实施例中,上述步骤104可以包括:
步骤201:循环计算上述文本中任意两个语句之间的相似度值。
具体地,本申请可通过计算两个语句之间的汉明距离来得到上述相似度值,上述基于汉明距离的文本相似度计算方法依赖于编码理论中的汉明距离,具体通过计算两个语句之间的汉明距离来计算两个语句之间的相似度,此种方法的优点在于运算过程比较方便,在实际应用中,可通过公式(1)计算两个语句之间的汉明距离:
Figure BDA0002184583970000061
其中,公式(1)中的X表示一个语句中的码字,Y表示另一个语句中的码字,上述X和Y均由多个码元构成,Xi表示码字X中的第i个码元,Yi表示语句Y中的第i个码元,Xi和Yi的取值均为0或1;运算符号
Figure BDA0002184583970000071
表示模二加运算,等同于“异或”运算;n表示码元的个数,D(X,Y)表示码字X和码字Y中不同符号的数目,D(X,Y)值越大,也即汉明距离越大,说明两个码字相似程度越低。
步骤202:根据上述相似度值,构建上述文本中任意两个语句之间的节点连接图。
进一步地,本申请构建上述节点连接图的过程中,需先获取上述文本中相似度值大于或等于预设第一阈值的语句,然后再在获取的每个语句之间进行有向连接。同样,本实施例对上述预设第一阈值的大小不作限定,举例来说,上述预设第一阈值可为0.5。
步骤203:从上述节点连接图中获取所述文本中每个语句对应的权重。
进一步来说,上述节点连接图更好地反映了每个语句与其他语句之间的关联,当某个语句与其他语句的有向连接越多时,表示这个语句对应的权重也就越大,本申请中上述每个语句对应的权重大小为这个语句与其他语句的有向连接个数占总的有向连接个数的百分比。
图3为本申请文本主题生成方法的再一实施例流程图,如图3所示,本申请图1所示实施例中,上述步骤103之后,还可以包括:
步骤301:当文本中存在预设关键词时,提取上述预设关键词所在的语句为目标语句。
同样,本实施例对上述预设关键词的类别不作限定,举例来说,上述预设关键词可以是摘要、概要或总结。
步骤302:根据上述目标语句,生成上述文本的主题。
具体地,本实施例中,当文本中存在预设关键词时,可以直接提取上述预设关键词所在的语句为目标语句,然后将上述目标语句的集合作为上述文本的主题。
图4为本申请文本主题生成装置的一实施例的连接结构示意图,如图4所示,上述装置可以包括:过滤模块11、分段模块12、查找模块13、计算模块14、提取模块15和生成模块16;
其中,过滤模块11,用于对文本进行过滤处理。
一般而言,对于获取到的文本,往往包括网页链接、网页广告等不必要的信息,本申请为了提高预设关键词的查找效率,需要对文本进行过滤处理。在实际应用中,可通过正则表达式对文本进行过滤处理。
具体地,上述正则表达式,又称规则表达式,通常被用来检索、替换那些符合某个模式(规则)的文本。
通常来说,本申请采用正则表达式进行过滤时,需要先将带有预设前缀的标识符复制到正则表达式中,紧接着,通过上述正则表达式对文本进行遍历操作,以查找不必要的网页链接,这样,就完成了对网页链接的过滤。在实际应用中,上述预设标识符可以是src、href等。
分段模块12,用于基于预设分段标签,对经所述过滤模块11过滤处理之后的文本进行分段处理。
具体地,上述预设分段标签可以是<p>和<br>。在具体实现时,可以根据分段标签<p>和<br>,对过滤处理后的文本进行分段处理。在实际应用中,在基于预设分段标签对过滤处理后的文本进行分段处理之后,还需删除上述文本中包括的预设分段标签,使得提取到的文本为无标签纯文字的文本。同样,可以通过正则表达式来对预设分段标签进行删除。
查找模块13,用于在经所述分段模块12分段处理后的文本中,查找预设关键词。
上述预设关键词可以在具体实现时,根据实现需求进行自行设定,本实施例对上述预设关键词的类别不作限定,举例来说,上述预设关键词可以是摘要、概要或总结。
计算模块14,用于当所述查找模块13的查找结果为所述文本中不存在所述预设关键词时,计算所述文本中每个语句的权重。
其中,上述权重指某一因素或指标相对于某一事物的重要程度,其不同于一般的比重,体现的不仅仅是某一因素或指标所占的百分比,强调的是因素或指标的相对重要程序,倾向于贡献度或重要性。本实施例通过计算上述文本中每个语句的权重,方便用户了解每个语句相对于整篇文本的重要程度。
提取模块15,用于根据所述计算模块14计算得到的所述文本中每个语句的权重,提取所述文本的目标语句。
在上述文本中提取权重大于或等于预设第二阈值的语句,以提取的语句作为上述文本的目标语句。
同样地,本实施例对上述预设第二阈值的大小不作限定,举例来说,上述预设第二阈值可以是0.85。
在实际应用中,当上述查找模块13的查找结果为文本中存在预设关键词时,则提取上述预设关键词所在的语句为目标语句。
生成模块16,用于根据提取模块15提取到的目标语句,生成文本的主题。
在实际应用中,上述目标语句往往存在多个,本申请根据上述目标语句出现的先后顺序,进行目标语句的排列,故本实施例中的上述主题为对上述多个目标语句进行排列之后的集合。
上述文本主题生成装置中,在过滤模块11对文本进行过滤处理之后,分段模块12基于预设分段标签,对经过滤模块11过滤处理之后的文本进行分段处理,查找模块13在经分段模块12分段处理后的文本中,查找预设关键词,然后当查找结果为文本中不存在预设关键词时,计算模块14再对文本中每个语句的权重进行计算,这样,提取模块15便可以提取符合要求的文本目标语句,并根据上述目标语句使得生成模块可以生成文本的主题。
图5为本申请文本主题生成装置的再一实施例的连接结构示意图,如图5所示,本申请图4所示实施例中的计算模块14可以包括计算单元17、构建单元18和获取单元19;
其中,上述计算单元17用于当上述查找模块13的查找结果为上述文本中不存在预设关键词时,循环计算上述文本中任意两个语句之间的相似度值。
具体地,本申请可通过计算两个语句之间的汉明距离来得到上述相似度值,上述基于汉明距离的文本相似度计算方法依赖于编码理论中的汉明距离,具体通过计算两个语句之间的汉明距离来计算两个语句之间的相似度,此种方法的优点在于运算过程比较方便,在实际应用中,可通过公式(1)计算两个语句之间的汉明距离:
Figure BDA0002184583970000101
其中,公式(1)中的X表示一个语句中的码字,Y表示另一个语句中的码字,上述X和Y均由多个码元构成,Xi表示码字X中的第i个码元,Yi表示语句Y中的第i个码元,Xi和Yi的取值均为0或1;运算符号
Figure BDA0002184583970000102
表示模二加运算,等同于“异或”运算;n表示码元的个数,D(X,Y)表示码字X和码字Y中不同符号的数目,D(X,Y)值越大,也即汉明距离越大,说明两个码字相似程度越低。
上述构建单元18,用于根据上述相似度值,构建上述文本中任意两个语句之间的节点连接图。
进一步地,本申请构建上述节点连接图的过程中,需先获取上述文本中相似度值大于或等于预设第一阈值的语句,然后再在获取的每个语句之间进行有向连接。同样,本实施例对上述预设第一阈值的大小不作限定,举例来说,上述预设第一阈值可为0.5。
上述获取单元19,用于获取上述节点连接图中每个语句对应的权重。
进一步来说,上述节点连接图更好地反映了每个语句与其他语句之间的关联,当某个语句与其他语句的有向连接越多时,表示这个语句对应的权重也就越大,本申请中上述每个语句对应的权重大小为这个语句与其他语句的有向连接个数占总的有向连接个数的百分比。
图6为本申请计算机设备一个实施例的结构示意图,上述计算机设备可以包括存储器、处理器及存储在上述存储器上并可在上述处理器上运行的计算机程序,上述处理器执行上述计算机程序时,可以实现本申请实施例提供的文本主题生成方法。
其中,上述计算机设备可以为服务器,例如:云服务器,或者上述计算机设备也可以为电子设备,例如:智能手机、智能手表、个人计算机(Personal Computer;以下简称:PC)、笔记本电脑或平板电脑等智能设备,本实施例对上述计算机设备的具体形态不作限定。
图6示出了适于用来实现本申请实施方式的示例性计算机设备52的框图。图6显示的计算机设备52仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图6所示,计算机设备52以通用计算设备的形式表现。计算机设备52的组件可以包括但不限于:一个或者多个处理器或者处理单元56,系统存储器78,连接不同系统组件(包括系统存储器78和处理单元56)的总线58。
总线58表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture;以下简称:ISA)总线,微通道体系结构(Micro Channel Architecture;以下简称:MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation;以下简称:VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection;以下简称:PCI)总线。
计算机设备52典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备52访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器78可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory;以下简称:RAM)70和/或高速缓存存储器72。计算机设备52可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统74可以用于读写不可移动的、非易失性磁介质(图6未显示,通常称为“硬盘驱动器”)。尽管图6中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如:光盘只读存储器(Compact Disc Read OnlyMemory;以下简称:CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory;以下简称:DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线58相连。存储器78可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。
具有一组(至少一个)程序模块82的程序/实用工具80,可以存储在例如存储器78中,这样的程序模块82包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块82通常执行本申请所描述的实施例中的功能和/或方法。
计算机设备52也可以与一个或多个外部设备54(例如键盘、指向设备、显示器64等)通信,还可与一个或者多个使得用户能与该计算机设备52交互的设备通信,和/或与使得该计算机设备52能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口62进行。并且,计算机设备52还可以通过网络适配器60与一个或者多个网络(例如局域网(Local Area Network;以下简称:LAN),广域网(Wide Area Network;以下简称:WAN)和/或公共网络,例如因特网)通信。如图6所示,网络适配器60通过总线58与计算机设备52的其它模块通信。应当明白,尽管图6中未示出,可以结合计算机设备52使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元56通过运行存储在系统存储器78中的程序,从而执行各种功能应用以及数据处理,例如实现本申请实施例提供的文本主题生成方法。
本申请实施例还提供一种非临时性计算机可读存储介质,其上存储有计算机程序,上述计算机程序被处理器执行时可以实现本申请实施例提供的文本主题生成方法。
上述非临时性计算机可读存储介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(Read Only Memory;以下简称:ROM)、可擦式可编程只读存储器(ErasableProgrammable Read Only Memory;以下简称:EPROM)或闪存、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LocalArea Network;以下简称:LAN)或广域网(Wide Area Network;以下简称:WAN)连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
需要说明的是,本申请实施例中所涉及的终端可以包括但不限于个人计算机(Personal Computer;以下简称:PC)、个人数字助理(Personal Digital Assistant;以下简称:PDA)、无线手持设备、平板电脑(Tablet Computer)、手机、MP3播放器、MP4播放器等。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)或处理器(Processor)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory;以下简称:ROM)、随机存取存储器(Random Access Memory;以下简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。

Claims (10)

1.一种文本主题生成方法,其特征在于,所述的方法包括:
对文本进行过滤处理;
基于预设分段标签,对过滤处理后的文本进行分段处理;
在分段处理后的文本中,查找预设关键词;
当所述文本中不存在所述预设关键词时,计算所述文本中每个语句的权重;
根据所述每个语句的权重,提取所述文本的目标语句;以及,
根据所述目标语句,生成所述文本的主题。
2.根据权利要求1所述的方法,其特征在于,所述在分段处理后的文本中,查找所述预设关键词之后,还包括:
当文本中存在预设关键词时,提取所述预设关键词所在的语句为目标语句;
根据所述目标语句,生成所述文本的主题。
3.根据权利要求1所述的方法,其特征在于,所述计算所述文本中每个语句的权重包括:
循环计算所述文本中任意两个语句之间的相似度值;
根据所述相似度值,构建所述文本中任意两个语句之间的节点连接图;
从所述节点连接图中获取所述文本中每个语句对应的权重。
4.根据权利要求3所述的方法,其特征在于,所述根据所述相似度值,构建所述文本中任意两个语句之间的节点连接图包括:
获取所述文本中相似度值大于或等于预设第一阈值的语句;
在获取的每个语句之间进行有向连接。
5.根据权利要求1~4中任一项所述的方法,其特征在于,所述根据每个语句的权重,提取所述文本的目标语句包括:
在所述文本中提取所述权重大于或等于预设第二阈值的语句,以提取的语句作为所述文本的目标语句。
6.一种文本主题生成装置,其特征在于,所述的装置包括:
过滤模块,用于对文本进行过滤处理;
分段模块,用于基于预设分段标签,对经所述过滤模块过滤处理之后的文本进行分段处理;
查找模块,用于在经所述分段模块分段处理后的文本中,查找预设关键词;
计算模块,用于当所述查找模块的查找结果为所述文本中不存在所述预设关键词时,计算所述文本中每个语句的权重;
提取模块,用于根据所述计算模块计算得到的所述文本中每个语句的权重,提取所述文本的目标语句;
生成模块,用于根据所述提取模块提取到的所述目标语句,生成所述文本的主题。
7.根据权利要求6所述的装置,其特征在于,
所述提取模块还用于当所述查找模块的查找结果为所述文本中存在预设关键词时,提取所述预设关键词所在的语句为目标语句。
8.根据权利要求6所述的装置,其特征在于,所述计算模块包括:
计算单元,用于当所述查找模块的查找结果为所述文本中不存在预设关键词时,循环计算所述文本中任意两个语句之间的相似度值;
构建单元,用于根据所述相似度值,构建所述文本中任意两个语句之间的节点连接图;
获取单元,用于获取所述节点连接图中每个语句对应的权重。
9.一种计算机设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1~5中任一所述的方法。
10.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1~5中任一所述的方法。
CN201910809353.9A 2019-08-29 2019-08-29 文本主题生成方法、装置和计算机设备 Pending CN110704608A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910809353.9A CN110704608A (zh) 2019-08-29 2019-08-29 文本主题生成方法、装置和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910809353.9A CN110704608A (zh) 2019-08-29 2019-08-29 文本主题生成方法、装置和计算机设备

Publications (1)

Publication Number Publication Date
CN110704608A true CN110704608A (zh) 2020-01-17

Family

ID=69193876

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910809353.9A Pending CN110704608A (zh) 2019-08-29 2019-08-29 文本主题生成方法、装置和计算机设备

Country Status (1)

Country Link
CN (1) CN110704608A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112632973A (zh) * 2020-12-31 2021-04-09 中国农业银行股份有限公司 一种文本处理的方法、装置、设备及存储介质
CN112836016A (zh) * 2021-02-05 2021-05-25 北京字跳网络技术有限公司 会议纪要生成方法、装置、设备和存储介质
CN113673215A (zh) * 2021-07-13 2021-11-19 北京搜狗科技发展有限公司 文本的摘要生成方法、装置、电子设备及可读介质
CN115174285A (zh) * 2022-07-26 2022-10-11 中国工商银行股份有限公司 会议记录生成方法、装置及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104156452A (zh) * 2014-08-18 2014-11-19 中国人民解放军国防科学技术大学 一种网页文本摘要生成方法和装置
CN104298709A (zh) * 2014-09-05 2015-01-21 上海中和软件有限公司 基于句间关联图的文本主题挖掘方法
CN106897267A (zh) * 2017-02-27 2017-06-27 广州阿里巴巴文学信息技术有限公司 文章缩略文意生成方法、装置及服务器
US20170228369A1 (en) * 2016-02-09 2017-08-10 Yandex Europe Ag Method of and system for processing a text

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104156452A (zh) * 2014-08-18 2014-11-19 中国人民解放军国防科学技术大学 一种网页文本摘要生成方法和装置
CN104298709A (zh) * 2014-09-05 2015-01-21 上海中和软件有限公司 基于句间关联图的文本主题挖掘方法
US20170228369A1 (en) * 2016-02-09 2017-08-10 Yandex Europe Ag Method of and system for processing a text
CN106897267A (zh) * 2017-02-27 2017-06-27 广州阿里巴巴文学信息技术有限公司 文章缩略文意生成方法、装置及服务器

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112632973A (zh) * 2020-12-31 2021-04-09 中国农业银行股份有限公司 一种文本处理的方法、装置、设备及存储介质
CN112836016A (zh) * 2021-02-05 2021-05-25 北京字跳网络技术有限公司 会议纪要生成方法、装置、设备和存储介质
CN113673215A (zh) * 2021-07-13 2021-11-19 北京搜狗科技发展有限公司 文本的摘要生成方法、装置、电子设备及可读介质
CN115174285A (zh) * 2022-07-26 2022-10-11 中国工商银行股份有限公司 会议记录生成方法、装置及电子设备
CN115174285B (zh) * 2022-07-26 2024-02-27 中国工商银行股份有限公司 会议记录生成方法、装置及电子设备

Similar Documents

Publication Publication Date Title
CN110704608A (zh) 文本主题生成方法、装置和计算机设备
CN108108342B (zh) 结构化文本的生成方法、检索方法及装置
CN110276023B (zh) Poi变迁事件发现方法、装置、计算设备和介质
WO2010119615A1 (ja) 学習データ生成装置、及び固有表現抽出システム
CN109408826A (zh) 一种文本信息提取方法、装置、服务器及存储介质
CN107301248B (zh) 文本的词向量构建方法和装置、计算机设备、存储介质
US20160188569A1 (en) Generating a Table of Contents for Unformatted Text
CN110377750B (zh) 评论生成及评论生成模型训练方法、装置及存储介质
CN107861948B (zh) 一种标签提取方法、装置、设备和介质
CN109271641A (zh) 一种文本相似度计算方法、装置及电子设备
CN110941951B (zh) 文本相似度计算方法、装置、介质及电子设备
CN112784009B (zh) 一种主题词挖掘方法、装置、电子设备及存储介质
CN113434636A (zh) 基于语义的近似文本搜索方法、装置、计算机设备及介质
CN110874532A (zh) 提取反馈信息的关键词的方法和装置
CN111738009B (zh) 实体词标签生成方法、装置、计算机设备和可读存储介质
CN115392235A (zh) 字符匹配方法、装置、电子设备及可读存储介质
CN116681083A (zh) 文本数据涉敏检测方法、装置、设备及介质
US20220139386A1 (en) System and method for chinese punctuation restoration using sub-character information
CN104536947A (zh) 版式文档的处理方法及装置
JP2011221978A (ja) 名前付き要素マーク付け装置、名前付き要素マーク付け方法及びそのコンピュータ読出可能な媒体
CN110674286A (zh) 一种文本摘要抽取方法、装置及存储设备
CN113127776A (zh) 面包屑路径生成方法、装置及终端设备
CN107729347B (zh) 同义标签的获取方法、装置、设备及计算机可读存储介质
CN112926314A (zh) 文档的重复性识别方法、装置、电子设备以及存储介质
CN114417862A (zh) 文本匹配方法、文本匹配模型的训练方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination