CN109522402A - 一种基于电力行业特征关键词的摘要提取方法及存储介质 - Google Patents
一种基于电力行业特征关键词的摘要提取方法及存储介质 Download PDFInfo
- Publication number
- CN109522402A CN109522402A CN201811231268.0A CN201811231268A CN109522402A CN 109522402 A CN109522402 A CN 109522402A CN 201811231268 A CN201811231268 A CN 201811231268A CN 109522402 A CN109522402 A CN 109522402A
- Authority
- CN
- China
- Prior art keywords
- industry
- text
- paragraph
- keywords
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 29
- 230000011218 segmentation Effects 0.000 claims abstract description 11
- 230000003203 everyday effect Effects 0.000 claims description 61
- 238000004590 computer program Methods 0.000 claims description 16
- 238000010276 construction Methods 0.000 claims description 16
- 238000001914 filtration Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000000034 method Methods 0.000 abstract description 26
- 230000008569 process Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 3
- 238000013139 quantization Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000002354 daily effect Effects 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 206010052428 Wound Diseases 0.000 description 1
- 208000027418 Wounds and injury Diseases 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000003205 muscle Anatomy 0.000 description 1
- 238000011017 operating method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于电力行业特征关键词的摘要提取方法及存储介质,其中方法包括如下步骤:获取行业词库、文本内容,行业词库包括行业关键词以及与行业关键词相对应的权重系数,对文本内容进行分段,依据行业关键词在分段后的段落中的出现次数及相对应的权重系数对文本内容的段落进行打分,并根据段落的分值为各个段落进行排序,选取摘要内容,通过采用基于电力行业特征关键词的摘要提取方法,依靠包括行业关键词以及与行业关键词相对应的权重系数,在文本内容分段后对各个段落的文本内关键词进行打分,并依靠分值为段落进行排序并确定摘要内容,实现摘要的自动提取,解决了固定岗位人工阅读识别效率低下的问题。
Description
技术领域
本发明涉及关键词摘要提取方法领域,特别涉及一种基于电力行业特征关键词的摘要提取方法。
背景技术
办公外部收文办理是由办公室文书收取上级外部单位指派办理的公文,通常上级外部单位的公文同时指派下发到多个央企单位和政府部门,涉及内容较为广泛,与本公司相关的重点内容只是其中某个段落。办公室文书的工作职责是每天及时收取外部公文进行内容详细阅读,从大量的公文内容中识别出与本单位相关的工作重点内容摘要和承办任务项,进一步转发给相关承办业务部门或者业务负责人进行办理,是一项办公业务中常见的工作内容。
传统的外部收文办理一般由办公室文书人工判断来完成,根据个人的工作经验,每天需花费大量的时间精力进行大量公文内容的阅读,由于该岗位相对于固定,在人员工作任务繁重时难以轮岗替代,且上级外部单位指派的任务通常较为紧急,容易出现效率底下导致工作延误,影响了领导决策和任务下发办理的及时性。
发明内容
为此,需要提供一种基于电力行业特征关键词的摘要提取方法,以解决人工进行摘要提取时容易出现效率底下导致工作延误的问题。
为实现上述目的,发明人提供了一种基于电力行业特征关键词的摘要提取方法,包括如下步骤:获取行业词库、文本内容;
所述行业词库包括行业关键词以及与行业关键词相对应的权重系数;
对文本内容进行分段,依据行业关键词在分段后的段落中的出现次数或相对应的权重系数对文本内容的段落进行打分,并根据段落的分值为各个段落进行排序,选取摘要内容。
进一步地,还包括行业词库构建步骤,所述行业词库构建步骤包括:
对电力行业相关的摘要文本进行输入;
对电力行业相关的摘要文本中出现的常用词进行提取;
对提取出的常用词添加对应的权重系数,其中,常用词作为行业词库的行业关键词,常用词对应的权重系数作为行业词库内行业关键词相对应的权重系数。
进一步地,行业词库构建步骤的电力行业相关的摘要文本进行输入之后还包括过滤步骤,对摘要文本中提取的常用词进行过滤。
进一步地,权重系数的计算方法包括常用词在输入文本中出现的频率。
为实现上述目的,发明人还提供了一种电力行业特征关键词的摘要提取存储介质,存储有计算机程序,所述计算机程序在被运行时执行步骤:获取行业词库、文本内容;
所述行业词库包括行业关键词以及与行业关键词相对应的权重系数;
对文本内容进行分段,依据行业关键词在分段后的段落中的出现次数或相对应的权重系数对文本内容的段落进行打分,并根据段落的分值为各个段落进行排序,选取摘要内容。
进一步地,所述计算机程序在被运行时还执行包括行业词库构建步骤,所述行业词库构建步骤包括:
对电力行业相关摘要文本进行输入;
对电力行业相关摘要文本中出现的常用词进行提取;
对提取出的常用词添加对应的权重系数,其中,常用词作为行业词库的行业关键词,常用词对应的权重系数作为行业词库内行业关键词相对应的权重系数。
进一步地,所述计算机程序在被运行时还执行过滤步骤,过滤步骤位于行业词库构建步骤的电力行业相关的摘要文本进行输入之后,对电力行业相关摘要文本中提取的常用词进行过滤。
进一步地,权重系数的计算方法包括常用词在输入文本中出现的频率。
区别于现有技术,上述技术方案具有如下优点:通过采用基于电力行业特征关键词的摘要提取方法,依靠包括行业关键词以及与行业关键词相对应的权重系数,在文本内容分段后对各个段落的文本内关键词进行打分,并依靠分值为段落进行排序并确定摘要内容,实现摘要的自动提取,解决了固定岗位人工阅读识别效率低下的问题。
附图说明
图1为本发明实施例中基于电力行业特征关键词的摘要提取方法流程图。
具体实施方式
为详细说明技术方案的技术内容、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。
请参阅图1,本实施例公开了一种基于电力行业特征关键词的摘要提取方法,包括如下步骤:
S106获取行业词库、文本内容;
S107对文本内容进行分段;
S108依据行业关键词在分段后的段落中的出现次数及相对应的权重系数对文本内容的段落进行打分;
S109根据段落的分值为各个段落进行排序;
S110选取摘要内容。
其中行业词库包括行业关键词以及与行业关键词相对应的权重系数。
在本实施例中,行业关键词为预先储存的,行业关键词相对应的权重系数的数值为预设值。
本发明的段落特征可采用检测段落前的自动缩进的方法实现段落的分段,也可采用检测前一段段落末尾换行符的方法实现对文本内容的分段。
具体的摘要提取方法可以为:
1)将待提取摘要的文本输入,识别待提取摘要的文本内文字、标点符号以及段落特征。
2)依照待提取摘要的文本的段落特征,将文本分成各个段落待打分的段落。
3)将各个段落内的文字与行业词库内的行业关键词进行比对,采集段落内出现的行业关键词及行业关键词相对应的权重系数,对各个段落进行计算打分。
4)依据各个段落所得到的分值对各个段落进行分值由高到低的排序。
5)将分值最高的段落作为摘要内容。
在一些简化了的实施例中,文本内容被分为三个段落D1、D2、D3,段落D1包含行业关键词X1和X2,段落D2包含行业关键词X2和X3,段落D3包含行业关键词X3和X4。
在本例中,段落D1的关键词X1和X2的出现次数为3次和2次,段落D2的关键词X2和X3出现次数均为2次,段落D3的关键词X3和X4出现的次数为3次和4次,已知关键词X1、X2、X3、X4在行业词库内的权重系数分别为0.3、0.5、0.9和0.7。则各个段落的分值计算过程如下:
D1的分值S1=3*0.3+2*0.5=1.9;
D2的分值S2=2*0.5+2*0.9=2.8;
D3的分值S3=3*0.9+4*0.7=5.5。
根据上述计算过程,得出段落D1、D2、D3按照分值的排序顺序为D3、D2、D1,最终将排序顺序位于最前的D3作为摘要文本。
具体的摘要提取方法还可以为:
1)将待提取摘要的文本输入,识别待提取摘要的文本内文字、标点符号以及段落特征。
2)依照待提取摘要的文本的段落特征,将文本分成各个段落待打分的段落。
3)将各个段落内的文字与行业词库内的行业关键词进行比对,采集段落内出现的行业关键词及行业关键词相对应的权重系数,对各个段落进行计算打分。
4)依据各个段落所得到的分值对各个段落进行分值由高到低的排序。
5)将行业关键词相对应的权重系数中排名前三中随机采用任一段落作为摘要内容。
在一些简化了的实施例中,文本内容被分为四个段落D1、D2、D3、D4,段落D1包含行业关键词X1和X2,段落D2包含行业关键词X2和X3,段落D3包含行业关键词X3和X4,段落D4包含行业关键词X1和X3。
在本例中,段落D1的关键词X1和X2的出现次数为3次和2次,段落D2的关键词X2和X3出现次数均为2次,段落D3的关键词X3和X4出现的次数为3次和4次,段落D4的关键词X1和X3出现的次数为2次和1次,已知关键词X1、X2、X3、X4在行业词库内的权重系数分别为0.3、0.5、0.9和0.7。则各个段落的分值计算过程如下:
D1的分值S1=3*0.3+2*0.5=1.9;
D2的分值S2=2*0.5+2*0.9=2.8;
D3的分值S3=3*0.9+4*0.7=5.5;
D4的分值S4=2*0.3+1*0.9=1.5。
根据上述计算过程,得出段落D1、D2、D3和D4按照分值的排序顺序为D3、D2、D1、D4,最终将排序顺序位于前三的D3、D2、D1中随机抽取一段作为摘要文本。
综上,本发明通过采用基于电力行业特征关键词的摘要提取方法,在文本内容分段后各个段落与行业词库的关键词进行比对,并依靠预设的权重系数对各个段落分值的计算,通过分值对各段文本的电力行业关联性进行量化,依靠量化后的电力行业关联性为段落进行排序,并确定摘要内容,实现摘要的自动提取,解决了固定岗位人工阅读识别效率低下的问题。
请参阅图1,在上述实施例中,还包括基于电力行业特征关键词的摘要提取方法,包括如下步骤:
S101电力行业相关摘要文本进行输入;
S102电力行业相关摘要分别中常用词进行提取;
S104对常用词添加权重系数;
S105常用词作为行业词库的行业关键词,常用词对应的权重系数作为行业词库内行业关键词相对应的权重系数。
综上,通过对电力行业相关摘要的文本进行输入,并对该相关摘要文本进行常用词的提取和过滤,构建可直接对文本内容进行处理的电力行业词库,便于对待处理文本内的关键词进行自动比对,并通过对常用词添加权重系数,对待提取文本的关键词量化提供了自动运算的基础。
请参阅图1,在上述实施例中,还包括对常用词进行过滤S103,通过增加对常用词进行过滤的步骤,可去除停用词和非行业特征的词语,提高词库的相对电力行业的关联度,并提高了待提取文本关键词量化的精确度。
优选地,本发明的关键词行业权重系数可采用如下算法:关键词行业权重系数W包括:行业常用词A的出现次数n,公式为Wi=Ai*ni,i=1,2,3…,n。
在一些简化了的实施例中,对电力行业相关的摘要文本进行输入,在输入的摘要文本中包括电力行业相关常用词A1、A2、A3,若行业常用词A1、A2、A3在输入的摘要文本中出现的次数分别为2、3、4次,则权重系数W的计算过程如下:
W1=A1*2=2;
W2=A2*3=3;
W3=A3*4=4。
根据上述计算过程,得出电力行业相关常用词A1、A2、A3的权重系数分别为2、3、4,并将电力行业相关常用词A1、A2、A3作为行业词库的行业关键词,电力行业相关常用词的权重系数作为行业词库内行业关键词相对应的权重系数。
综上,通过采用频率作为行业词库内电力行业相关常用词的权重系数,实现了通过权重系数对行业词库内电力行业相关常用词的关联度量化,便于后续的输入文本与行业词库内预存的常用词进行比对并常用词权重系数进行关联度量化。
优选地,本发明的关键词行业权重系数可采用如下算法:
设定现有摘要文本总数为m份,第i份摘要文本词语总数为a(i),其中常用词K在i份摘要文本中出现b(i)次,则K在该摘要文本中词频为b(i)/a(i),在总数为m份的摘要文本中总词频率tf(i)=b(1)/a(1)+b(2)/a(2)+…+b(m)/a(m)。第i份摘要文本中是否出现常用词K的变量记为c(i),则文档频率df(i)=(c(1)+c(2)+…c(m))/m。常用词K的权重系数记为kf=tf(i)*1/df(i)。其中常用词K作为行业关键词,常用词K的权重系数作为行业关键词相对应的权重系数。
在一些简化了的实施例中,对电力行业相关的摘要文本进行输入,摘要文本的总数为3份。
第1份摘要文本的词语总数a(1)=60,电力行业相关常用词“供电公司”在第1份摘要文本中出现次数b(1)=3,则常用词“供电公司”在第1份摘要文本中的词频为b(1)/a(1)=3/60=1/20;
第2份摘要文本的词语总数a(2)=40,电力行业相关常用词“供电公司”在第2份摘要文本中出现次数b(2)=4,则常用词“供电公司”在第2份摘要文本中的词频为b(2)/a(2)=4/40=1/10;
第3份摘要文本的词语总数a(3)=40,电力行业相关常用词“供电公司”在第3份摘要文本中出现次数b(3)=8,则常用词“供电公司”在第3份摘要文本中的词频为b(3)/a(3)=8/40=1/5;
则在总数为3份的摘要文本中总词频率tf=b(1)/a(1)+b(2)/a(2)+b(3)/a(3)=3/60+4/40+8/40=7/20;
上述3份摘要文本均出现常用词“供电公司”,则文档频率df=(1+1+1)/3=1;
则常用词“供电公司”的权重系数kf=tf*1/df=7/20*1/1=0.35;
将常用词“供电公司”作为行业词库的行业关键词,常用词“供电公司”对应的权重系数0.35作为行业关键词“供电公司”相对应的权重系数。
综上,通过采集词频率以及文档频率,采集常用词在所有摘要文本中的词频及文档频率两个样本,实现了通过权重系数对行业词库内电力行业相关常用词的关联度量化,便于后续的输入文本与行业词库内预存的常用词进行比对并常用词权重系数进行关联度量化。
本发明还可以是一种电力行业特征关键词的摘要提取介质,介质存储有计算机程序,所述计算机程序在被运行时执行步骤:获取行业词库、文本内容;
所述行业词库包括行业关键词以及与行业关键词相对应的权重系数;
对文本内容进行分段,依据行业关键词相对应的权重系数对文本内容的段落进行打分,并根据段落的分值为各个段落进行排序,选取摘要内容。
进一步地,计算机程序在被运行时还执行包括行业词库构建步骤,所述行业词库构建步骤包括:
对电力行业相关摘要文本进行输入;
对电力行业相关摘要文本中出现的常用词进行提取;
对提取出的常用词添加对应的权重系数,其中,常用词作为行业词库的行业关键词,常用词对应的权重系数作为行业词库内行业关键词相对应的权重系数。
进一步地,所述计算机程序在被运行时还执行过滤步骤,过滤步骤位于行业词库构建步骤的电力行业相关的摘要文本进行输入之后,对电力行业相关摘要文本中提取的常用词进行过滤。
进一步地,权重系数的计算方法包括常用词在输入文本中出现的频率。
本发明电力行业特征关键词的摘要提取介质通过采用基于电力行业特征关键词的摘要提取方法,依靠包括行业关键词以及与行业关键词相对应的权重系数,在文本内容分段后对各个段落的文本内关键词进行打分,并依靠分值为段落进行排序并确定摘要内容,实现摘要的自动提取,解决了固定岗位人工阅读识别效率低下的问题。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括……”或“包含……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的要素。此外,在本文中,“大于”、“小于”、“超过”等理解为不包括本数;“以上”、“以下”、“以内”等理解为包括本数。
本领域内的技术人员应明白,上述各实施例可提供为方法、装置、或计算机程序产品。这些实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。上述各实施例涉及的方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机设备可读取的存储介质中,用于执行上述各实施例方法所述的全部或部分步骤。所述计算机设备,包括但不限于:个人计算机、服务器、通用计算机、专用计算机、网络设备、嵌入式设备、可编程设备、智能移动终端、智能家居设备、穿戴式智能设备、车载智能设备等;所述的存储介质,包括但不限于:RAM、ROM、磁碟、磁带、光盘、闪存、U盘、移动硬盘、存储卡、记忆棒、网络服务器存储、网络云存储等。
上述各实施例是参照根据实施例所述的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到计算机设备的处理器以产生一个机器,使得通过计算机设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机设备以特定方式工作的计算机设备可读存储器中,使得存储在该计算机设备可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机设备上,使得在计算机设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已经对上述各实施例进行了描述,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改,所以以上所述仅为本发明的实施例,并非因此限制本发明的专利保护范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围之内。
Claims (8)
1.一种基于电力行业特征关键词的摘要提取方法,其特征在于,包括如下步骤:获取行业词库、文本内容;
所述行业词库包括行业关键词以及与行业关键词相对应的权重系数;
对文本内容进行分段,依据行业关键词在分段后的段落中的出现次数或相对应的权重系数对文本内容的段落进行打分,并根据段落的分值为各个段落进行排序,选取摘要内容。
2.根据权利要求1所述的基于电力行业特征关键词的摘要提取方法,其特征在于,还包括行业词库构建步骤,所述行业词库构建步骤包括:
对电力行业相关的摘要文本进行输入;
对电力行业相关的摘要文本中出现的常用词进行提取;
对提取出的常用词添加对应的权重系数,其中,常用词作为行业词库的行业关键词,常用词对应的权重系数作为行业词库内行业关键词相对应的权重系数。
3.根据权利要求2所述的基于电力行业特征关键词的摘要提取方法,其特征在于,行业词库构建步骤的电力行业相关的摘要文本进行输入之后还包括过滤步骤,对摘要文本中提取的常用词进行过滤。
4.根据权利要求2所述的基于电力行业特征关键词的摘要提取方法,其特征在于,权重系数的计算方法包括常用词在输入文本中出现的频率。
5.一种电力行业特征关键词的摘要提取存储介质,其特征在于,存储有计算机程序,所述计算机程序在被运行时执行步骤:获取行业词库、文本内容;
所述行业词库包括行业关键词以及与行业关键词相对应的权重系数;
对文本内容进行分段,依据行业关键词在分段后的段落中的出现次数或相对应的权重系数对文本内容的段落进行打分,并根据段落的分值为各个段落进行排序,选取摘要内容。
6.根据权利要求5所述的电力行业特征关键词的摘要提取存储介质,其特征在于,所述计算机程序在被运行时还执行包括行业词库构建步骤,所述行业词库构建步骤包括:
对电力行业相关摘要文本进行输入;
对电力行业相关摘要文本中出现的常用词进行提取;
对提取出的常用词添加对应的权重系数,其中,常用词作为行业词库的行业关键词,常用词对应的权重系数作为行业词库内行业关键词相对应的权重系数。
7.根据权利要求6所述的电力行业特征关键词的摘要提取存储介质,其特征在于,所述计算机程序在被运行时还执行过滤步骤,过滤步骤位于行业词库构建步骤的电力行业相关的摘要文本进行输入之后,对电力行业相关摘要文本中提取的常用词进行过滤。
8.根据权利要求6所述的电力行业特征关键词的摘要提取存储介质,其特征在于,权重系数的计算方法包括常用词在输入文本中出现的频率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811231268.0A CN109522402A (zh) | 2018-10-22 | 2018-10-22 | 一种基于电力行业特征关键词的摘要提取方法及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811231268.0A CN109522402A (zh) | 2018-10-22 | 2018-10-22 | 一种基于电力行业特征关键词的摘要提取方法及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109522402A true CN109522402A (zh) | 2019-03-26 |
Family
ID=65772931
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811231268.0A Pending CN109522402A (zh) | 2018-10-22 | 2018-10-22 | 一种基于电力行业特征关键词的摘要提取方法及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109522402A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111400457A (zh) * | 2020-04-15 | 2020-07-10 | Oppo广东移动通信有限公司 | 一种文本查询方法、装置及终端设备 |
CN112183077A (zh) * | 2020-10-13 | 2021-01-05 | 京华信息科技股份有限公司 | 一种基于模式识别的公文摘要抽取方法及系统 |
CN112685534A (zh) * | 2020-12-23 | 2021-04-20 | 上海掌门科技有限公司 | 在创作过程中生成已创作内容的脉络信息的方法与设备 |
CN113204956A (zh) * | 2021-07-06 | 2021-08-03 | 深圳市北科瑞声科技股份有限公司 | 多模型训练方法、摘要分段方法、文本分段方法及装置 |
CN113435193A (zh) * | 2021-06-16 | 2021-09-24 | 深圳市世强元件网络有限公司 | 一种落地页面关键词投放方法、装置及计算机设备 |
CN114328900A (zh) * | 2022-03-14 | 2022-04-12 | 深圳格隆汇信息科技有限公司 | 一种基于关键词的资讯摘要提取方法 |
CN117708434A (zh) * | 2024-01-09 | 2024-03-15 | 青岛睿哲信息技术有限公司 | 一种基于关键词的用户推荐浏览内容生成方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070118518A1 (en) * | 2005-11-18 | 2007-05-24 | The Boeing Company | Text summarization method and apparatus using a multidimensional subspace |
CN101075260A (zh) * | 2007-06-28 | 2007-11-21 | 腾讯科技(深圳)有限公司 | 摘要提取方法以及摘要提取模块 |
CN104035969A (zh) * | 2014-05-20 | 2014-09-10 | 微梦创科网络科技(中国)有限公司 | 社交网络中的特征词库构建方法和系统 |
CN104361081A (zh) * | 2014-11-13 | 2015-02-18 | 河海大学 | 一种基于web文档的自动摘要方法 |
-
2018
- 2018-10-22 CN CN201811231268.0A patent/CN109522402A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070118518A1 (en) * | 2005-11-18 | 2007-05-24 | The Boeing Company | Text summarization method and apparatus using a multidimensional subspace |
CN101075260A (zh) * | 2007-06-28 | 2007-11-21 | 腾讯科技(深圳)有限公司 | 摘要提取方法以及摘要提取模块 |
CN104035969A (zh) * | 2014-05-20 | 2014-09-10 | 微梦创科网络科技(中国)有限公司 | 社交网络中的特征词库构建方法和系统 |
CN104361081A (zh) * | 2014-11-13 | 2015-02-18 | 河海大学 | 一种基于web文档的自动摘要方法 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111400457A (zh) * | 2020-04-15 | 2020-07-10 | Oppo广东移动通信有限公司 | 一种文本查询方法、装置及终端设备 |
CN112183077A (zh) * | 2020-10-13 | 2021-01-05 | 京华信息科技股份有限公司 | 一种基于模式识别的公文摘要抽取方法及系统 |
CN112685534A (zh) * | 2020-12-23 | 2021-04-20 | 上海掌门科技有限公司 | 在创作过程中生成已创作内容的脉络信息的方法与设备 |
CN113435193A (zh) * | 2021-06-16 | 2021-09-24 | 深圳市世强元件网络有限公司 | 一种落地页面关键词投放方法、装置及计算机设备 |
CN113204956A (zh) * | 2021-07-06 | 2021-08-03 | 深圳市北科瑞声科技股份有限公司 | 多模型训练方法、摘要分段方法、文本分段方法及装置 |
CN114328900A (zh) * | 2022-03-14 | 2022-04-12 | 深圳格隆汇信息科技有限公司 | 一种基于关键词的资讯摘要提取方法 |
CN117708434A (zh) * | 2024-01-09 | 2024-03-15 | 青岛睿哲信息技术有限公司 | 一种基于关键词的用户推荐浏览内容生成方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109522402A (zh) | 一种基于电力行业特征关键词的摘要提取方法及存储介质 | |
CN101067808B (zh) | 文本关键词的提取方法 | |
CN108520002A (zh) | 数据处理方法、服务器及计算机存储介质 | |
CN111797210A (zh) | 基于用户画像的信息推荐方法、装置、设备及存储介质 | |
CN102156711B (zh) | 一种基于云存储的电力全文检索方法及系统 | |
CN108573045A (zh) | 一种基于多阶指纹的比对矩阵相似度检索方法 | |
CN104392006B (zh) | 一种事件查询处理方法及装置 | |
CN109710947A (zh) | 电力专业词库生成方法及装置 | |
CN110633330A (zh) | 事件发现方法、装置、设备及存储介质 | |
CN106909554B (zh) | 一种数据库文本表数据的加载方法及装置 | |
CN106055621A (zh) | 一种日志检索方法及装置 | |
CN103279478A (zh) | 一种基于分布式互信息文档特征提取方法 | |
CN102929906A (zh) | 基于内容特征和主题特征的文本分组聚类方法 | |
CN102789452A (zh) | 类似内容提取方法 | |
CN102156712A (zh) | 一种基于云存储的电力信息检索方法及系统 | |
CN106649308B (zh) | 一种分词词库更新方法及系统 | |
CN103714120B (zh) | 一种从用户url访问记录中提取用户兴趣话题的系统 | |
CN106407226B (zh) | 一种数据处理方法、备份服务器及存储系统 | |
CN101872363B (zh) | 一种抽取关键词的方法 | |
CN105138643A (zh) | 专利检索系统及其检索方法 | |
CN106250456A (zh) | 一种中标公告的抽取方法及装置 | |
CN115688788A (zh) | 用于审计领域的命名实体识别模型的训练方法及相关设备 | |
CN106777191B (zh) | 一种基于搜索引擎的检索模式生成方法及装置 | |
CN103164491A (zh) | 一种数据处理和检索的方法及设备 | |
KR102041915B1 (ko) | 인공지능을 활용한 데이터베이스 모듈 및 이를 이용하는 경제데이터 제공 시스템 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190326 |
|
WD01 | Invention patent application deemed withdrawn after publication |