CN110765767A - 局部优化关键词的提取方法、装置、服务器及存储介质 - Google Patents
局部优化关键词的提取方法、装置、服务器及存储介质 Download PDFInfo
- Publication number
- CN110765767A CN110765767A CN201910884825.7A CN201910884825A CN110765767A CN 110765767 A CN110765767 A CN 110765767A CN 201910884825 A CN201910884825 A CN 201910884825A CN 110765767 A CN110765767 A CN 110765767A
- Authority
- CN
- China
- Prior art keywords
- participle
- speech
- target
- text
- processed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000005457 optimization Methods 0.000 title claims abstract description 52
- 238000000605 extraction Methods 0.000 title claims description 14
- 230000011218 segmentation Effects 0.000 claims abstract description 169
- 238000000034 method Methods 0.000 claims abstract description 44
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000012163 sequencing technique Methods 0.000 claims description 7
- 238000011002 quantification Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及大数据技术领域,公开了一种局部优化关键词的提取方法,包括:接收待处理文本,识别待处理文本的标题、首段和尾段中的字符;基于预置中文分词系统,获取标题、首段和尾端中的目标分词,更新目标分词的词性为关键词词性;通过中文分词系统中的词性分数对照表,将各个目标分词对应的权重参数记录在预置哈希表中;遍历待处理文本,获取所述目标分词的关联分词以及所述关联分词的词性,并将所述关联分词的权重参数记录在哈希表中;提取分数总值前五的目标分词和/或关联分词为所述待处理文本的关键词。本发明还公开了一种装置、服务器及存储介质。根据中心思想中的目标分词减小了误差,提高了文本关键词的准确性。
Description
技术领域
本发明涉及大数据技术领域,尤其涉及一种局部优化关键词的提取方法、装置、服务器及计算机可读存储介质。
背景技术
在自然语言处理研究中,关键词代表着文本的中心思想,对文本检索及文本分类等工作发挥着重大作用,因此关键词提取技术受到大量学者重视。由于传统基于统计特征的关键词方法,过分关注于分词的属性,如词性、词频、位置,忽略了文章的整体中心思想。当前,大多数关键词提取算法均在传统统计特征算法上加入了分词的关联关系等特性,从而得到最终关键词。其中不少国内外学者基于tf-idf的加权词频来过滤大量出现在语料库中的分词,但其严重依赖于语料库数量,有可能将分词重要性偏离其正常值。基于复杂网络的关键词提取方法虽然考虑了分词关联度,但其过分关注“小世界”特性,忽略了“大世界”影响力及文本内容层次的中心思想,从而导致关键词提取准确度较低。
发明内容
本发明的主要目的在于提供一种局部优化关键词的提取方法,旨在解决现有技术仅基于统计特征的关键词方法,过分关注于分词的属性,如词性、词频、位置,忽略了文章的整体中心思想,从而导致关键词不准确的技术问题。
为实现上述目的,本发明提供一种局部优化关键词的提取方法,所述局部优化关键词的提取方法包括:
接收待处理文本,识别所述待处理文本的标题、首段和尾段中的字符;
基于预置中文分词系统,对所述标题、首段和尾端中的字符进行切分,并获取所述标题、首段和尾端的分词集合,更新所述分词集合中的目标分词的词性为关键词词性;
通过所述中文分词系统中的词性分数对照表,将各个所述目标分词对应的权重参数记录在预置哈希表中,其中,权重参数为词性分值和词频;
遍历所述待处理文本,获取所述目标分词的关联分词以及所述关联分词的词性,并将所述关联分词的权重参数记录在哈希表中;
根据所述目标分词的关键词词性、各个关联分词的词性在所述哈希表中的权重参数,提取分数总值前五的目标分词和/或关联分词为所述待处理文本的关键词。
可选的,所述接收待处理文本,识别所述待处理文本的标题、首段和尾段中的字符,包括:
接收待处理文本,获取所述待处理文本中空格字符的位置以及空格字符的数量N,其中,所述空格字符的数量N大于3;
将第一空格字符位置与第二空格字符位置之间的字符作为所述待处理文本的标题,将所述第二空格字符位置与所述第三空格位置之间的字符作为所述待处理文本的首段,将N-(N-1)空格字符位置与N空格字符位置之间作为所述待处理文本的尾端;
调取预置字符识别程序,识别所述标题、首段和尾段中的字符。
可选的,所述基于预置中文分词系统,对所述标题、首段和尾端中的字符进行切分,并获取所述标题、首段和尾端的分词集合,更新所述分词集合中的目标分词的词性为关键词词性,包括:
在识别到所述标题、首段和尾段中的字符时,启动预置中文分词系统对所述标题、首段和尾段中的字符按照名词、动词、形容词、介词、标点、量词、新词的词性进行划分;
获取词性为所述名词、动词、形容词、介词、标点、量词、新词的字符在所述中文分词系统中的词性分数对照表中词性分数,将所述词性分数大于0的字符确定为目标分词;
将所述目标分词进行分词集合,标识所述分词集合中目标分词的词性为关键词词性。
可选的,所述通过所述中文分词系统中的词性分数对照表,将各个所述目标分词对应的权重参数记录在预置哈希表中,其中,权重参数为词性分值和词频,包括:
调取预置中文分词系统中的词性分数对照表,获取所述关键词词性在所述词性分数对照表中对应的分数值;
分别将所述目标分词作为搜索条件,索引各个所述目标分词在所述标题、所述首段和所述尾端中的词频,并将各个所述目标分词的分数值以及词频记录在哈希表中。
可选的,所述遍历所述待处理文本,获取所述目标分词的关联分词以及所述关联分词的词性,并将所述关联分词的权重参数记录在哈希表中,包括:
通过所述预置字符识程序遍历所述待处理文本,识别所述待处理文本中的字符,所述预置中文分词系统将所述待处理文本中的字符切分为多个分词;
提取所述待处理文本中的第一分词,判断所述第一分词是否为所述分词集合中的目标分词;
当所述第一分词为所述分词集合中的目标分词时,判定所述第一分词的前面的第二分词和后面的第三分词为所述目标分词的关联分词,并获取所述关联分词的词性以及词频;
通过比对所述中文分词系统中的词性分数对照表,获取到所述关联分词对应的词性分值,并将所述关联分词的词性分值和词频记录在所述哈希表中。
可选的,所述提取所述待处理文本中的第一分词,判断所述第一分词是否为所述分词集合中的目标分词之后,还包括:
当所述第一分词不是所述分词集合中的目标分词时,判断所述第一分词是否为所述目标分词的关联分词;
当判定所述第一分词为所述目标分词的关联分词时,将所述第一分词的词性和词频记录在所述哈希表中。
可选的,所述根据所述目标分词的关键词词性、各个关联分词的词性在所述哈希表中的权重参数,提取分数总值前五的目标分词和/或关联分词为所述待处理文本的关键词,包括:
获取预置计算规则,计算出所述哈希表中各个所述目标分词和所述关联分词的总分值,其中,总分值为词频乘以词性分值;
通过对所述哈希表中的总分值按照从大到小或从小到大进行排序,提取所述总分值前五的目标分词和/或关联分词,并将提取到的所述总分值前五的目标分词和/或关联分词为所述待处理文本的关键词。
此外,为实现上述目的,本发明还提供一种局部优化关键词的提取方法装置,所述局部优化关键词的提取方法装置包括:
识别单元,用于接收待处理文本,识别所述待处理文本的标题、首段和尾段中的字符;
更新单元,用于基于预置中文分词系统,对所述标题、首段和尾端中的字符进行切分,并获取所述标题、首段和尾端的分词集合,更新所述分词集合中的目标分词的词性为关键词词性;
第一记录单元,用于通过所述中文分词系统中的词性分数对照表,将各个所述目标分词对应的权重参数记录在预置哈希表中,其中,权重参数为词性分值和词频;
第二记录单元,用于遍历所述待处理文本,获取所述目标分词的关联分词以及所述关联分词的词性,并将所述关联分词的权重参数记录在哈希表中;
提取单元,用于根据所述目标分词的关键词词性、各个关联分词的词性在所述哈希表中的权重参数,提取分数总值前五的目标分词和/或关联分词为所述待处理文本的关键词。
可选的,所述识别单元具体用于:
接收待处理文本,获取所述待处理文本中空格字符的位置以及空格字符的数量N,其中,所述空格字符的数量N大于3;
将第一空格字符位置与第二空格字符位置之间的字符作为所述待处理文本的标题,将所述第二空格字符位置与所述第三空格位置之间的字符作为所述待处理文本的首段,将N-(N-1)空格字符位置与N空格字符位置之间作为所述待处理文本的尾端;
调取预置字符识别程序,识别所述标题、首段和尾段中的字符。
可选的,所述更新单元具体用于:
在识别到所述标题、首段和尾段中的字符时,启动预置中文分词系统对所述标题、首段和尾段中的字符按照名词、动词、形容词、介词、标点、量词、新词的词性进行划分;
获取词性为所述名词、动词、形容词、介词、标点、量词、新词的字符在所述中文分词系统中的词性分数对照表中词性分数,将所述词性分数大于0的字符确定为目标分词;
将所述目标分词进行分词集合,标识所述分词集合中目标分词的词性为关键词词性。
可选的,所述第一记录单元具体用于:
调取预置中文分词程序中的词性分数对照表,获取所述关键词词性在所述词性分数对照表中对应的分数值;
分别将所述目标分词作为搜索条件,索引各个所述目标分词在所述标题、所述首段和所述尾端中的词频,并将各个所述目标分词的分数值以及词频记录在哈希表中。
可选的,所述第二记录单元具体用于:
识别子单元,用于通过所述预置字符识软件遍历所述待处理文本,识别所述待处理文本中的字符,所述预置中文分词系统将所述待处理文本中的字符切分为多个分词;
第一判断子单元,用于提取所述待处理文本中的第一分词,判断所述第一分词是否为所述分词集合中的目标分词;
第一判定子单元,用于当所述第一分词为所述分词集合中的目标分词时,判定所述第一分词的前面的第二分词和后面的第三分词为所述目标分词的关联分词,并获取所述关联分词的词性以及词频;
获取子单元,用于通过比对所述中文分词系统中的词性分数对照表,获取到所述关联分词对应的词性分值,并将所述关联分词的词性分值和词频记录在所述哈希表中。
可选的,所述局部优化关键词的提取方法装置,还包括:
第二判断子单元,用于当所述第一分词不是所述分词集合中的目标分词时,判断所述第一分词是否为所述目标分词的关联分词;
第二判定子单元,用于当判定所述第一分词为所述目标分词的关联分词时,将所述第一分词的词性和词频记录在所述哈希表中。
可选的,所述提取单元具体用于:
获取预置计算规则,计算出所述哈希表中各个所述目标分词和所述关联分词的总分值,其中,总分值为词频乘以词性分值;
通过对所述哈希表中的总分值按照从大到小或从小到大进行排序,提取所述总分值前五的目标分词和/或关联分词,并将提取到的所述总分值前五的目标分词和/或关联分词为所述待处理文本的关键词。
此外,为实现上述目的,本发明还提供一种服务器,所述服务器包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的局部优化关键词的提取程序,所述局部优化关键词的提取程序被所述处理器执行时实现如上发明所述的局部优化关键词的提取方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有局部优化关键词的提取程序,所述局部优化关键词的提取程序被处理器执行时实现如上发明所述的局部优化关键词的提取方法的步骤。
本发明实施例提出的一种局部优化关键词的提取方法、装置、服务器及计算机可读存储介质,接收待处理文本,识别所述待处理文本的标题、首段和尾段中的字符;基于预置中文分词系统,对所述标题、首段和尾端中的字符进行切分,并获取所述标题、首段和尾端的分词集合,更新所述分词集合中的目标分词的词性为关键词词性;通过所述中文分词系统中的词性分数对照表,将各个所述目标分词对应的权重参数记录在预置哈希表中,其中,权重参数为词性分值和词频;遍历所述待处理文本,获取所述目标分词的关联分词以及所述关联分词的词性,并将所述关联分词的权重参数记录在哈希表中;根据所述目标分词的关键词词性、各个关联分词的词性在所述哈希表中的权重参数,提取分数总值前五的目标分词和/或关联分词为所述待处理文本的关键词,实现了基于中心思想中的目标分词的词性分值、词频以及关联分词的词性分值、词频,得到总分值最高目标分词或关联分词为关键词,减小了误差,提高了文本关键词的准确性。
附图说明
图1为本发明实施例方案涉及的硬件运行环境的服务器结构示意图;
图2为本发明局部优化关键词的提取方法的第一实施例的流程示意图;
图3为图2中步骤S10的细化流程示意图;
图4为图2中步骤S20的细化流程示意图;
图5为图2中步骤S30的细化流程示意图;
图6为本发明局部优化关键词的提取方法的第二实施例的流程示意图;
图7为图2中步骤S50的细化流程示意图。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例的主要解决方案是:接收待处理文本,识别待处理文本的标题、首段和尾段中的字符;基于预置中文分词系统,对标题、首段和尾端中的字符进行切分,并获取标题、首段和尾端中的分词集合,更新分词结集合中的目标分词的词性为关键词词性;通过中文分词系统中的词性分数对照表,将各个目标分词对应的权重参数记录在预置哈希表中,其中,权重参数为词性分值和词频;遍历待处理文本,获取目标分词的关联分词以及关联分词的词性,并将关联分词的权重参数记录在哈希表中;根据目标分词的关键词词性、各个关联分词的词性在哈希表中的权重参数,提取分数总值前五的目标分词和/或关联分词为待处理文本的关键词。
由于现有技术基于统计特征的关键词方法,过分关注于分词的属性,如词性、词频、位置,忽略了文章的整体中心思想,从而导致关键词不准确的技术问题。
本发明提供一种解决方案,通过中心思想中的目标分词的词性分值、词频以及关联分词的词性分值、词频,得到总分值最高目标分词或关联分词为关键词,减小了误差,提高了文本关键词的准确性。
如图1所示,图1为本发明实施例方案涉及的硬件运行环境的服务器结构示意图。
本发明实施例终端为服务器。
如图1所示,该终端可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及局部优化关键词的提取程序。
在图1所示的终端中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的局部优化关键词的提取程序,并执行以下操作:
接收待处理文本,识别待处理文本的标题、首段和尾段中的字符;
基于预置中文分词系统,对标题、首段和尾端中的字符进行切分,并获取标题、首段和尾端的分词集合,更新分词集合中的目标分词的词性为关键词词性;
通过中文分词系统中的词性分数对照表,将各个目标分词对应的权重参数记录在预置哈希表中,其中,权重参数为词性分值和词频;
遍历待处理文本,获取目标分词的关联分词以及关联分词的词性,并将所述关联分词的权重参数记录在哈希表中;
根据目标分词的关键词词性、各个关联分词的词性在哈希表中的权重参数,提取分数总值前五的目标分词和/或关联分词为待处理文本的关键词。
进一步地,处理器1001可以调用存储器1005中存储的局部优化关键词的提取程序,还执行以下操作:
接收待处理文本,获取待处理文本中空格字符的位置以及空格字符的数量N,其中,所述空格字符的数量N大于3;
将第一空格字符位置与第二空格字符位置之间的字符作为待处理文本的标题,将第二空格字符位置与第三空格位置之间的字符作为待处理文本的首段,将N-(N-1)空格字符位置与N空格字符位置之间作为待处理文本的尾端;
调取预置字符识别程序,识别标题、首段和尾段中的字符。
进一步地,处理器1001可以调用存储器1005中存储的局部优化关键词的提取程序,还执行以下操作:
在识别到标题、首段和尾段中的字符时,启动预置中文分词系统对标题、首段和尾段中的字符按照名词、动词、形容词、介词、标点、量词、新词的词性进行划分;
获取词性为名词、动词、形容词、介词、标点、量词、新词的字符在中文分词系统中的词性分数对照表中词性分数,将词性分数大于0的字符确定为目标分词;
将目标分词进行分词集合,标识分词集合中目标分词的词性为关键词词性。
进一步地,处理器1001可以调用存储器1005中存储的局部优化关键词的提取程序,还执行以下操作:
调取预置中文分词系统中的词性分数对照表,获取关键词词性在词性分数对照表中对应的分数值;
分别将目标分词作为搜索条件,索引各个目标分词在所述标题、首段和尾端中的词频,并将各个目标分词的分数值以及词频记录在哈希表中。
进一步地,处理器1001可以调用存储器1005中存储的局部优化关键词的提取程序,还执行以下操作:
通过预置字符识别程序遍历所述待处理文本,识别待处理文本中的字符,预置中文分词系统将待处理文本中的字符切分为多个分词;
提取待处理文本中的第一分词,判断第一分词是否为所述分词集合中的目标分词;
当第一分词为分词集合中的目标分词时,判定第一分词的前面的第二分词和后面的第三分词为目标分词的关联分词,并获取关联分词的词性以及词频;
通过比对中文分词系统中的词性分数对照表,获取到关联分词对应的词性分值,并将关联分词的词性分值和词频记录在哈希表中。
进一步地,处理器1001可以调用存储器1005中存储的局部优化关键词的提取程序,还执行以下操作:
当第一分词不是所述分词集合中的目标分词时,判断第一分词是否为目标分词的关联分词;
在判定第一分词为所述目标分词的关联分词时,将第一分词的词性和词频记录在哈希表中。
进一步地,处理器1001可以调用存储器1005中存储的局部优化关键词的提取程序,还执行以下操作:
获取预置计算规则,计算出哈希表中各个目标分词和关联分词的总分值,其中,总分值为词频乘以词性分值;
通过对哈希表中的总分值按照从大到小或从小到大进行排序,提取总分值前五的目标分词和/或关联分词,并将提取到的总分值前五的目标分词和/或关联分词为待处理文本的关键词。
参照图2,本发明为局部优化关键词的提取方法的第一实施例,所述局部优化关键词的提取方法包括:
步骤S10,接收待处理文本,识别待处理文本的标题、首段和尾段中的字符;
服务器在接收到终端发送的待处理文本时,确定该文本的标题、首段和尾端的位置,具体为服务器在获取到待处理文本,标题一般处于待处理文本的首行最中间的位置,也可能处于某一段的上一行,且标题字符一般用加粗的形式。首段一般位于待处理文本的第二行且首段的字符前一般是第一空格字符(空格两位字符),将第二行的第一空格字符至到第二空格之间作为待处理文本的首段。尾端位于最后一个字符至第二行的第二空格之间。服务器在获取到待处理文本中字符前的空格位置,从而确定首段和尾端的位置。调取字符识别软件,扫描该待处理文本,获取该待处理文本的标题、首段和尾端中的字符。
步骤S20,基于预置中文分词系统,对标题、首段和尾端中的字符进行切分,并获取标题、首段和尾端的分词集合,更新分词集合中的目标分词的词性为关键词词性;
中文分词系统(Chinese Word Segmentation)指的是将一个汉字字符序列切分成一个一个单独的词。中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到自动识别语句含义的效果。把所有的词都存入中文分词系统中,扫描带处理的文本,查找所有可能的词,然后看哪个词可以做为输出。如:待处理文本:我是学生;词:我/是/学生。服务器在调取预置中文分词系统,服务器通过中文分析系统对待处理文本中的标题、首段和尾端中的字符进行切分,读取待处理文本标题、首段和尾端中的分词,将读取到的分词进行集合,得到该待处理文本标题、首段和尾端中的分词集合。将分词集合中的分词作为目标分词,并将目标分词的词性标识为关键词词性。
步骤S30,通过中文分词系统中的词性分数对照表,将各个目标分词对应的权重参数记录在预置哈希表中,其中,权重参数为词性分值和词频;
服务器在获取到分词集合时,调取中文分词系统中的词性分数表,基于中文分词系统,获取分词集合中每个目标分词的词性,通过中文分词系统中的词性分数表,获取各个目标分词对应的分数值,将该分数值作为该目标分词的权重参数并将对应的分值记录在哈希表中。
步骤S40,遍历待处理文本,获取目标分词的关联分词以及关联分词的词性,并将关联分词的权重参数记录在哈希表中。
服务器开始对待处理文本进行遍历,具体为服务器调取字符识别软件对待处理文本进行遍历,识别待处理文本中所有的字符,基于预置中文分词系统对识别的字符进行切分,在获取到待处理中的分词时,将获取到的分词与分词集合中的目标分词进行匹配,当该分词为目标分词时,记录该分词出现的词频,以及将该目标分词前后的分词作为关联分词,并记录该关联分词的词频,执行步骤30,当该分词不是目标分词时,进行下一分词的匹配,直至匹配待处理文本中所有的分词;
步骤S50,根据目标分词的关键词词性、各个关联分词的词性在哈希表中的权重参数,提取分数总值前五的目标分词和/或关联分词为待处理文本的关键词。
服务器通过匹配处理文本中所有的分词后,将哈希表中记载的各个关键词以及关联分词对应的权重参数从大到小进行排序,提取权重参数前五对应的关键词,将权重参数前五对应的关键词确定为目标关键词,将该目标关键词作为该待处理文本的目标关键词。
在本实施例中,通过将文本的标题、首段和尾端作为文本的中心思想,对待处理文本的标题、首段和尾端进行分析切分,获取到多个目标分析的词频和词性,在通过获取待处理文本中目标分词的关联分词的词性和词频,来获取各个目标分析和关联分词的词性总值,中心思想中的目标分词的词性分值、词频以及关联分词的词性分值、词频,得到总分值最高目标分词或关联分词为关键词,减小了误差,提高了文本关键词的准确性。
进一步的,参照图3,图3为本发明局部优化关键词的提取方法提供的第二实施例,基于上述图2所示的实施例,步骤S10包括:
步骤S11,接收待处理文本,获取待处理文本中空格字符的位置以及空格字符的数量N,其中,所述空格字符的数量N大于3;
步骤S12,将第一空格字符位置与第二空格字符位置之间的字符作为待处理文本的标题,将第二空格字符位置与第三空格位置之间的字符作为待处理文本的首段,将N-(N-1)空格字符位置与N空格字符位置之间作为待处理文本的尾端;
步骤S13,调取预置字符识别程序,识别标题、首段和尾段中的字符。
服务器在接收到终端发送的处理文本,获取待处理文本中空格字符的位置以及空格字符的数量N。具体实施方式为服务器接收待处理文本,对待处理文本进行扫描,获取待处理文本中的每一行的空白处,并记录该空白处出的位置以及数量N。将第一空白位置处与第二空白位置处之间作为该待处理文本的标题。标题一般位于文本的第一行,且标题的首字符一般在该行空白两个字符。将第二空白位置处与第三空白位置处之间作为该待处理文本的首段。将第N空白位置处与第N-(N-1)空白位置处作为该待处理文本的尾端,例如,该待处理文本的尾段结尾字符不是空白字符,是特殊符号“。”、“!”、“?”等时,将其作为空白字符。服务器调取预置字符识别软件,对该处理文本的标题、首段和尾段进行识别,获取该处理文本的标题、首段和尾段中所有的字符。
在本实施例中,通过获取待处理文本的空格字符的数量以及位置,将文本进行处理,从而获取到待处理文本的标题、首段和尾段,再通过字符识别程序获取标题、首段和尾段中的字符,通过空格字符快速的将待处理文本分为标题、首段和尾段。
参照图4,图4为本发明局部优化关键词的提取方法提供的第三实施例,基于上述图2所示的实施例,步骤S20,包括:
步骤S21,在识别到标题、首段和尾段中的字符时,启动预置中文分词系统对标题、首段和尾段中的字符按照名词、动词、形容词、介词、标点、量词、新词的词性进行划分;
步骤S22,获取词性为名词、动词、形容词、介词、标点、量词、新词的字符在中文分词系统中的词性分数对照表中词性分数,将词性分数大于0的字符确定为目标分词;
步骤S23,将目标分词进行分词集合,标识分词集合中目标分词的词性为关键词词性。
服务器在是被待该待处理文本标题、首段和尾端中的所有字符时,启动预置中文分词系统,中文分词系统自动识别到的字符进行切分,具体实施方式为,中文分词系统中记载有名词、动词、形容词、介词、标点、量词以及新词,中文分词系统将获取到的字符与记载的名词、动词、形容词、介词、标点、量词以及新词进行匹配,例如,首先获取一个字符与记载的名词、动词、形容词、介词、标点、量词以及新词进行匹配,当匹配不成功时,获取两个字符与记载的名词、动词、形容词、介词、标点、量词以及新词进行匹配,直至匹配成功。服务器获取中文分词系统切分标题、首段和尾段中名词、动词、形容词、介词、标点、量词以及新词,获取词性为名词、动词、形容词、介词、标点、量词、新词的字符在中文分词系统中的词性分数对照表中词性分数,将名词、动词、形容词、介词、标点、量词以及新词的词性分数大于0的字符确定为目标分词。将名词、动词、形容词、介词、标点、量词以及新词进行分词集合,即有两个相同的名词,只保留一个,并更新分词集合中目标分词的词性,将目标分词更新为关键词词性,目标分词的词性为名词、动词、形容词、介词、标点、量词以及新词等词性,将名词、动词、形容词、介词、标点、量词以及新词等词性标识为关键词词性。
在本实施例中,通过预置中文分析系统对标题、首段和尾段进行切分,获取到不同的字符,再通过词性分数对照表获取到各个字符的词性分值,并将此项分值大于0的字符确定为目标分词,且目标分词的词性为关键词性,快速、准确的提取到标题、首段和尾段中的目标分词。
参照图5,图5为本发明局部优化关键词的提取方法提供的第四实施例,基于上述图2所示的实施例,步骤S30包括:
步骤S31,调取预置中文分词系统中的词性分数对照表,获取关键词词性在词性分数对照表中对应的分数值;
步骤S32,分别将目标分词作为搜索条件,索引各个所述目标分词在标题、首段和尾端中的词频,并将各个目标分词的分数值以及词频记录在哈希表中。
服务器调取预置中文分词系统中的词性分数对照表,词性分数对照表中记录有名词、动词、形容词、介词、标点、量词、关键词以及新词等词性的分数值,具体表格如下所示:
词性 | 分数 |
名词(n) | 3.0 |
动词(v) | 2.0 |
形容词(a) | 1.0 |
介词(p) | 0.0 |
标点(w) | 0.0 |
量词(m) | 0.0 |
关键词(kw) | 4.0 |
新词(nw) | 3.0 |
对照分数词性对照表,获取到关键词词性对应的分数值为3.0,在标题、首段和尾端中搜索获取到的分词集合中的各个目标分词的词频,将获取到的各个目标分词的词频以及对应的关键词分数值记录在哈希表中。
在本实施例中,通过对照词性分数表,获取各个目标分词的词性分值,并通过索引,获取到各个目标分词在标题、首段和尾段中的词频,将获取到的词频和词性记录在哈希表,从而快速的获取到各个目标分词在标题、首段和尾段中的词频和词性。
参照图6,图6为本发明局部优化关键词的提取方法提供的第五实施例,基于上述图2所示的实施例,步骤S40包括:
步骤S41,通过预置字符识程序遍历所述待处理文本,识别待处理文本中的字符,预置中文分词系统将待处理文本中的字符切分为多个分词;
步骤S42,提取待处理文本中的第一分词,判断第一分词是否为分词集合中的目标分词;
步骤S43,当第一分词为分词集合中的目标分词时,判定第一分词的前面的第二分词和后面的第三分词为目标分词的关联分词,并获取关联分词的词性以及词频;
步骤S44,通过比对中文分词系统中的词性分数对照表,获取到关联分词对应的词性分值,并将关联分词的词性分值和词频记录在哈希表中。
启动预置字符识软件遍历所述待处理文本,识别待处理文本中的字符,预置中文分词系统将待处理文本中的字符切分为多个分词;提取待处理文本中的第一分词,判断第一分词是否为所述分词集合中的目标分词;当第一分词为分词集合中的目标分词时,读取第一分词的前后第二分词和第三分词,具体为,服务器获取到中文分词系统切分的分词位置,提取待处理文本中的第一分词,当第一分词为目标分词时,读取所述第二分词和所述第三分词的词性以及词频,将获取到的关联分词的词性比对中农问分词系统中的词性分数对照表,获取关联分词对应的词性分值,并将关联分词的词性分值和词频记录在哈希表中。当第一分词之前的第二分词或之后的第三分词为空白字符或特殊符号时,则不读取第三分词或第二分词,获取下一分词。
当服务器判定第一分词不是分词集合中的分表分词时,判断第一分词是否为目标分词的关联分词。具体为,当识别第一分词的字符=时,将第一分析的字符与目标分词的字符进行比对,当第一分词的字符与目标分粗的字符不相同时,将第一分词的字符与目标分词的关联分词的字符进行比对,判断第一分词是否为关联分词,的那个第一分词的字符与关联分词的字符比对一致时,将第一分词的词性和词频记录到哈希表中,且词频为记录一次。
在本实施例中,在本实施例中,启动预置字符识软件遍历所述待处理文本,识别待处理文本中的字符,预置中文分词系统将待处理文本中的字符切分为多个分词;提取待处理文本中的第一分词,判断第一分词是否为所述分词集合中的目标分词;当第一分词为分词集合中的目标分词时,读取第一分词的前后第二分词和第三分词,快速的获取到待处理文本中目标分词的关联分词。
参照图7,图7为本发明局部优化关键词的提取方法提供的第七实施例,,基于上述图2所示的实施例,步骤S50之后,还包括:
步骤S51,获取预置计算规则,计算出哈希表中各个目标分词和关联分词的总分值,其中,总分值为词频乘以词性分值;
步骤S52,通过对哈希表中的总分值按照从大到小或从小到大进行排序,提取总分值前五的目标分词和/或关联分词,并将提取到的总分值前五的目标分词和/或关联分词为待处理文本的关键词。
服务器在获取预置计算规则,通过预置计算规则,计算出该哈希表中各个目标分词和关联分词的总分值,具体为,获取任意一个目标分词的词频,词频也就是在待处理文本中处理线的次数,以及对应的词性分值,将词频乘以词性分值,得到该目标分词的总分值,计算出哈希表中所有的目标分词和关联分词的总分值,通过将目标分词和关联分词的总分值按照从大到小和从小大的排列顺序进行排序,得到总分值最大的前五为目标分词或关联分词,提取总分值最大的前五为目标分词或关联分词为待处理文本的关键词。
在本实施例中,服务器在获取预置计算规则,通过预置计算规则,计算出该哈希表中各个目标分词和关联分词的总分值,通过将目标分词和关联分词的总分值按照从大到小和从小大的排列顺序进行排序,得到总分值最大的前五为目标分词或关联分词,提取总分值最大的前五为目标分词或关联分词为待处理文本的关键词。从而减小了误差,提高了文本关键词的准确性。
此外,本发明实施例还提出一种服务器,所述服务器包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的局部优化关键词的提取程序,所述局部优化关键词的提取程序被所述处理器执行时实现如上实施例所述的局部优化关键词的提取方法的步骤。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有局部优化关键词的提取程序,所述局部优化关键词的提取程序被处理器执行时实现如上实施例所述的局部优化关键词的提取方法的步骤。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种局部优化关键词的提取方法,其特征在于,所述局部优化关键词的提取方法包括:
接收待处理文本,识别所述待处理文本的标题、首段和尾段中的字符;
基于预置中文分词系统,对所述标题、首段和尾端中的字符进行切分,并获取所述标题、首段和尾端的分词集合,更新所述分词集合中的目标分词的词性为关键词词性;
通过所述中文分词系统中的词性分数对照表,将各个所述目标分词对应的权重参数记录在预置哈希表中,其中,所述权重参数为词性分值和词频;
遍历所述待处理文本,获取所述目标分词的关联分词以及所述关联分词的词性,并将所述关联分词的权重参数记录在哈希表中;
根据所述目标分词的关键词词性、各个关联分词的词性在所述哈希表中的权重参数,提取分数总值前五的目标分词和/或关联分词为所述待处理文本的关键词。
2.如权利要求1所述的局部优化关键词的提取方法,其特征在于,所述接收待处理文本,识别所述待处理文本的标题、首段和尾段中的字符,包括:
接收待处理文本,获取所述待处理文本中空格字符的位置以及空格字符的数量N,其中,所述空格字符的数量N大于3;
将第一空格字符位置与第二空格字符位置之间的字符作为所述待处理文本的标题,将所述第二空格字符位置与所述第三空格位置之间的字符作为所述待处理文本的首段,将N-(N-1)空格字符位置与N空格字符位置之间作为所述待处理文本的尾端;
调取预置字符识别程序,识别所述标题、首段和尾段中的字符。
3.如权利要求2所述的局部优化关键词的提取方法,其特征在于,所述基于预置中文分词系统,对所述标题、首段和尾端中的字符进行切分,并获取所述标题、首段和尾端中的分词集合,更新所述分词集合中的目标分词的词性为关键词词性,包括:
在识别到所述标题、首段和尾段中的字符时,启动预置中文分词系统对所述标题、首段和尾段中的字符按照名词、动词、形容词、介词、标点、量词、新词的词性进行划分;
获取词性为所述名词、动词、形容词、介词、标点、量词、新词的字符在所述中文分词系统中的词性分数对照表中词性分数,将所述词性分数大于0的字符确定为目标分词;
将所述目标分词进行分词集合,标识所述分词集合中目标分词的词性为关键词词性。
4.如权利要求3所述的局部优化关键词的提取方法,其特征在于,所述通过所述中文分词系统中的词性分数对照表,将各个所述目标分词对应的权重参数记录在预置哈希表中,其中,权重参数为词性分值和词频,包括:
调取预置中文分词系统中的词性分数对照表,获取所述关键词词性在所述词性分数对照表中对应的分数值;
分别将所述目标分词作为搜索条件,索引各个所述目标分词在所述标题、所述首段和所述尾端中的词频,并将各个所述目标分词的分数值以及词频记录在哈希表中。
5.如权利要求4所述的局部优化关键词的提取方法,其特征在于,所述遍历所述待处理文本,获取所述目标分词的关联分词以及所述关联分词的词性,并将所述关联分词的权重参数记录在哈希表中,包括:
通过所述预置字符识程序遍历所述待处理文本,识别所述待处理文本中的字符,所述预置中文分词系统将所述待处理文本中的字符切分为多个分词;
提取所述待处理文本中的第一分词,判断所述第一分词是否为所述分词集合中的目标分词;
当所述第一分词为所述分词集合中的目标分词时,判定所述第一分词的前面的第二分词和后面的第三分词为所述目标分词的关联分词,并获取所述关联分词的词性以及词频;
通过比对所述中文分词系统中的词性分数对照表,获取到所述关联分词对应的词性分值,并将所述关联分词的词性分值和词频记录在所述哈希表中。
6.如权利要求4所述的局部优化关键词的提取方法,其特征在于,所述提取所述待处理文本中的第一分词,判断所述第一分词是否为所述分词集合中的目标分词之后,还包括:
当所述第一分词不是所述分词集合中的目标分词时,判断所述第一分词是否为所述目标分词的关联分词;
在判定所述第一分词为所述目标分词的关联分词时,将所述第一分词的词性和词频记录在所述哈希表中。
7.如权利要求1-6中任意一项所述的局部优化关键词的提取方法,其特征在于,所述根据所述目标分词的关键词词性、各个关联分词的词性在所述哈希表中的权重参数,提取分数总值前五的目标分词和/或关联分词为所述待处理文本的关键词,包括:
获取预置计算规则,计算出所述哈希表中各个所述目标分词和所述关联分词的总分值,其中,总分值为词频乘以词性分值;
通过对所述哈希表中的总分值按照从大到小或从小到大进行排序,提取所述总分值前五的目标分词和/或关联分词,并将提取到的所述总分值前五的目标分词和/或关联分词为所述待处理文本的关键词。
8.一种局部优化关键词的提取方法装置,其特征在于,所述局部优化关键词的提取方法装置包括:
识别单元,用于接收待处理文本,识别所述待处理文本的标题、首段和尾段中的字符;
更新单元,用于基于预置中文分词系统,对所述标题、首段和尾端中的字符进行切分,并获取所述标题、首段和尾端的分词集合,更新所述分词集合中的目标分词的词性为关键词词性;
第一记录单元,用于通过所述中文分词系统中的词性分数对照表,将各个所述目标分词对应的权重参数记录在预置哈希表中,其中,权重参数为词性分值和词频;
第二记录单元,用于遍历所述待处理文本,获取所述目标分词的关联分词以及所述关联分词的词性,并将所述关联分词的权重参数记录在哈希表中;
提取单元,用于根据所述目标分词的关键词词性、各个关联分词的词性在所述哈希表中的权重参数,提取分数总值前五的目标分词和/或关联分词为所述待处理文本的关键词。
9.一种服务器,其特征在于,所述服务器包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的局部优化关键词的提取程序,所述局部优化关键词的提取程序被所述处理器执行时实现如权利要求1至7中任一项所述的局部优化关键词的提取方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有局部优化关键词的提取程序,所述局部优化关键词的提取程序被处理器执行时实现如权利要求1至7中任一项所述的局部优化关键词的提取方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910884825.7A CN110765767B (zh) | 2019-09-19 | 2019-09-19 | 局部优化关键词的提取方法、装置、服务器及存储介质 |
PCT/CN2019/118273 WO2021051599A1 (zh) | 2019-09-19 | 2019-11-14 | 局部优化关键词的方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910884825.7A CN110765767B (zh) | 2019-09-19 | 2019-09-19 | 局部优化关键词的提取方法、装置、服务器及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110765767A true CN110765767A (zh) | 2020-02-07 |
CN110765767B CN110765767B (zh) | 2024-01-19 |
Family
ID=69329805
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910884825.7A Active CN110765767B (zh) | 2019-09-19 | 2019-09-19 | 局部优化关键词的提取方法、装置、服务器及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110765767B (zh) |
WO (1) | WO2021051599A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113378141A (zh) * | 2021-08-12 | 2021-09-10 | 明品云(北京)数据科技有限公司 | 一种文本数据传输方法、系统、设备及介质 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114282092A (zh) * | 2021-12-07 | 2022-04-05 | 咪咕音乐有限公司 | 信息处理方法、装置、设备及计算机可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107239455A (zh) * | 2016-03-28 | 2017-10-10 | 阿里巴巴集团控股有限公司 | 核心词识别方法及装置 |
CN109086355A (zh) * | 2018-07-18 | 2018-12-25 | 北京航天云路有限公司 | 基于新闻主题词的热点关联关系分析方法及系统 |
CN109635273A (zh) * | 2018-10-25 | 2019-04-16 | 平安科技(深圳)有限公司 | 文本关键词提取方法、装置、设备及存储介质 |
WO2019136993A1 (zh) * | 2018-01-12 | 2019-07-18 | 深圳壹账通智能科技有限公司 | 文本相似度计算方法、装置、计算机设备和存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5754019B2 (ja) * | 2011-07-11 | 2015-07-22 | 日本電気株式会社 | 同義語抽出システム、方法およびプログラム |
US9225788B2 (en) * | 2012-10-05 | 2015-12-29 | Facebook, Inc. | Method and apparatus for identifying common interest between social network users |
CN110069599A (zh) * | 2019-03-13 | 2019-07-30 | 平安城市建设科技(深圳)有限公司 | 基于近似词的检索方法、装置、设备及可读存储介质 |
-
2019
- 2019-09-19 CN CN201910884825.7A patent/CN110765767B/zh active Active
- 2019-11-14 WO PCT/CN2019/118273 patent/WO2021051599A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107239455A (zh) * | 2016-03-28 | 2017-10-10 | 阿里巴巴集团控股有限公司 | 核心词识别方法及装置 |
WO2019136993A1 (zh) * | 2018-01-12 | 2019-07-18 | 深圳壹账通智能科技有限公司 | 文本相似度计算方法、装置、计算机设备和存储介质 |
CN109086355A (zh) * | 2018-07-18 | 2018-12-25 | 北京航天云路有限公司 | 基于新闻主题词的热点关联关系分析方法及系统 |
CN109635273A (zh) * | 2018-10-25 | 2019-04-16 | 平安科技(深圳)有限公司 | 文本关键词提取方法、装置、设备及存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113378141A (zh) * | 2021-08-12 | 2021-09-10 | 明品云(北京)数据科技有限公司 | 一种文本数据传输方法、系统、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110765767B (zh) | 2024-01-19 |
WO2021051599A1 (zh) | 2021-03-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5542090A (en) | Text retrieval method and system using signature of nearby words | |
CN108920633B (zh) | 一种论文相似度的检测方法 | |
CN109033212B (zh) | 一种基于相似度匹配的文本分类方法 | |
JPH07262188A (ja) | 言語識別処理方法 | |
US20120284308A1 (en) | Statistical spell checker | |
CN105760359B (zh) | 问句处理系统及其方法 | |
CN109634436B (zh) | 输入法的联想方法、装置、设备及可读存储介质 | |
CN110765767B (zh) | 局部优化关键词的提取方法、装置、服务器及存储介质 | |
CN114266256A (zh) | 一种领域新词的提取方法及系统 | |
US8806455B1 (en) | Systems and methods for text nuclearization | |
CN106021532B (zh) | 关键词的显示方法和装置 | |
CN110795942A (zh) | 基于语义识别的关键词确定方法、装置和存储介质 | |
CN112487159B (zh) | 检索方法、检索装置及计算机可读存储介质 | |
WO2020133186A1 (zh) | 一种文档信息提取方法、存储介质及终端 | |
CN111324705A (zh) | 自适应性调整关连搜索词的系统及其方法 | |
CN113128205A (zh) | 一种剧本信息处理方法、装置、电子设备及存储介质 | |
JP2019185478A (ja) | 分類プログラム、分類方法、および情報処理装置 | |
US11755659B2 (en) | Document search device, document search program, and document search method | |
CN109684357B (zh) | 信息处理方法及装置、存储介质、终端 | |
CN115858776B (zh) | 一种变体文本分类识别方法、系统、存储介质和电子设备 | |
JP5179564B2 (ja) | クエリセグメント位置決定装置 | |
CN111126201A (zh) | 剧本中人物识别方法及装置 | |
US11507593B2 (en) | System and method for generating queryeable structured document from an unstructured document using machine learning | |
WO2021051600A1 (zh) | 基于信息熵识别新词的方法、装置、设备及存储介质 | |
KR20220099690A (ko) | 문서를 요약하는 장치, 방법 및 컴퓨터 프로그램 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |