CN113822072A - 关键词抽取方法、装置及电子设备 - Google Patents
关键词抽取方法、装置及电子设备 Download PDFInfo
- Publication number
- CN113822072A CN113822072A CN202111123580.XA CN202111123580A CN113822072A CN 113822072 A CN113822072 A CN 113822072A CN 202111123580 A CN202111123580 A CN 202111123580A CN 113822072 A CN113822072 A CN 113822072A
- Authority
- CN
- China
- Prior art keywords
- node
- word
- text
- influence
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 82
- 239000011159 matrix material Substances 0.000 claims abstract description 44
- 238000000034 method Methods 0.000 claims abstract description 38
- 238000012546 transfer Methods 0.000 claims abstract description 38
- 238000012549 training Methods 0.000 claims description 9
- 230000007704 transition Effects 0.000 claims description 8
- 238000009499 grossing Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 4
- XHEFDIBZLJXQHF-UHFFFAOYSA-N fisetin Chemical compound C=1C(O)=CC=C(C(C=2O)=O)C=1OC=2C1=CC=C(O)C(O)=C1 XHEFDIBZLJXQHF-UHFFFAOYSA-N 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 9
- 230000011218 segmentation Effects 0.000 description 7
- 239000000284 extract Substances 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000002372 labelling Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000009191 jumping Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005295 random walk Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了一种关键词抽取方法、装置及电子设备,属于关键词抽取技术领域。该方法包括:基于文本和该文本对应的领域词典,构建该文本的候选关键词词图;根据候选关键词词图和领域词典,确定候选关键词词图中每个词节点的覆盖范围影响力和专用节点影响力;根据每个词节点的覆盖范围影响力和专用节点影响力,确定每个词节点的综合跳转概率;根据每个词节点的综合跳转概率,确定文本对应的权重转移矩阵;基于权重转移矩阵,抽取文本的关键词。根据本公开实施例提供的技术方案,可以解决关键词的抽取不够准确的问题。
Description
技术领域
本公开属于关键词抽取技术领域,具体涉及一种关键词抽取方法、装置及电子设备。
背景技术
随着的信息技术快速发展,需要从大量的网络文本数据中准确抽取所需文本信息。
通常,关键词抽取是指在对象文本中自动抽取能够体现文章内容中心概念或者相对重要的词语。目前,主要是基于Text Rank算法进行关键词的抽取,预先规定部分关键权重的量化指标,根据词语的共现关系构建词的图模型,通过权重计算得分并排序,最后选出综合影响得分较高的多个词作为关键词。
然而,目前的Text Rank算法主要利用文档本身的结构信息,若一些关键词无法通过文档本身结构信息准确获取,例如出现的频率较低,无法确定是否为关键字,对于不频繁出现的关键词,若继续采用目前的Text Rank算法提取关键字,则会导致关键词的抽取不够准确。
发明内容
本公开实施例的目的是提供一种关键词抽取方法、装置及电子设备,能够解决关键词抽取不准确的问题。
为了解决上述技术问题,本公开是这样实现的:
第一方面,本公开实施例提供了一种关键词抽取方法,该方法包括:基于文本和所述文本对应的领域词典,构建所述文本的候选关键词词图;根据所述候选关键词词图和所述领域词典,确定所述候选关键词词图中每个词节点的覆盖范围影响力和专用节点影响力;根据所述每个词节点的覆盖范围影响力和专用节点影响力,确定每个词节点的综合跳转概率;根据所述每个词节点的综合跳转概率,确定所述文本对应的权重转移矩阵;基于所述权重转移矩阵,抽取所述文本的关键词。
第二方面,本公开实施例提供了一种关键词抽取装置,所述关键词抽取装置包括:构建模块、确定模块和抽取模块;所述构建模块,用于基于文本和所述文本对应的领域词典,构建所述文本的候选关键词词图;所述确定模块,用于根据所述构建模块构建的所述候选关键词词图和所述领域词典,确定所述候选关键词词图中每个词节点的覆盖范围影响力和专用节点影响力;根据所述每个词节点的覆盖范围影响力和专用节点影响力,确定每个词节点的综合跳转概率;根据所述每个词节点的综合跳转概率,确定所述文本对应的权重转移矩阵;所述抽取模块,用于基于所述确定模块确定的所述权重转移矩阵,抽取所述文本的关键词。
第三方面,本公开实施例提供了一种电子设备,该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
第四方面,本公开实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
第五方面,本公开实施例提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第一方面所述的方法。
在本公开实施例中,首先,电子设备可以先基于文本和文本对应的领域词典,构建该文本的候选关键词词图;其次,电子设备根据候选关键词词图和领域词典,确定候选关键词词图中每个词节点的覆盖范围影响力和专用节点影响力;然后,电子设备根据每个词节点的覆盖范围影响力和专用节点影响力,确定每个词节点的综合跳转概率;之后,电子设备基于每个词节点的综合跳转概率,确定文本对应的权重转移矩阵;最后,电子设备基于该权重转移矩阵,抽取文本的关键词。也就是说,本公开实施例提供的关键词抽取方法中,在构建权重转移矩阵时,是结合了词图节点的覆盖范围影响力和专用节点影响力确定每个词节点的综合跳转概率,即调整了低频关键词的权重,相比于仅根据文本的结构信息进行关键词抽取的方式,可以调整低频的专有名词被抽取的概率,降低高频的非专用名词被抽取的概率,避免由于专有名词出现的频率低导致在抽取时被遗漏的问题。
附图说明
图1为本公开实施例提供的关键词抽取方法的流程示意图之一;
图2为本公开实施例提供的一种命名实体标注示意图;
图3为本公开实施例提供的一种BERT模型的结构示意图;
图4为本公开实施例提供的关键词抽取方法的流程示意图之二;
图5为本公开实施例提供的一种关键词抽取装置可能的结构示意图;
图6为本公开实施例提供的一种电子设备可能的结构示意图;
图7为本公开实施例提供的一种电子设备的硬件示意图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
本公开的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
下面结合附图,通过具体的实施例及其应用场景对本公开实施例提供的关键词抽取方法进行详细地说明。
图1为本公开实施例提供的一种关键词抽取方法的流程示意图,如图1中所示,该关键词抽取方法包括下述的S101至S105:
S101、电子设备基于文本和该文本对应的领域词典,构建该文本的候选关键词词图。
可以理解的是,基于领域词典构建的候选关键词词图,可以辅助切分命名实体,将文本切分成正确的命名实体,避免在分词时将专有名词切分成普通名词。
示例性地,可以按照Text Rank思想,将文本内容转换成词图模型。先将文本中出现过的词语去重,作为单独的词节点;然后通过词语的共现窗口确定词节点之间的边,最后构成候选关键词词图。
S102、电子设备根据候选关键词词图和领域词典,确定候选关键词词图中每个词节点的覆盖范围影响力和专用节点影响力。
可以理解的是,覆盖范围影响力指示的是词节点在词图中的结构上的影响力,专用节点影响力指示的是词节点对应的关键词是否属于领域词典中的专有名词。
S103、电子设备根据每个词节点的覆盖范围影响力和专用节点影响力,确定每个词节点的综合跳转概率。
需要说明的是,词节点的综合跳转概率指示的一个词节点跳转到另一个词节点的跳转概率。
可以理解,在本公开实施例中,词节点的跳转概率为根据词节点的覆盖范围影响力和专用节点影响力综合计算得到的一个综合跳转概率。
其中,可以根据各个节点在文本中的结构关系确定覆盖范围影响力,可以根据专用节点在文本中的结构关系和专用节点的重要性确定专用节点影响力。
S104、电子设备根据每个词节点的综合跳转概率,确定文本对应的权重转移矩阵。
也就是说,在本公开实施例中,权重转移矩阵为根据上述的S103中根据词节点的覆盖范围影响力和专用节点影响力计算的综合跳转概率确定的。该权重转移矩阵中考虑了专用名字的影响。
S105、电子设备基于权重转移矩阵,抽取文本的关键词。
需要说明的是,由于该权重矩阵是根据上述的综合跳转概率确定的,因此,根据该权重转移矩阵抽取关键词,可以避免一些专用名词出现的频率少无法被抽取。
本公开实施例提供一种关键词抽取方法,首先,电子设备可以先基于文本和文本对应的领域词典,构建该文本的候选关键词词图;其次,电子设备根据候选关键词词图和领域词典,确定候选关键词词图中每个词节点的覆盖范围影响力和专用节点影响力;然后,电子设备根据每个词节点的覆盖范围影响力和专用节点影响力,确定每个词节点的综合跳转概率;之后,电子设备基于每个词节点的综合跳转概率,确定文本对应的权重转移矩阵;最后,电子设备基于该权重转移矩阵,抽取文本的关键词。也就是说,本公开实施例提供的关键词抽取方法中,在构建权重转移矩阵时,是结合了词图节点的覆盖范围影响力和专用节点影响力确定每个词节点的综合跳转概率,即调整了低频关键词的权重,相比于仅根据文本的结构信息进行关键词抽取的方式,可以调整低频的专有名词被抽取的概率,降低高频的非专用名词被抽取的概率,避免由于专有名词出现的频率低导致在抽取时被遗漏的问题。
可选地,本公开实施例提供的关键词抽取方法中,上述的S102具体可以包括下述的S12a:
S12、电子设备根据词节点的词语在文本中的重要性权重,确定候选关键词词图中每个词节点的专用节点影响力。
需要说明的是,在本公开实施例中,词语是否为领域词典中专用名词指示该词语在文本中重要性权重。在为领域词典中专用名词的情况下,该词语的重要性较高,在不属于领域词典中的专用名词的情况,该词语的重要性较低。
基于该方案,电子设备可以在构建候选关键词词图之后,可以结合该文本的领域词典,根据词节点的词语在文本中的重要性权重,确定该词节点的专用节点影响力,相比于相关技术中的Text Rank,增加专用名词的计算比重,可以根据该专用节点影响力调整词节点的跳转概率,提高专用名词的抽取概率。
可选地,在本公开实施例提供的关键词抽取方法中,上述的S12具体可以通过下述的S12a执行:
S12a、电子设备基于公式(1),根据词节点的词语在文本中的重要性权重,确定候选关键词词图中每个词节点的专用节点影响力。
其中,I(vj)表示词节点vj对应的候选关键词在文本中的重要性权重,Out(vi)表示词节点vi指向的词节点的集合,若vj属于领域词典中的专用名词,则I(vj)等于第一数值,若vj不属于所述领域词典中的专用名词,则I(vj)等于第二数值,第一数值大于第二数值。
示例性地,假设节点1和节点2、节点3、节点4连接,其中,节点1为专用名词,则I(v1)=30,节点2、节点3、节点4均为非专用名词,则I(v2)=1、I(v3)=1、I(v4)=1。
基于该方案,电子设备可以先确定各个词节点是否为专用名词,以确定各个词节点在文本中的重要性权重,然后电子设备可以基于上述的公式(1),根据词节点在文本中的重要性权重,计算出每个词节点的专用节点影响力,从而可以使用该专用节点影响力调整文本结构对词节点的跳转概率影响。
可选地,电子设备可以基于覆盖范围影响力、专用节点影响力和综合影响力权重,确定每个词节点的综合跳转概率。其中,综合影响力权重包括:覆盖范围影响力的权重和专用节点影响力的权重。
示例性地,在本公开实施例提供的关键词抽取方法中,上述的S103具体可以通过下述的S13执行:
S13、电子设备基于公式(2),根据每个词节点的覆盖范围影响力和专用节点影响力,确定每个词节点的综合跳转概率。
P(vi,vj)=αgPloc(vi,vj)+βgPrange(vi,vj) 公式(2)
其中,P(vi,vj)表示vi向vj跳转的概率,α表示覆盖范围影响力的权重占比,β表示专用节点影响力的权重占比,W表示词节点的综合影响力权重,W=α+β=1,Prange(vi,vj)表示节点的覆盖范围影响力。
示例性的,可以设置α=0.48,β=0.52。
具体地,覆盖范围影响力Prange(vi,vj)可以基于下述的公式(3)计算得到。
其中,deg(vi)表示词节点vi的度,E表示候选关键词的连接的边的集合。
其中,权重转移矩阵M中的j列值代表第j个词节点vj跳转到其他词节点时的比重,pij表示词节点vj跳转到第i个词语节点vi的比重。
基于该方案,电子设备可以基于上述的公式,结合覆盖范围影响力和专用节点影响力确定词节点的跳转概率,相比于相关技术中仅根据文本的结构确定的跳转概率,可以将提高专用名词在确定跳转概率时的影响程度。
可选地,在本公开实施例提供的关键词抽取方法中,上述的S105具体可以通过下述的S15a和S15b执行:
S15a、电子设备基于权重转移矩阵和平滑因子,计算每个词图节点的节点影响力得分。
示例性地,可以基于下述的公式(4)确定权重转移矩阵M的稳定值。
Bi=(1-d)+d×Bi-1×M 公式(4)
其中,Bi是第i次迭代操作结束后的每个节点的综合得分值,Bi-1是第i-1次迭代操作结束后的每个节点的综合得分值,d为平滑因子,d用于指示一个词语转移到其他词语的概率。
示例性的,d的取值可以设置为0.85。
需要说明的是,迭代操作的次数上限可设置为30次,或者当连续两次计算结果的收敛误差为0.0001时迭代停止。每个词综合得分值为该词在关键词词图中的节点影响力得分。
S15b、电子设备根据每个词节点的节点影响力得分,抽取文本的关键词。
具体地,在得到每个词节点的节点影响力得分之后,根据分值高低,对所有词节点按照降序排序,选择排列在前N个候选关键词作为关键词的抽取结果。
基于该方案,电子设备可以基于上述的公式,结合根据综合转移概率确定的权重转移矩阵,通过多次迭代最终确定权重转移矩阵的稳定值,从而可以计算出各个图节点的节点影响力得分,该节点影响力得分为基于覆盖范围影响力和专用节点影响力确定的,因此可以提高出现频率较小的专用名词被抽取的概率,降低出现频率较大的非专用名词被抽取的概率,使得抽取得到关键词可以准确的表征文本内容的中心概念或者可以表征文本内容的重点内容。
可选地,在本公开实施例提供的关键词抽取方法中,在上述的S101之前,还可以包括下述的S106:
S106、电子设备获取文本对应的领域词典。
示例性地,若电子设备抽取目标游戏文本的关键词,则电子设备可以先获取目标游戏对应的领域词典,若电子设备抽取目标学科文本的关键词,则电子设备可以先获取该目标学科文本领域词典。
基于该方案,电子设备可以在对文本抽取关键词之前,先获取该文本对应的领域词典,然后基于该领域词典辅助分词词典进行分词构图,可以减少将专用名词拆分的概率,提高专用名词被抽取的概率。
需要说明的是,在本公开实施例中,文本对应的领域词典可以为采用其他手段获取的领域词典,也可以为基于BIO(B-begin,I-inside,O-outside)标注的领域语料和BERT模型训练得到的领域词典。
可选地,在本公开实施例提供的关键词抽取方法中,所述文本可以为游戏文本;进而,上述的S106,具体可以通过下述的S16a和S16b实现:
S16a、电子设备获取目标游戏的游戏日报。
S16b、电子设备基于对游戏日报的标注数据,通过模型训练获取目标游戏的专用名词,以得到目标游戏的领域词典。
示例性地,可以采用BIO命名实体标注法对游戏专用命名实体进行标注。
图2为本公开实施例提供的一种实体标注的示意图。其中,文本语句为“狮驼岭打怪效率慢”,依次标注为“B-PER”、“I-PER”、“I-PER”、“B-PER”、“I-PER”、“O”、“O”、“O”。
基于该方案,在对游戏文本进行抽取之前,可以根据一个游戏的游戏日报。先进行数据标注,然后再根据标注的数据进行模型训练,得到该游戏中的专用名词,从而得到该游戏的领域词典,一方面可以在分词时降低游戏类专用名词被拆分的概率,另一方面在计算词图中的词节点的转移概率时,可以根据词节点对应的候选关键词是否为该游戏的领域词典中的专用名词调整词节点的转移概率,从而使得该游戏的游戏文本(例如游戏日报)的关键词的提取更加准确。
示例性地,以对目标游戏的游戏文本进行关键词抽取为例,先进行名实体识别得到目标游戏的领域词典,然后进行关键词抽取。图4为本公开实施例提供的一种目标游戏的关键词抽取的流程示意图,包括两个部分,分别为命名实体识别部分和关键词抽取部分。下面分别对这两部分进行详细说明。
第一部分:命名实体识别。
在本公开实施例中,基于BERT(Bidirectional Encoder Representation fromTransformers,双向Transformer的Encoder)模型进行游戏命名实体识别训练。
首先,构造命名实体训练数据。可以将原始目标游戏日报文本集进行文本预处理,例如以句子为单位,按字切分,利用BIO命名实体标注法标注目标游戏日报文本中的专用命名实体。例如,对于游戏中的句子“狮驼岭打怪效率慢”,标注游戏专用名词“狮驼岭”和“打怪”。通过标注多条标注数据作为游戏命名实体识别模型的训练预料。
其次,使用BERT命名实体识别模型,训练命名实体。图3为本公开实施例提供的一种BERT模型的结构示意图。如图3中所示,BERT模型的输入是字单元,通过BERT模型的transformer结构对输入的字序列进行命名实体标签训练,得到命名实体识别模型,预测字单元为BIO标记中的一种BIO标记。然后根据命名实体识别模型获取预测结果序列,抽取目标游戏日报文本集中的专用名词,从而得到该目标游戏的专用名词的领域词典。
第二部分:关键词抽取
电子设备先根据下述的S21-S23针对游戏文本构建候选关键词词图,然后根据下述的S24采用关键词词图和领域词典确定转移概率矩阵,之后根据下述的S25,基于概率转移矩阵对游戏文本进行关键词抽取。
S21、电子设备识别目标游戏文本D中的命名实体,获得专有实体(即专有名词);对目标游戏文本D的内容进行分句,得到n个句子,即D=[S1,S2,…,Sn],n为正整数。
S22、电子设备对目标游戏文本D中的每个句子Si进行预处理,生成句子Si的候选关键词序列,Si∈D。
其中,预处理包括分词、去停用词、保留重要词性。
需要说明的是,在使用分词词典分词时,可以将专有实体加入分词词典中以辅助将各个句子切分成正确的命名实体。从而得到候选关键词序列S=[W1,W2,…,Wm],m为正整数。
S23、电子设备根据候选关键词序列S构建词图G。
电子设备根据候选关键词序列S,确定候选关键词节点的集合V,V=[V1,V2,…,Vp],p为正整数;定义词语为网络图(词图)的基本单元,并当作顶点添加到词图中,定义词语的共现连接方式以及专用名词的词节点权重。
若候选关键词Wi和候选关键词Wj在词窗口内共现时,则在词图G中新增两条有向连接边,即vi→vj和vj→vi,从而得到候选关键词之间的连接边集合E(即,E中的边由词的共现关系决定),从而得到词图G=(V,E)。
S24、电子设备根据上述的公式(3)计算词图中每个词节点的覆盖范围影响力,根据上述的公式(1)计算词图中每个词节点的专用节点影响力,根据上述的公式(2)计算每个词节点的综合跳转概率,从而得到权重转移矩阵M。
需要说明的是,在待抽取文本为游戏文本时,例如游戏日报文本,通常在日报内容的中专用名词是该条日报的关键词,在采用本公开实施例提供的关键词抽取方法中,可以有较高的概率将该专用名词抽取出来。
S25、电子设备根据上述的公式(4)迭代计算权重转移矩阵M的稳定值,根据权重转移矩阵M的稳定值确定各个词节点的综合得分值,根据综合得分值的高低降序排列,选择综合得分值前L个候选关键词作为关键词的抽取结果。
示例性地,在计算权重转移矩阵M之后,也可以按照下述的公式(5)词图中各个词语节点的分数(即Text Rank随机游走)。
其中,S(vi)表示词节点Vi的得分权重,d表示平滑因子,指示一个词语转移到其他词语的概率,In(Vi)表示其他词节点到词节点Vj的节点的集合,Out(Vj)表示词节点Vj所指向的集合。Wji表示词节点Vj和词节点Vj之间的边的权值,Wjk表示词节点Vj和词节点Vk之间的边的权值。
需要说明的是,d可以使得公式(5)迭代计算时可以稳定传递并达到收敛,通常d的值设置为0.85。
基于本公开实施例提供的关键词抽取方法,相比于相关的Text Rank抽取方式,可以利用BERT抽取的专用名词特征,可以先获取外部语义信息,然后结合关键词网络(即词图)加权,即使用词图节点和专用节点影响力相结合,调整概率转移矩阵,因此可以减少噪音词的计算误差影响,例如避免将一个多次出现的非主题词误判为主题词,增加了低频主题词的抽取概率,从而提升了关键词抽取的准确性。
需要说明的是,本公开实施例提供的关键词抽取方法,执行主体可以为关键词抽取装置,或者该关键词抽取装置中的用于执行关键词抽取的方法的控制模块。本公开实施例中以关键词抽取装置执行关键词抽取的方法为例,说明本公开实施例提供的关键词抽取的装置。
图5为本公开实施例提供的一种关键词抽取装置,如图5中所示,该关键词抽取装置500包括:构建模块501、确定模块502和抽取模块503;所述构建模块501,用于基于文本和所述文本对应的领域词典,构建所述文本的候选关键词词图;所述确定模块502,用于根据所述构建模块构建的所述候选关键词词图和所述领域词典,确定所述候选关键词词图中每个词节点的覆盖范围影响力和专用节点影响力;根据所述每个词节点的覆盖范围影响力和专用节点影响力,确定每个词节点的综合跳转概率;根据所述每个词节点的综合跳转概率,确定所述文本对应的权重转移矩阵;所述抽取模块503,用于基于所述确定模块确定的所述权重转移矩阵,抽取所述文本的关键词。
可选地,确定模块具体用于:根据词节点的词语在文本中的重要性权重,确定所述候选关键词词图中每个词节点的专用节点影响力。
可选地,确定模块具体用于:基于第一预设公式,根据词节点的词语在文档中重要性权重,确定所述候选关键词词图中每个词节点的专用节点影响力;所述第一预设公式为:其中,I(vj)表示词节点vj在文本中的重要性权重,Out(vi)表示词节点vi指向的词节点的集合,若vj属于所述领域词典中的专用名词,则I(vj)等于第一数值,若vj不属于所述领域词典中的专用名词,则I(vj)等于第二数值,所述第一数值大于所述第二数值。
可选地,确定模块具体用于:基于第二预设公式,根据所述每个词节点的覆盖范围影响力和专用节点影响力,确定每个词节点的综合跳转概率;所述第二预设公式为:P(vi,vj)=αgPloc(vi,vj)+βgPrange(vi,vj);其中,α表示覆盖范围影响力的影响力权重占比,β表示专用节点影响力的权重占比,α+β=1,Prange(vi,vj)表示节点的覆盖范围影响力;deg(vi)表示词节点vi的度,E表示候选关键词的连接的边的集合。
可选地,抽取模块具体用于:基于所述权重转移矩阵和平滑因子,计算每个词图节点的节点影响力得分;根据每个词节点的节点影响力得分,抽取所述文本的关键词。
可选地,关键词抽取装置,还可以包括:获取模块;获取模块,用于在构建模块基于文本和所述文本对应的领域词典,构建所述文本的候选关键词词图之前,获取文本对应的领域词典。
可选地,所述文本为游戏文本;获取模块具体用于:获取目标游戏的游戏日报;基于对所述游戏日报的标注数据,通过模型训练获取所述目标游戏的专用名词,以得到所述目标游戏的领域词典。
本公开实施例提供一种关键词抽取装置,首先,关键词抽取装置可以先基于文本和文本对应的领域词典,构建该文本的候选关键词词图;其次,关键词抽取装置根据候选关键词词图和领域词典,确定候选关键词词图中每个词节点的覆盖范围影响力和专用节点影响力;然后,关键词抽取装置根据每个词节点的覆盖范围影响力和专用节点影响力,确定每个词节点的综合跳转概率;之后,关键词抽取装置基于每个词节点的综合跳转概率,确定文本对应的权重转移矩阵;最后,关键词抽取装置基于该权重转移矩阵,抽取文本的关键词。也就是说,本公开实施例提供的关键词抽取方法中,在构建权重转移矩阵时,是结合了词图节点的覆盖范围影响力和专用节点影响力确定每个词节点的综合跳转概率,即调整了低频关键词的权重,相比于仅根据文本的结构信息进行关键词抽取的方式,可以调整低频的专有名词被抽取的概率,降低高频的非专用名词被抽取的概率,避免由于专有名词出现的频率低导致在抽取时被遗漏的问题。
本公开实施例中的关键词抽取装置可以是装置,也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备,也可以为非移动电子设备。示例性的,移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、UMPC(ultra-mobile personal computer,级移动个人计算机)、上网本或者PDA(personal digitalassistant,个人数字助理)等,非移动电子设备可以为服务器、NAS(Network AttachedStorage,网络附属存储器)、PC(personal computer,个人计算机)、TV(television,电视机)、柜员机或者自助机等,本公开实施例不作具体限定。
本公开实施例提供的关键词抽取装置能够实现图1至图4的方法实施例实现的各个过程,为避免重复,这里不再赘述。
可选地,如图6所示,本公开实施例还提供一种电子设备600,包括处理器601,存储器602,存储在存储器602上并可在所述处理器601上运行的程序或指令,该程序或指令被处理器601执行时实现上述关键词抽取方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要说明的是,本公开实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。
图7为实现本公开实施例的一种电子设备的硬件结构示意图。
该电子设备700包括但不限于:射频单元701、网络模块702、音频输出单元703、输入单元704、传感器705、显示单元706、用户输入单元707、接口单元708、存储器709、以及处理器710等部件。
本领域技术人员可以理解,电子设备700还可以包括给各个部件供电的电源(比如电池),电源可以通过电源管理系统与处理器710逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图7中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,在此不再赘述。
本公开实施例提供的电子设备,在构建权重转移矩阵时,是结合了词图节点的覆盖范围影响力和专用节点影响力确定每个词节点的综合跳转概率,即调整了低频关键词的权重,相比于仅根据文本的结构信息进行关键词抽取的方式,可以调整低频的专有名词被抽取的概率,降低高频的非专用名词被抽取的概率,避免由于专有名词出现的频率低导致在抽取时被遗漏的问题。
应理解的是,本公开实施例中,输入单元704可以包括图形处理器(GraphicsProcessing Unit,GPU)741和麦克风742,图形处理器741对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元706可包括显示面板761,可以采用液晶显示器、有机发光二极管等形式来配置显示面板761。用户输入单元707包括触控面板771以及其他输入设备772。触控面板771,也称为触摸屏。触控面板771可包括触摸检测装置和触摸控制器两个部分。其他输入设备772可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。存储器709可用于存储软件程序以及各种数据,包括但不限于应用程序和操作系统。处理器710可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器710中。
本公开实施例还提供一种可读存储介质,所述可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述关键词抽取方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质,包括计算机可读存储介质,如计算机ROM(Read-Only Memory,只读存储器)、RAM(RandomAccess Memory,随机存取存储器)、磁碟或者光盘等。
本公开实施例另提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现上述关键词抽取方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
应理解,本公开实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本公开实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本公开各个实施例所述的方法。
上面结合附图对本公开的实施例进行了描述,但是本公开并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本公开的启示下,在不脱离本公开宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本公开的保护之内。
Claims (10)
1.一种关键词抽取方法,其特征在于,所述方法包括:
基于文本和所述文本对应的领域词典,构建所述文本的候选关键词词图;
根据所述候选关键词词图和所述领域词典,确定所述候选关键词词图中每个词节点的覆盖范围影响力和专用节点影响力;
根据所述每个词节点的覆盖范围影响力和专用节点影响力,确定每个词节点的综合跳转概率;
根据所述每个词节点的综合跳转概率,确定所述文本对应的权重转移矩阵;
基于所述权重转移矩阵,抽取所述文本的关键词。
2.根据权利要求1所述的方法,其特征在于,所述确定所述候选关键词词图中每个词节点的专用节点影响力,包括:
根据词节点的词语在文本中的重要性权重,确定所述候选关键词词图中每个词节点的专用节点影响力。
5.根据权利要求3所述的方法,其特征在于,所述基于所述权重转移矩阵,抽取所述文本的关键词,包括:
基于所述权重转移矩阵和平滑因子,计算每个词图节点的节点影响力得分;
根据每个词节点的节点影响力得分,抽取所述文本的关键词。
6.根据权利要求1所述的方法,其特征在于,所述基于文本和所述文本对应的领域词典,构建所述文本的候选关键词词图之前,所述方法还包括:
获取文本对应的领域词典。
7.根据权利要求6中所述的方法,其特征在于,所述文本为游戏文本;所述获取文本对应的领域词典,包括:
获取目标游戏的游戏日报;
基于对所述游戏日报的标注数据,通过模型训练获取所述目标游戏的专用名词,以得到所述目标游戏的领域词典。
8.一种关键词抽取装置,其特征在于,所述关键词抽取装置包括:构建模块、确定模块和抽取模块;
所述构建模块,用于基于文本和所述文本对应的领域词典,构建所述文本的候选关键词词图;
所述确定模块,用于根据所述构建模块构建的所述候选关键词词图和所述领域词典,确定所述候选关键词词图中每个词节点的覆盖范围影响力和专用节点影响力;根据所述每个词节点的覆盖范围影响力和专用节点影响力,确定每个词节点的综合跳转概率;根据所述每个词节点的综合跳转概率,确定所述文本对应的权重转移矩阵;
所述抽取模块,用于基于所述确定模块确定的所述权重转移矩阵,抽取所述文本的关键词。
9.一种电子设备,其特征在于,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1至7中任一项所述的关键词抽取方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1至7中任一项所述的关键词抽取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111123580.XA CN113822072A (zh) | 2021-09-24 | 2021-09-24 | 关键词抽取方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111123580.XA CN113822072A (zh) | 2021-09-24 | 2021-09-24 | 关键词抽取方法、装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113822072A true CN113822072A (zh) | 2021-12-21 |
Family
ID=78915400
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111123580.XA Pending CN113822072A (zh) | 2021-09-24 | 2021-09-24 | 关键词抽取方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113822072A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116777525A (zh) * | 2023-06-21 | 2023-09-19 | 深圳市创致联创科技有限公司 | 基于群优化算法的推广投放系统 |
CN117216217A (zh) * | 2023-09-19 | 2023-12-12 | 山东汇商脉网络科技有限公司 | 一种档案智能分类与检索方法 |
CN117273015A (zh) * | 2023-11-22 | 2023-12-22 | 湖南省水运建设投资集团有限公司 | 一种语义分析的电子文件归档分类方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111753088A (zh) * | 2020-06-28 | 2020-10-09 | 汪秀英 | 一种自然语言信息的处理方法 |
CN113268995A (zh) * | 2021-07-19 | 2021-08-17 | 北京邮电大学 | 中文学术关键词抽取方法、装置和存储介质 |
-
2021
- 2021-09-24 CN CN202111123580.XA patent/CN113822072A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111753088A (zh) * | 2020-06-28 | 2020-10-09 | 汪秀英 | 一种自然语言信息的处理方法 |
CN113268995A (zh) * | 2021-07-19 | 2021-08-17 | 北京邮电大学 | 中文学术关键词抽取方法、装置和存储介质 |
Non-Patent Citations (6)
Title |
---|
夏天;: "词向量聚类加权TextRank的关键词抽取", 数据分析与知识发现, no. 02, 25 February 2017 (2017-02-25), pages 28 - 32 * |
夏天;: "词向量聚类加权TextRank的关键词抽取", 数据分析与知识发现, no. 02, pages 28 - 33 * |
夏天;: "词语位置加权TextRank的关键词抽取研究", 现代图书情报技术, no. 09, pages 30 - 34 * |
李志强;潘苏含;戴娟;胡佳佳;: "一种改进的TextRank关键词提取算法", 计算机技术与发展, no. 03, pages 77 - 81 * |
牛永洁;姜宁;: "关键词提取算法TextRank影响因素的研究", 电子设计工程, no. 12, pages 1 - 5 * |
谭婷婷等: "KEC:基于cw2vec的中文专利关键词提取方法", 计算机应用研究, vol. 37, no. 10, 5 October 2020 (2020-10-05), pages 2907 - 2911 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116777525A (zh) * | 2023-06-21 | 2023-09-19 | 深圳市创致联创科技有限公司 | 基于群优化算法的推广投放系统 |
CN117216217A (zh) * | 2023-09-19 | 2023-12-12 | 山东汇商脉网络科技有限公司 | 一种档案智能分类与检索方法 |
CN117216217B (zh) * | 2023-09-19 | 2024-03-22 | 山东汇商脉网络科技有限公司 | 一种档案智能分类与检索方法 |
CN117273015A (zh) * | 2023-11-22 | 2023-12-22 | 湖南省水运建设投资集团有限公司 | 一种语义分析的电子文件归档分类方法 |
CN117273015B (zh) * | 2023-11-22 | 2024-02-13 | 湖南省水运建设投资集团有限公司 | 一种语义分析的电子文件归档分类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | Image caption generation with dual attention mechanism | |
CN106973244B (zh) | 使用弱监督数据自动生成图像字幕的方法和系统 | |
CN106776673B (zh) | 多媒体文档概括 | |
CN107066464B (zh) | 语义自然语言向量空间 | |
US11409813B2 (en) | Method and apparatus for mining general tag, server, and medium | |
US7493251B2 (en) | Using source-channel models for word segmentation | |
KR20210116379A (ko) | 텍스트 창작 방법, 텍스트 창작 장치, 전자 기기 및 저장 매체 | |
CN101645088B (zh) | 确定需要加载的辅助词库的方法、装置及输入法系统 | |
US20160328467A1 (en) | Natural language question answering method and apparatus | |
CN113095080B (zh) | 基于主题的语义识别方法、装置、电子设备和存储介质 | |
Fang et al. | Topic aspect-oriented summarization via group selection | |
US10199036B2 (en) | Method and device for implementing voice input | |
CN108345612B (zh) | 一种问题处理方法和装置、一种用于问题处理的装置 | |
CN111931501A (zh) | 一种基于人工智能的文本挖掘方法、相关装置及设备 | |
CN113822072A (zh) | 关键词抽取方法、装置及电子设备 | |
CN112257472A (zh) | 一种文本翻译模型的训练方法、文本翻译的方法及装置 | |
CN112818091A (zh) | 基于关键词提取的对象查询方法、装置、介质与设备 | |
KR102315181B1 (ko) | 개체명 연결 방법, 장치, 시스템 및 컴퓨터 프로그램 | |
CN117271736A (zh) | 一种问答对的生成方法和系统、电子设备及存储介质 | |
CN110347806B (zh) | 原创文本甄别方法、装置、设备与计算机可读存储介质 | |
CN113822038A (zh) | 一种摘要生成方法和相关装置 | |
WO2022253138A1 (zh) | 文本处理方法、装置和电子设备 | |
CN116340502A (zh) | 基于语义理解的信息检索方法和装置 | |
CN112766005B (zh) | 文本翻译方法、装置、设备及介质 | |
CN112307198B (zh) | 一种单文本的摘要确定方法和相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |