CN113377965B - 感知文本关键词的方法及相关装置 - Google Patents
感知文本关键词的方法及相关装置 Download PDFInfo
- Publication number
- CN113377965B CN113377965B CN202110745702.2A CN202110745702A CN113377965B CN 113377965 B CN113377965 B CN 113377965B CN 202110745702 A CN202110745702 A CN 202110745702A CN 113377965 B CN113377965 B CN 113377965B
- Authority
- CN
- China
- Prior art keywords
- text
- word
- server
- keywords
- topic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 230000011218 segmentation Effects 0.000 claims abstract description 55
- 238000012545 processing Methods 0.000 claims abstract description 18
- 239000011159 matrix material Substances 0.000 claims description 52
- 239000013598 vector Substances 0.000 claims description 24
- 238000004891 communication Methods 0.000 claims description 18
- 238000004422 calculation algorithm Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 230000008447 perception Effects 0.000 claims description 5
- 230000009467 reduction Effects 0.000 claims description 5
- 239000010410 layer Substances 0.000 description 15
- 230000006870 function Effects 0.000 description 14
- 230000008569 process Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 7
- 238000003058 natural language processing Methods 0.000 description 7
- 238000011161 development Methods 0.000 description 6
- 230000018109 developmental process Effects 0.000 description 6
- 238000009826 distribution Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 239000002356 single layer Substances 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000013016 damping Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本申请提供一种感知文本关键词的方法及相关装置,包括步骤:服务器获取第一文本;所述服务器获取用户词典,所述用户词典中包括银行业专业术语;所述服务器基于所述用户词典对所述第一文本进行分词处理,得到第一分词结果;所述服务器基于所述第一分词结果感知所述第一文本的关键词。该技术方案在获取文本关键词时,使用的是包括银行业专业术语的用户词典,不仅使分词结果更加准确,而且提高了关键词的准确率。
Description
技术领域
本申请涉及自然语言处理领域,尤其涉及一种感知文本关键词的方法及相关装置。
背景技术
银行业对行业态势发展十分敏感,及时准确地感知到银行业作业文本的关键词,一方面可以帮助梳理明确当前行业业务、技术、产业现状和趋势,为银行相关作业战略决策提供现实依据;另一方面可以更好的把握当前银行作业拓展方向和关注焦点,为银行创收发展提供创新理论和方法。
现有技术在感知关键词时,首先获取银行业作业文本和用户词典,然后根据该用户词典对银行业作业文本进行分词处理,得到第一分词结果,最后基于该第一分词结果感知第一文本的关键词。但是采用该方法得到的关键词准确率低。
发明内容
本申请提供一种感知文本关键词的方法及相关装置,将银行业专业术语加入用户词典,然后使用该词典进行文本分词,得到分词结果,并根据该结果感知关键词,提高了关键词的准确率。
第一方面,本申请提供一种感知文本关键词的方法。所述方法包括:服务器获取第一文本;所述服务器获取用户词典,所述用户词典中包括银行业专业术语;所述服务器基于所述用户词典对所述第一文本进行分词处理,得到第一分词结果;所述服务器基于所述第一分词结果感知所述第一文本的关键词。
本申请的方法中,在对第一文本进行分词时,使用的是包括银行业专业术语的用户词典,不仅使分词结果更加准确,而且提高了根据该分词结果得到的关键词的准确率。
结合第一方面,在第一种可能的实现方式中,所述服务器获取用户词典,包括:所述服务器获取第二文本;所述服务器使用条件随机场CRF模型获取所述第二文本中的银行业专业术语;所述服务器生成包含所述第二文本中的银行业专业术语的所述用户词典。
结合第一方面,在第二种可能的实现方式中,所述服务器基于所述第一分词结果感知所述第一文本的关键词,包括:所述服务器使用单词转换向量Word2Vec模型获取所述第一分词结果的词向量矩阵;所述服务器使用主题-词BTM模型获取所述词向量矩阵的第一主题-词对矩阵;所述服务器使用文本排列TextRank算法对所述第一主题-词对矩阵进行降维处理,得到第二主题-词对矩阵,所述第二主题-词对矩阵的维度小于所述第一主题-词对矩阵的维度;所述服务器将所述第二主题-词对矩阵转换成文本信息,得到所述第一文本中的关键词。
该实现方式中,采用Word2Vec模型、BTM模型以及TextRank算法得到第一文本的关键词,解决了基于统计概率模型获取第一文本关键词不准确的问题,提高了关键词的准确率。
结合第一方面或第一种或第二种可能的实现方式,在第三种可能的实现方式中,所述方法还包括:所述服务器通过开源软件基于所述关键词生成所述第一文本的关键词热点图。
该实现方式中,基于开源软件将关键词生成第一文本的关键词热点图,比起现有技术简单的用文本表格形式列举,更加直观的分析与展示了关键词。
第二方面,本申请提供了一种感知文本关键词的装置。所述装置包括:获取模块,用于服务器获取第一文本;获取模块,还用于所述服务器获取用户词典,所述用户词典中包括银行业专业术语;分词模块,用于所述服务器基于所述用户词典对所述第一文本进行分词处理,得到第一分词结果;感知模块,用于所述服务器基于所述第一分词结果感知所述第一文本的关键词。
结合第二方面,在第一种可能的实现方式中,所述获取模块具体用于:所述服务器获取第二文本;所述服务器使用条件随机场CRF模型获取所述第二文本中的银行业专业术语;所述服务器生成包含所述第二文本中的银行业专业术语的所述用户词典。
结合第二方面,在第二种可能的实现方式中,所述感知模块具体用于:所述服务器使用单词转换向量Word2Vec模型获取所述第一分词结果的词向量矩阵;所述服务器使用主题-词BTM模型获取所述词向量矩阵的第一主题-词对矩阵;所述服务器使用文本排列TextRank算法对所述第一主题-词对矩阵进行降维处理,得到第二主题-词对矩阵,所述第二主题-词对矩阵的维度小于所述第一主题-词对矩阵的维度;所述服务器将所述第二主题-词对矩阵转换成文本信息,得到所述第一文本中的关键词。
结合第二方面或第一种或第二种可能的实现方式,在第三种可能的实现方式中,所述装置还包括生成模块,用于:所述服务器通过开源软件基于所述关键词生成所述第一文本的关键词热点图。
第三方面,本申请提供一种感知文本关键词的装置,包括:存储器和处理器;所述存储器用于存储程序指令;所述处理器用于调用所述存储器中的程序指令执行如第一方面或其中任意一种可能的实现方式所述的方法。
第四方面,本申请提供一种芯片,包括至少一个处理器和通信接口,所述通信接口和所述至少一个处理器通过线路互联,所述至少一个处理器用于运行计算机程序或指令,以执行如第一方面或其中任意一种可能的实现方式所述的方法。
第五方面,本申请提供一种计算机可读介质,该计算机可读介质存储用于设备执行的程序代码,该程序代码包括用于执行如第一方面或其中任意一种可能的实现方式所述的方法。
第六方面,本申请提供一种包含指令的计算机程序产品,当该计算机程序产品在计算机上运行时,使得计算机执行如第一方面或其中任意一种可能的实现方式所述的方法。
第七方面,本申请提供一种计算设备,包括至少一个处理器和通信接口,所述通信接口和所述至少一个处理器通过线路互联,所述通信接口与目标系统通信,所述至少一个处理器用于运行计算机程序或指令,以执行如第一方面或其中任意一种可能的实现方式所述的方法。
附图说明
图1为本申请一个实施例的感知文本关键词的方法的示例性流程图;
图2为本申请一个实施例的CRF模型的结构示意图;
图3为本申请一个实施例的Word2Vec模型的网络结构示意图;
图4为本申请一个实施例提供的感知文本关键词的装置的结构示意图;
图5为本申请另一个实施例提供的感知文本关键词的装置的结构示意图。
具体实施方式
为了更好地介绍本申请的实施例,下面对本申请的实施例中的一些概念进行介绍。
银行业作业文本:银行业作业文本指的是银行进行业务处理时生成的文本信息,银行业作业文本的长短、主题、内容各异。
作业热点:通过算法模型分析银行业作业文本得到的关键词,称之为作业热点。
主题-词对(biterm topic mode,BTM)模型:是一种在LDA主题模型上的改进的模型,通过计算主题-词对(Topic-Biterm)的概率分布得到相关银行业作业文本的主题词集合。
文本排列(TextRank)算法:启发于网页排名(PageRank)算法,可以将银行业作业文本数据分割成若干组成单元(单词、句子)并建立图模型,利用投票机制进行重要度排序得到关键词等信息。
条件随机场(conditional random fields,CRF):CRF模型通过预先对其词元进行多维特征标注形成特征序列,配合相应的特征结构和特征模板提取银行业作业信息中包含的银行业专业词汇。
Word2Vec:是一款开元词向量计算工具,其应用浅层网络解析中心词和窗口词关系,达到词嵌入(Word Embedding),得到作业信息的向量化表达矩阵。
自然语言处理(natural language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。
NLP主要应用于机器翻译、舆情监测、自动摘要、观点提取、中文分词、文本分类、问题回答、文本语义对比、语音识别等方面。
银行业对行业态势发展十分敏感,及时准确地感知银行业作业文本的关键词,分析作业热点,一方面可以帮助梳理和明确当前行业业务、技术、产业现状和趋势,为银行相关作业战略决策提供现实依据;另一方面可以更好的把握当前银行作业拓展方向和关注焦点,为银行创收发展提供创新理论和方法。
大数据时代下,银行能够日常采集到海量的作业文本,如何应用这些作业文本提取其中有价值的信息,得到作业文本的关键词,对快速把握当前作业热点以准确判断发展趋势尤为重要。
现有技术在感知文本关键词时,首先获取银行业作业文本和用户词典,然后通过将银行业作业文本中的每个字符串和用户词典中的词逐一匹配来实现分词,进而根据分词结果感知银行业作业文本的关键词,但是由于银行业作业文本包含专业词汇,导致根据现有的用户词典得到的分词结果不准确,进一步导致根据该分词结果得到的关键词的准确率不高。
因此,本申请提出了一种感知文本关键词的方法,将银行业专业术语加入用户词典,根据该词典对银行业作业文本进行分词,然后根据分词结果感知银行业作业文本的关键词,该方法不仅使得分词结果更加准确,而且提高了关键词的准确率。
进一步的,现有技术是采用基于统计的概率模型(例如,贝叶斯模型等)对分词结果进行处理,得到银行业作业文本的关键词。而该方法对复杂作业文本的应对能力较差,感知到的关键词的准确率低。
而本申请使用BTM、Word2Vec模型结合TextRank算法来对分词结果进行处理,感知银行业作业文本的关键词,该方法提高了关键词的准确率。
另外,现有技术对感知到的关键词以文本表格形式列举出来,以供银行业从业人员研究,但是该方法缺乏可视化直观分析与展示。
针对此问题,本申请采用了开源软件对关键词进行处理,可以得到内容丰富饱满的各种关键词热点图,而比起文本表格形式,热点图更加直观,利于分析与展示。
下面结合附图对本申请的实施例进行详细说明。
图1为本申请一个实施例的感知文本关键词的方法的示例性流程图。如图1所示,该方法可以包括:S101、S102、S103和S104。
S101,服务器获取第一文本。
本实施例中,服务器部署了实现感知文本关键词的方法的相关程序,可以包括一台或多台服务器。本申请对服务器的数量不做具体限制。
本实施例中,第一文本可以包括银行业作业文本,其中银行业作业文本可以包括银行进行业务处理时生成的文本信息。
作为一种示例,第一文本可以为6月25日股票大盘上涨。
作为另一种示例,第一文本可以为银行的积分交易笔数为10000笔。
S102,服务器获取用户词典,该用户词典中包括银行业专业术语。
作为一种示例,用户词典可以为互联网词库。
作为另一种示例,用户词典可以为清华大学开放中文词库。
本实施例中,用户词典可以包括银行业专业术语,其中,银行业专业术语指的是金融领域对一些特定事物的统一的业内称谓。服务器获取用户词典包括以下步骤:
步骤1021,服务器获取第二文本。
本实施例中,第二文本可以包括银行业作业文本。
步骤1022,服务器使用CRF模型获取第二文本中的银行业专业术语。
本实施例中,服务器首先对第二文本进行词性标注,生成特征序列。然后使用CRF模型从该特征序列中获取银行业专业术语。
作为一种示例,本申请使用CRF模型依据特征结构对标注好的特征序列进行专业术语提取,得到银行业专业术语。
本实施例中,使用的CRF模型的特征结构为“字-词性-边界-专业术语特征词”,其中字代表以第二文本中的每个字作为特征序列的基本单元,词性代表第二文本中每个字的词性组成的序列,边界代表第二文本中每个词的首、中和尾字以特定符号标记组成的序列,专业术语特征词为由统计得到的专业术语的词头、词尾和常见词。即通过文本每个字的词性标注序列、边界标注序列和专业术语特征词标注序列作为给定的条件序列,应用CRF模型得到满足上述条件序列下的特定序列,即专业术语序列,并根据其中的边界标注得到相应的银行业专业术语。
图2为本申请一个实施例的CRF模型的结构示意图。结合图2对CRF模型加以简单介绍,在CRF中,设X=(X1,X2,X3,…,Xn)和Y=(Y1,Y2,Y3,…,Yn)均为线性链表示的随机变量序列,若在给定的随机变量序列X的条件下,随机变量Y的条件概率分布P(Y|X)构成条件随机场,且满足马尔可夫性。
其中,P(Y|X)满足如下关系式:
其中,tk(Yi-1,Yi,X,i)为转移函数,表示在序列X下序列Y在位置i-1及i对应的值转移概率,sl(Yi,X,i)为状态函数,表示在序列X下序列Y在位置i对应的值概率,λk和μl分别为转移函数和状态函数的权值。
步骤1023,服务器生成包含第二文本中的银行业专业术语的用户词典。
本实施例中,服务器将获取的银行业专业术语,形成合集,生成包含第二文本中的银行业专业术语的用户词典。
S103,服务器基于该用户词典对第一文本进行分词处理,得到第一分词结果。
本实施例中,基于用户词典对第一文本进行分词的方法称为规则分词,该方法在切分第一文本中的语句时,将语句中的每个字符串与词典中的词进行逐一匹配,找到则切分,得到第一分词结果,否则不予以切分。
按照匹配方式,规则分词主要有正向最大匹配(maximum match method,MM)法、逆向最大匹配(reverse maximum match method,RMM)法和双向最大匹配(Bi-directionMatching method)法三种方法。
作为一种示例,MM法的实现步骤如下:
步骤1031:从左到右取第一文本中语句的m个字符作为匹配字段,m为用户词典中最长词条的字符数。
步骤1032:查找用户词典并进行匹配。若匹配成功,则将这个匹配字段作为一个词切分出来。若匹配不成功,则将这个匹配字段的最后一个字去掉,剩下的字符串作为新的匹配字段,再次进行匹配,重复以上过程,直到切分出所有词为止。
作为一种示例,假设用户词典的最长词的长度为5,词典中存在“南京市”和“长江大桥”两个词。待切分的句子为“南京市长江大桥”,则MM法的实现步骤为:首先从句子中取出前5个字“南京市长江”,发现词典中没有该词,于是缩小长度,取前4个字“南京市长”,发现词典中还是没有存在该词,再次缩小长度,取前3个字“南京市”,发现词典中存在该词,于是该词被确认切分。在将剩下的“长江大桥”按照同样的方式切分,得到“长江大桥”,最终将语句“南京市长江大桥”切分为“南京市”“长江大桥”2个词。
S104,服务器基于第一分词结果感知第一文本的关键词。
本实施例中,服务器基于第一分词结果感知第一文本的关键词指的是服务器对第一分词结果进行处理,得到第一文本的关键词的过程。感知第一文本的关键词包括以下步骤:
步骤1041,服务器使用Word2Vec模型获取第一分词结果的词向量矩阵。
本实施例中,Word2Vec本质上是一个简单化的单层神经网络,其网络结构如图3所示。
由图3可以看出,该单层神经网络是经典的三层前馈神经网络结构,包括三层:输入层、隐藏层和输出层。Word2Vec可以将第一分词结果中的每个词根据用户词典转化为One-Hot类型词向量{xk,k=1,2,…,V},然后将{xk,k=1,2,…V}作为输入层。中间的隐藏层{hi,i=1,2,…,N}没有激活函数是线性单元。输出层的{yj,j=1,2,…,V}跟输入层的维度相同,也是一个One-Hot类型词向量。一般Word2Vec模型会在输出层之后加入softmax函数,将{yj,j=1,2,…,V}转化为对应的概率值。
其中,图3中的WV×N={wki}表示输入层到隐藏层的权重矩阵,W’N×V={w′ij}表示隐藏层到输出层的权重矩阵。
对于第一分词结果中所有词语进行词向量转换后,便得到了一个由词向量组成的词向量矩阵W:
其中,W为一个由第一分词结果转换得到的词向量矩阵。
步骤1042,服务器使用BTM模型获取词向量矩阵的第一主题-词对矩阵。
本实施例中,BTM模型是一个主题模型,认为一个文本与组成文本的每个词都是通过“文本以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到的。而BTM模型关注的不是单个词语与文本、主题间的关系而是一对一对词语对与此二者的关系。该过程可以满足如下概率关系式:
p(w|tx)=p(w|tp)×p(tp|tx)
其中,w为词语对,tx为文本,而tp为主题,p(w|tx)表示在一个文本下某个词语对的概率,p(w|tp)表示在一个主题下某个词语对的概率,p(tp|tx)表示在一个文本下某个主题的概率。
实际使用时BTM模型的形式为一个“文本-主题-词语”的三层贝叶斯生成模型。其中包含了两组狄利克雷分布(dirichlet distribution),分别为引入超参的α的“文本-主题”狄利克雷分布与引入超参的β的“主题-词语”狄利克雷分布。
对于第一分词结果的词向量矩阵进行主题向量转换后得到第一主题-词对矩阵T:
其中,其中,T为一个由词向量矩阵转换得到的主题-词对矩阵。
步骤1043,服务器使用TextRank算法对第一主题-词对矩阵进行降维处理,得到第二主题-词对矩阵,第二主题-词对矩阵的维度小于第一主题-词对矩阵的维度。
本实施例中,TextRank算法的一般模型可以表示为一个有向有权图G(V,E),由点集合V和边集合E组成,E是V×V的子集。其中任两点Vi,Vj之间边的权重为Wji,对于一个给定的点Vi,In(Vi)为指向该点的点集合,Out(Vi)为该点指向的点集合。点Vi的得分定义如下:
其中,S(Vi)指的是单词对主题的重要度,d为阻尼系数,取值范围为0到1,代表从某一特定点指向其他任意点的概率,一般取值为0.85。
步骤1404,服务器将第二主题-词对矩阵转换成文本信息,得到第一文本中的关键词。
本实施例中,得到第二主题-词对矩阵之后,根据主题-词对矩阵与第一文本之间的对应关系,把第二主题-词对矩阵转换成文本信息,得到第一文本中的关键词。
进一步的,本申请将得到的关键词输入开源软件内,生成第一文本的关键词热点图,以便银行业从业人员进行可视化直观分析与展示。
本实施例中,开源软件可以为Gephi。
本实施例中,关键词热点图就是将分类处理之后的关键词以图的形式表示出来,其中该图可以包括象限图。
图4为本申请一个实施例提供的感知文本关键词的装置的结构示意图。图4所示的装置可以用于执行图1所述的方法。如图4所示,本实施例的感知文本关键词的装置400可以包括:获取模块401、分词模块402、感知模块403。
例如,获取模块401可以用于执行S101、S102,分词模块402可以用于执行S103,感知模块403可以用于执行S104。
可选地,装置400还可以包括生成模块,以实现图1所示方法中相关功能。例如,生成模块可以用于实现图1所述方法中与生成相关的功能。
图5为本申请另一个实施例提供的感知文本关键词的装置的结构示意图。图5所示的装置可以用于执行前述任意一个实施例所述的感知文本关键词的方法。
如图5所示,本实施例的装置500包括:存储器501、处理器502、通信接口503以及总线504。其中,存储器501、处理器502、通信接口503通过总线504实现彼此之间的通信连接。
存储器501可以是只读存储器(read only memory,ROM),静态存储设备,动态存储设备或者随机存取存储器(random access memory,RAM)。存储器501可以存储程序,当存储器501中存储的程序被处理器502执行时,处理器502用于执行图1中任一所示的方法的各个步骤。
处理器502可以采用通用的中央处理器(central processing unit,CPU),微处理器,应用专用集成电路(application specific integrated circuit,ASIC),或者一个或多个集成电路,用于执行相关程序,以实现本申请方法实施例的感知文本关键词的方法。
处理器502还可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,本申请实施例的积分清算方法的各个步骤可以通过处理器502中的硬件的集成逻辑电路或者软件形式的指令完成。
上述处理器502还可以是通用处理器、数字信号处理器(digital signalprocessing,DSP)、专用集成电路(ASIC)、现成可编程门阵列(field programmable gatearray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器501,处理器502读取存储器501中的信息,结合其硬件完成本申请感知文本关键词的装置包括的单元所需执行的功能,例如,可以执行图1中任一所示实施例的各个步骤/功能。
通信接口503可以使用但不限于收发器一类的收发装置,来实现装置500与其他设备或通信网络之间的通信。
总线504可以包括在装置500各个部件(例如,存储器501、处理器502、通信接口503)之间传送信息的通路。
应理解,本申请实施例所示的装置500可以是电子设备,或者,也可以是配置于电子设备中的芯片。
上述实施例,可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时,上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行所述计算机指令或计算机程序时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质。半导体介质可以是固态硬盘。
应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况,其中A,B可以是单数或者复数。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系,但也可能表示的是一种“和/或”的关系,具体可参考前后文进行理解。
本申请中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b,或c中的至少一项(个),可以表示:a,b,c,a-b,a-c,b-c,或a-b-c,其中a,b,c可以是单个,也可以是多个。
应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (7)
1.一种感知文本关键词的方法,其特征在于,所述方法包括:
服务器获取第一文本;
所述服务器获取用户词典,所述用户词典中包括银行业专业术语;
所述服务器基于所述用户词典对所述第一文本进行分词处理,得到第一分词结果;
所述服务器基于所述第一分词结果感知所述第一文本的关键词;
所述服务器获取用户词典,包括:
所述服务器获取第二文本;
所述服务器使用条件随机场CRF模型获取所述第二文本中的银行业专业术语;
所述服务器生成包含所述第二文本中的银行业专业术语的所述用户词典;
所述服务器基于所述第一分词结果感知所述第一文本的关键词,包括:
所述服务器使用单词转换向量Word2Vec模型获取所述第一分词结果的词向量矩阵;
所述服务器使用主题-词BTM模型获取所述词向量矩阵的第一主题-词对矩阵;
所述服务器使用文本排列TextRank算法对所述第一主题-词对矩阵进行降维处理,得到第二主题-词对矩阵,所述第二主题-词对矩阵的维度小于所述第一主题-词对矩阵的维度;
所述服务器将所述第二主题-词对矩阵转换成文本信息,得到所述第一文本中的关键词。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
所述服务器通过开源软件基于所述关键词生成所述第一文本的关键词热点图。
3.一种感知文本关键词的装置,其特征在于,所述装置包括:
获取模块,用于服务器获取第一文本;
获取模块,还用于所述服务器获取用户词典,所述用户词典中包括银行业专业术语;
分词模块,用于所述服务器基于所述用户词典对所述第一文本进行分词处理,得到第一分词结果;
感知模块,用于所述服务器基于所述第一分词结果感知所述第一文本的关键词;
所述获取模块具体用于:
所述服务器获取第二文本;
所述服务器使用条件随机场CRF模型获取所述第二文本中的银行业专业术语;
所述服务器生成包含所述第二文本中的银行业专业术语的所述用户词典;
所述感知模块具体用于:
所述服务器使用单词转换向量Word2Vec模型获取所述第一分词结果的词向量矩阵;
所述服务器使用主题-词BTM模型获取所述词向量矩阵的第一主题-词对矩阵;
所述服务器使用文本排列TextRank算法对所述第一主题-词对矩阵进行降维处理,得到第二主题-词对矩阵,所述第二主题-词对矩阵的维度小于所述第一主题-词对矩阵的维度;
所述服务器将所述第二主题-词对矩阵转换成文本信息,得到所述第一文本中的关键词。
4.根据权利要求3所述的装置,其特征在于,所述装置还包括生成模块,用于:
所述服务器通过开源软件基于所述关键词生成所述第一文本的关键词热点图。
5.一种芯片,其特征在于,包括至少一个处理器和通信接口,所述通信接口和所述至少一个处理器通过线路互联,所述至少一个处理器用于运行计算机程序或指令,以执行如权利要求1或2所述的方法。
6.一种感知文本关键词的装置,其特征在于,包括:存储器和处理器;
所述存储器用于存储程序指令;
所述处理器用于调用所述存储器中的程序指令执行如权利要求1或2所述的方法。
7.一种计算机可读介质,其特征在于,所述计算机可读介质存储用于计算机执行的程序代码,该程序代码包括用于执行如权利要求1或2所述的方法的指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110745702.2A CN113377965B (zh) | 2021-06-30 | 2021-06-30 | 感知文本关键词的方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110745702.2A CN113377965B (zh) | 2021-06-30 | 2021-06-30 | 感知文本关键词的方法及相关装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113377965A CN113377965A (zh) | 2021-09-10 |
CN113377965B true CN113377965B (zh) | 2024-02-23 |
Family
ID=77580521
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110745702.2A Active CN113377965B (zh) | 2021-06-30 | 2021-06-30 | 感知文本关键词的方法及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113377965B (zh) |
Citations (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4706212A (en) * | 1971-08-31 | 1987-11-10 | Toma Peter P | Method using a programmed digital computer system for translation between natural languages |
CA1281429C (en) * | 1987-01-05 | 1991-03-12 | Gachot S.A. | Method using a programmed digital computer system for translation between natural languages |
CN104391963A (zh) * | 2014-12-01 | 2015-03-04 | 北京中科创益科技有限公司 | 一种自然语言文本关键词关联网络构建方法 |
WO2015196909A1 (zh) * | 2014-06-27 | 2015-12-30 | 北京奇虎科技有限公司 | 一种分词方法和装置 |
CN108509419A (zh) * | 2018-03-21 | 2018-09-07 | 山东中医药大学 | 中医药古籍文献分词和词性标引方法及系统 |
CN108776653A (zh) * | 2018-05-25 | 2018-11-09 | 南京大学 | 一种基于PageRank和信息熵的裁判文书的文本分词方法 |
CN109657062A (zh) * | 2018-12-24 | 2019-04-19 | 万达信息股份有限公司 | 一种基于大数据技术的电子病历文本解析闭环方法 |
CN109885826A (zh) * | 2019-01-07 | 2019-06-14 | 平安科技(深圳)有限公司 | 文本词向量获取方法、装置、计算机设备及存储介质 |
CN110059311A (zh) * | 2019-03-27 | 2019-07-26 | 银江股份有限公司 | 一种面向司法文本数据的关键词提取方法及系统 |
WO2019153551A1 (zh) * | 2018-02-12 | 2019-08-15 | 平安科技(深圳)有限公司 | 文章分类方法、装置、计算机设备及存储介质 |
WO2019200806A1 (zh) * | 2018-04-20 | 2019-10-24 | 平安科技(深圳)有限公司 | 文本分类模型的生成装置、方法及计算机可读存储介质 |
CN110852100A (zh) * | 2019-10-30 | 2020-02-28 | 北京大米科技有限公司 | 关键词提取方法、装置、电子设备及介质 |
CN110929043A (zh) * | 2019-11-28 | 2020-03-27 | 北京智齿博创科技有限公司 | 业务问题提取方法及装置 |
CN110990532A (zh) * | 2019-11-28 | 2020-04-10 | 中国银行股份有限公司 | 一种处理文本的方法和装置 |
CN111291195A (zh) * | 2020-01-21 | 2020-06-16 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、终端及可读存储介质 |
CN111832299A (zh) * | 2020-07-17 | 2020-10-27 | 成都信息工程大学 | 一种中文分词系统 |
CN111950261A (zh) * | 2020-10-16 | 2020-11-17 | 腾讯科技(深圳)有限公司 | 提取文本关键词的方法、设备和计算机可读存储介质 |
WO2020232861A1 (zh) * | 2019-05-20 | 2020-11-26 | 平安科技(深圳)有限公司 | 命名实体识别方法、电子装置及存储介质 |
CN112307175A (zh) * | 2020-12-02 | 2021-02-02 | 龙马智芯(珠海横琴)科技有限公司 | 一种文本处理方法、装置、服务器及计算机可读存储介质 |
WO2021017296A1 (zh) * | 2019-08-01 | 2021-02-04 | 平安科技(深圳)有限公司 | 信息识别的方法、装置、设备及存储介质 |
CN112364648A (zh) * | 2020-12-02 | 2021-02-12 | 中金智汇科技有限责任公司 | 一种关键词抽取方法、装置、电子设备及存储介质 |
CN112364136A (zh) * | 2021-01-12 | 2021-02-12 | 平安国际智慧城市科技股份有限公司 | 关键词生成方法、装置、设备及存储介质 |
CN112632292A (zh) * | 2020-12-23 | 2021-04-09 | 深圳壹账通智能科技有限公司 | 业务关键词的提取方法、装置、设备及存储介质 |
CN112632973A (zh) * | 2020-12-31 | 2021-04-09 | 中国农业银行股份有限公司 | 一种文本处理的方法、装置、设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8214346B2 (en) * | 2008-06-27 | 2012-07-03 | Cbs Interactive Inc. | Personalization engine for classifying unstructured documents |
-
2021
- 2021-06-30 CN CN202110745702.2A patent/CN113377965B/zh active Active
Patent Citations (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4706212A (en) * | 1971-08-31 | 1987-11-10 | Toma Peter P | Method using a programmed digital computer system for translation between natural languages |
CA1281429C (en) * | 1987-01-05 | 1991-03-12 | Gachot S.A. | Method using a programmed digital computer system for translation between natural languages |
WO2015196909A1 (zh) * | 2014-06-27 | 2015-12-30 | 北京奇虎科技有限公司 | 一种分词方法和装置 |
CN104391963A (zh) * | 2014-12-01 | 2015-03-04 | 北京中科创益科技有限公司 | 一种自然语言文本关键词关联网络构建方法 |
WO2019153551A1 (zh) * | 2018-02-12 | 2019-08-15 | 平安科技(深圳)有限公司 | 文章分类方法、装置、计算机设备及存储介质 |
CN108509419A (zh) * | 2018-03-21 | 2018-09-07 | 山东中医药大学 | 中医药古籍文献分词和词性标引方法及系统 |
WO2019200806A1 (zh) * | 2018-04-20 | 2019-10-24 | 平安科技(深圳)有限公司 | 文本分类模型的生成装置、方法及计算机可读存储介质 |
CN108776653A (zh) * | 2018-05-25 | 2018-11-09 | 南京大学 | 一种基于PageRank和信息熵的裁判文书的文本分词方法 |
CN109657062A (zh) * | 2018-12-24 | 2019-04-19 | 万达信息股份有限公司 | 一种基于大数据技术的电子病历文本解析闭环方法 |
CN109885826A (zh) * | 2019-01-07 | 2019-06-14 | 平安科技(深圳)有限公司 | 文本词向量获取方法、装置、计算机设备及存储介质 |
CN110059311A (zh) * | 2019-03-27 | 2019-07-26 | 银江股份有限公司 | 一种面向司法文本数据的关键词提取方法及系统 |
WO2020232861A1 (zh) * | 2019-05-20 | 2020-11-26 | 平安科技(深圳)有限公司 | 命名实体识别方法、电子装置及存储介质 |
WO2021017296A1 (zh) * | 2019-08-01 | 2021-02-04 | 平安科技(深圳)有限公司 | 信息识别的方法、装置、设备及存储介质 |
CN110852100A (zh) * | 2019-10-30 | 2020-02-28 | 北京大米科技有限公司 | 关键词提取方法、装置、电子设备及介质 |
CN110929043A (zh) * | 2019-11-28 | 2020-03-27 | 北京智齿博创科技有限公司 | 业务问题提取方法及装置 |
CN110990532A (zh) * | 2019-11-28 | 2020-04-10 | 中国银行股份有限公司 | 一种处理文本的方法和装置 |
CN111291195A (zh) * | 2020-01-21 | 2020-06-16 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、终端及可读存储介质 |
CN111832299A (zh) * | 2020-07-17 | 2020-10-27 | 成都信息工程大学 | 一种中文分词系统 |
CN111950261A (zh) * | 2020-10-16 | 2020-11-17 | 腾讯科技(深圳)有限公司 | 提取文本关键词的方法、设备和计算机可读存储介质 |
CN112307175A (zh) * | 2020-12-02 | 2021-02-02 | 龙马智芯(珠海横琴)科技有限公司 | 一种文本处理方法、装置、服务器及计算机可读存储介质 |
CN112364648A (zh) * | 2020-12-02 | 2021-02-12 | 中金智汇科技有限责任公司 | 一种关键词抽取方法、装置、电子设备及存储介质 |
CN112632292A (zh) * | 2020-12-23 | 2021-04-09 | 深圳壹账通智能科技有限公司 | 业务关键词的提取方法、装置、设备及存储介质 |
CN112632973A (zh) * | 2020-12-31 | 2021-04-09 | 中国农业银行股份有限公司 | 一种文本处理的方法、装置、设备及存储介质 |
CN112364136A (zh) * | 2021-01-12 | 2021-02-12 | 平安国际智慧城市科技股份有限公司 | 关键词生成方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113377965A (zh) | 2021-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108959246B (zh) | 基于改进的注意力机制的答案选择方法、装置和电子设备 | |
JP7302022B2 (ja) | テキスト分類方法、装置、コンピュータ読み取り可能な記憶媒体及びテキスト分類プログラム。 | |
CN108363790B (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
US10606946B2 (en) | Learning word embedding using morphological knowledge | |
US11113323B2 (en) | Answer selection using a compare-aggregate model with language model and condensed similarity information from latent clustering | |
CN111241237B (zh) | 一种基于运维业务的智能问答数据处理方法及装置 | |
CN112270196B (zh) | 实体关系的识别方法、装置及电子设备 | |
CN110705206B (zh) | 一种文本信息的处理方法及相关装置 | |
CN111046656B (zh) | 文本处理方法、装置、电子设备及可读存储介质 | |
CN110879834B (zh) | 一种基于循环卷积网络的观点检索系统及其观点检索方法 | |
CN109740158B (zh) | 一种文本语义解析方法及装置 | |
CN113591483A (zh) | 一种基于序列标注的文档级事件论元抽取方法 | |
CN111144120A (zh) | 一种训练语句的获取方法、装置、存储介质及电子设备 | |
CN111930792B (zh) | 数据资源的标注方法、装置、存储介质及电子设备 | |
CN113255320A (zh) | 基于句法树和图注意力机制的实体关系抽取方法及装置 | |
CN111767714B (zh) | 一种文本通顺度确定方法、装置、设备及介质 | |
Banik et al. | Gru based named entity recognition system for bangla online newspapers | |
CN111274829A (zh) | 一种利用跨语言信息的序列标注方法 | |
CN115455171B (zh) | 文本视频的互检索以及模型训练方法、装置、设备及介质 | |
CN115203421A (zh) | 一种长文本的标签生成方法、装置、设备及存储介质 | |
CN116050352A (zh) | 文本编码方法和装置、计算机设备及存储介质 | |
CN110852071A (zh) | 知识点检测方法、装置、设备及可读存储介质 | |
CN113723077A (zh) | 基于双向表征模型的句向量生成方法、装置及计算机设备 | |
CN113220862A (zh) | 标准问识别方法、装置及计算机设备及存储介质 | |
CN113434636A (zh) | 基于语义的近似文本搜索方法、装置、计算机设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |