CN113761123A - 关键词获取的方法、装置、计算设备和存储介质 - Google Patents
关键词获取的方法、装置、计算设备和存储介质 Download PDFInfo
- Publication number
- CN113761123A CN113761123A CN202110557654.4A CN202110557654A CN113761123A CN 113761123 A CN113761123 A CN 113761123A CN 202110557654 A CN202110557654 A CN 202110557654A CN 113761123 A CN113761123 A CN 113761123A
- Authority
- CN
- China
- Prior art keywords
- keyword
- keywords
- word
- word vector
- recall
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 81
- 238000003860 storage Methods 0.000 title claims description 31
- 239000013598 vector Substances 0.000 claims abstract description 106
- 238000012216 screening Methods 0.000 claims abstract description 18
- 238000005070 sampling Methods 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 17
- 238000004422 calculation algorithm Methods 0.000 claims description 12
- 230000014509 gene expression Effects 0.000 claims description 9
- 238000012163 sequencing technique Methods 0.000 claims description 9
- 230000011218 segmentation Effects 0.000 claims description 7
- 238000005516 engineering process Methods 0.000 abstract description 20
- 238000005065 mining Methods 0.000 abstract description 14
- 230000008901 benefit Effects 0.000 abstract description 2
- 238000012545 processing Methods 0.000 description 14
- 238000013473 artificial intelligence Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000005295 random walk Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 230000006798 recombination Effects 0.000 description 4
- 238000005215 recombination Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 241000764238 Isis Species 0.000 description 1
- 230000001442 anti-mosquito Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000003930 cognitive ability Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000012010 growth Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000033001 locomotion Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Evolutionary Computation (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请例提供了一种关键词获取方法,包括:获取种子关键词;基于所述种子关键词对全量语料库中的关键词进行正则筛选,得到召回关键词;获取所述召回关键词的平均词向量和正例关键词库中正例关键词的平均词向量;计算所述召回关键词的平均词向量与所述正例关键词的平均词向量的相似度;提取所述相似度大于预定阈值的召回关键词作为候选关键词;以预定频率作为权重对所述候选关键词进行排序,输出经排序的关键词。该方法联想挖掘的精确度和召回率相对于相关技术具有较大提升,并且能够从语料中挖掘高质量关键词组。
Description
技术领域
本申请涉及人工智能文本挖掘技术领域,尤其涉及一种关键词的获取方法和装置、计算设备以及计算机可读存储介质。
背景技术
信息技术的不断发展使得许多领域的信息呈现爆炸式增长,大量文本信息被电子化。诸如数字图书馆、电子论文库、企业网站、产品介绍等电子资源为人们收集信息、存储信息和基于信息进行分析带来了极大的便利。随着电子信息的不断增加,从大规模文本信息中快速准确地提取和联想关键词,以及基于获取的关键词对特定领域进行分析是快速获取所述信息的有效手段,也是文本挖掘领域的核心技术,发挥了十分重要的作用。
发明内容
有鉴于此,本申请提供了一种关键词的获取方法和装置、计算设备以及计算机可读存储介质。
根据本申请的第一方面,提供了一种关键词获取方法,包括:获取种子关键词;基于种子关键词对全量语料库中的关键词进行正则筛选,得到召回关键词:获取召回关键词的平均词向量和正例关键词库中正例关键词的平均词向量;计算召回关键词的平均词向量与正例关键词的平均词向量的相似度;提取相似度大于预定阈值的召回关键词作为候选关键词;以预定频率作为权重对候选关键词进行排序,输出经排序的关键词。
根据本申请的另一方面,提供了一种关键词获取装置,包括获取模块、筛选模块和关键词联想模块。获取模块被配置成获取种子关键词。筛选模块被配置成基于种子关键词对全量语料库中的关键词进行正则筛选,得到召回关键词。关键词联想模块被配置成对召回关键词执行下述步骤:获取召回关键词的平均词向量和正例关键词库中正例关键词的平均词向量;计算召回关键词的平均词向量与正例关键词的平均词向量的相似度;提取相似度大于预定阈值的召回关键词作为候选关键词;以词频-逆文档频率作为权重对候选关键词进行排序,输出经排序的关键词。
根据本申请的又一方面,提供了一种计算设备,该计算设备包括:存储器,其被配置成存储计算机可执行指令;处理器,其被配置成当所述计算机可执行指令被处理器执行时执行如前述消除回声的方法的实施例中任一实施例所述的方法。
根据本申请的再一方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,当所述计算机可执行指令被执行时,执行如前述消除回声的方法的实施例中任一实施例所述的方法。
利用本申请的实施例提供的方法、装置、计算设备或计算机可读存储介质,通过采用node2vec模型对由词组-词语-字三个层级构成的词图模型进行采样;对节点的采样序列采用word2vec模型进行词向量训练,相对于相关技术提升了联想挖掘关键词的精确度和召回率。该方法能够从语料中挖掘高质量关键词组。所挖掘出的关键字组比例高于传统方法,同时减小了人工定义规则进行关键词重组带来的下游错误。基于高性能的图计算平台和分布式计算平台实现了在亿级别上联想和挖掘关键词,处理速度在分钟的数量级。
附图说明
现在将更详细并且参考附图来描述本公开的实施例,其中:
图1示意性示出了根据本申请实施例的技术方案可以在其中实施的网络架构的结构;
图2A示意性示出了相关技术中的一种基于分布式词向量计算的关键词自动提取方法的流程图;
图2B示意性示出了相关技术中的另一种基于分布式词向量计算的关键词自动提取方法的流程图;
图3A-3C示意性示出了应用本申请实施例所提供的关键词获取的方法的场景的示例;
图4示意性示出了根据本申请实施例进行关键词联想的方法的流程图;
图5示意性示出了企业经营范围的文本词图构建的示例;
图6示意性示出了node2vec算法的节点采样策略;
图7示意性示出了根据本申请一个实施例获取关键词的方法的示例流程图;
图8示意性示出了根据本申请一个实施例获取关键词的装置的示例框图;
图9示意性示出了一个示例系统,其包括代表可以实现本文描述的各种技术的一个或多个系统和/或设备的示例计算设备。
具体实施方式
下面将结合附图,对本申请中的技术方案进行清楚和完整的描述。所描述的实施例仅仅是本申请的一部分实施例,而不是全部实施例。基于本申请的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例都属于本申请保护的范围。
人工智能是利用数字计算机或者数字计算机控制的机器来模拟、延伸和扩展人的智能,感知环境,获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是通过机器来模拟人类认知能力的技术。人工智能是一门综合学科,涉及领域广泛,涵盖了感知、学推力和决策等方面的能力,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。人工智能最核心的能力就是根据给定输入做出判断或者预测。例如,在人人脸识别应用中,可以根据输入的照片判断照片中的人。在医疗诊断中,可以根据输入的医疗影像判断疾病的成因和性质。
在人工智能软件技术中,机器学习是使计算机具有智能特性的重要技术。机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习专门研究计算机如何模拟或实现人类的学习行为,以获取新的知识或技能,并重新组织已有的知识结构使之不断改善自身的性能。机器学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。
为了便于对本申请实施例的理解,下面先对几个概念进行简单介绍。
正则表达式(regular expression)是指,描述一种字符串匹配的模式,用来检查一个串是否含有某种子串,对匹配的子串进行替换或从某个子串中取出符合条件的子串等。
词向量是指,自然语言处理中语言模型与表征学习技术的统称。概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。
图嵌入是指,一种将图数据(通常为高维稀疏的矩阵)映射为低维稠密向量的过程,每个图节点的嵌入向量可以捕获图的一些拓扑结构,嵌入向量类似词向量,也是一种分布式的表达。
关键词联想是指,根据给定的种子关键词,进行挖掘发现相关的关键词,结果必须在一定的语义范围内和给定的种子关键词相似,如给定种子关键词为“门窗”,若抽取的关键词为“防蚊纱窗”,“卷帘门”,“防盗门”等则为符合相关限定,若为“轮胎”、“买菜”等则非门窗类的关键词,则为不相关。
本申请的实施例提供一种关键词获取的技术方案,利用该技术方案,在给定种子关键词以联想生成同类关键字时,首先通过本申请提出的词向量训练方法得到词向量,输入种子关键字,并基于语义相似度计算,召回和推荐候选关键词列表。然后,对关键词进行筛选,并继续迭代发现流程。由此,整个关键词获取过程仅需要少量人工筛选就可以完成,并且关键词的多样性和相关性都高于相关方法。
图1图示了根据本申请实施例的技术方案可以在其中实施的一种网络系统的结构的示例。应用该网络系统的场景的示例包括但不限于企业画像的产业关键词发现场景、基于关键词的企业经营范围分类场景、基于关键词的舆情新闻分类场景等。如图1所示,不同的用户可以使用不同或相同的终端设备,终端设备可以是具有人机互动功能的任何移动终端或者固定终端。终端设备的示例包括但不限于手机、台式电脑、平板电脑、笔记本电脑和掌上电脑。每个终端设备可以分别与服务器通过网络进行连接,以便每个终端设备可以与服务器进行数据交互。服务器例如可以是独立的物理服务器,也可以是由多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络、以及大数据和人工智能平台等基础云计算服务的云服务器。替代性地,网络系统也可不包括服务器,即,不同的终端设备之间可以直接建立通信,从而实施本申请实施例的关键词获取的技术方案。
图2A示意性示出相关技术中的一种基于分布式词向量计算的关键词自动提取方法的流程图。在图2A中,首先获取原始数据集,并将其划分为初始训练集、领域关键词集和测试文本集。然后,对初始训练集和测试文本集进行预处理。此后,基于经预处理的训练集的本文来训练词向量,得到词向量表。对于领域关键词集合中的所有关键词转化成分布式表达词向量。计算测试本文集中所有单词的分布式表达词向量的算数平均语义距离,对距离进行排序,选择排序后距离最小的关键词作为结果输出。
图2B示意性示出了相关技术中的另一种文本关键词提取方法。在该方法中,首先在S1中,打开训练文本集中的一篇无关文档。在S2中,对该文档进行分词和词性标注。在S3中,通过“废词(stop word)”表,提取有意义的实词。在S4中,对所有实词出现的频率进行统计。在S5中,删除绝对词频为1的实词。最后,在S6中,用TF-IDF公式计算单篇文本中的所有实词的权重,以便从中提取一定比例的关键词。
上述图2A中的方案无法根据给定种子关键词进行联想挖掘以发现语料中与种子关键词语义相似的关键词。比如该方案无法在输入“金属门窗”时,从语料中挖掘门窗类的关键词。图2B中的方案难以召回统计意义不明显的关键词。例如,基于简单的词向量计算难以召回高质量的关键词组。比如,该方案无法通过聚类自动发现关键词,依赖大量候选关键词输入进行计算,并且高质量的候选关键词本身就是一个难题。图2A和2B中的相关技术都是在单机运行的版本,难以在大规模语料上(例如,语料达到亿数量级和以上)快速联想挖掘一个类别的关键词。
针对于相关技术中的缺陷,本申请构建了具有词组-词语-字的三级节点的词图,采用图嵌入node2vec技术采用生成训练样本,并利用word2vec训练词向量,对于输入的一类种子关键词,通过将词向量转化成平均词向量,计算这一类关键词的中心,并通过正则表达式粗筛以快速召回相关文本。通过计算距离计算语义相似度,进行更细粒度的排序,输出相关的关键词的结果。本申请的方案基于高性能图计算平台和分布式计算平台实现了在亿级别上联想和挖掘关键词,处理速度在分钟的数量级。作为示例,本申请的算法开发和运行环境可以如下设置:常用的算法实现语言是Python 的3.6版本;运行环境可以采用分布式计算框架Apache Spark 2.3.1版本或高性能分布式图计算框架Plato 0.1版本;中文分词组件可以采用Jieba 0.39版本。
图3A-3C示意性示出了应用本申请实施例提供的关键词获取方法的各个场景的示例。图3A示意性示出了本申请实施例提供的关键词获取方法应用于生成企业画像时的场景。通过种子关键字“门业”,可以从企业经营范围语料中挖掘企业的产业关键词,用于企业的产业分析等功能。然后基于所生成的企业关键词生成企业画像。图3B示意性示出了本申请实施例提供的关键词获取方法应用于对企业范围进行分类的场景。基于输入的种子关键词“门业”,对企业范围进行分类,并展示出相关产业的企业列表。图3C示意性示出了本申请实施例提供的关键词获取方法应用于基于关键词的舆情新闻分析的场景。这里,在种子关键词为“门业”时,可以基于本申请实施例提供的关键词获得联想关键词,并将联想得到的关键词用于对舆情新闻文本的快速召回和分类。
图4示意性示出了根据本申请实施例进行关键词联想的方法400的流程图。首先,对企业经营范围语料401进行预处理。预处理主要是基于企业经营范围的语料离线训练词向量402,并得到词向量库403。词向量库403被用于后续语义计算以便进行关键词联想。具体地,预训练包括下述步骤:
对企业经营范围语料401进行分词。在文本为中文时,将文本的层级包括“词组”、“词语”和“字”。对本文进行词组划分,方法是基于文本中的标点符号进行分割。针对每个词,基于分词组件(例如,jieba分词组件)进行分词,并去除停用词(例如“是”、“的”等)。进一步地,将每个词语按照“字”进行划分。
构建词图:将步骤(1)中得到的词组、词语和字均设置为词图的节点。图5示意性示出的企业经营范围的文本词图构建的示例。这里,对经营范围文本中一定大小的窗口(例如,取大小为5的窗口)内的词语进行连接,并设置该边的权重(例如,权重为1.0);对词组-词语的节点进行连接并设置该边的权重(例如,权重为0.5);对词语-字的节点之间进行连接并设置该边的权重(例如,权重为0.1)。如本领域技术人员所理解的,边的权重也可以是其他数值。
基于图嵌入算法来训练词向量。这里图嵌入算法采用node2vec对词图中的节点进行采样,生成节点构成的节点序列(v 1,v 2,v 3,…)。在一个实施例中,具体的采样算法为:在给定当前节点v时,访问下一个节点的概率为:
其中是节点和节点之间的未归一化的转移概率,是归一化常数,是访问节点x的概率,是访问节点的概率。此外,node2vec算法中,存在两个超参数和控制随机游走采样的策略。图6示意性示出了node2vec的节点采样策略。假设当前随机游走经过边(, )到达顶点。设,是节点和节点之间的边权重,则
在通过采样得到节点序列样本之后,对该序列进行训练得到word2vec词向量。下面,基于上述获取的词向量库403进行关键词的联想和获取。在步骤404中,首先输入少量种子关键词。在一些实施例中,种子关键词的数量可以是1~10。在步骤405中,利用正则表达式进行粗筛,并召回语料T1。在步骤406中,对经粗筛召回的关键词进行计算和排序。这里,对T1的中文进行分词,在词向量库403中查找对应的分词词向量。取平均词向量作为文本T1的表示。对正则关键词库进行分词,取得平均词向量作为关键词的向量中心C1。在正则关键词库进行初始化时,采用输入的种子关键词作为正则关键词库里的初始正则关键词。计算T1的平均词向量与C1平均词向量的相似度。在一个实施例中,计算T1的平均词向量与C1平均词向量之间的余弦相似度。如本领域技术人员所理解的,也可以通过计算T1的平均词向量与C1平均词向量之间的其他距离来计算相似度。然后,提取出相似度大于预定阈值的词语,作为候选关键词。下面,以TF-IDF作为权重对候选关键词进行排序。这里。其中是词频,为某个词在经粗筛语料T1中出现的频率,为逆文档频率,是在全量语料库中预先计算的,并且。在步骤407中,按照上述TF-IDF权重大小的排序输出,选取排序前K(K为正整数)个输出,呈现给专家进行标注。在一个实施例中,K可以为例如按照TF-IDF排序的前100个输出。该K个输出可以例如呈现在界面上并提供相应的标签以供专家进行标注。标签可以为例如:标识该候选关键词是正例关键词的标签“Y”,和标识该候选关键词不是正例关键词的标签“N”。由此从步骤405~409完成了一轮的标注。在409中,对迭代停止条件进行判断。在一个实施例中,迭代停止条件是例如迭代达到预定迭代轮数。当迭代次数达到预定迭代轮数时,停止迭代并输出正例关键词库的关键词作为发现的结果输出,流程结束。在一个实施例中,迭代也可以通过手动停止,即在手动停止迭代后,停止迭代并输出正例关键字库中的关键词作为发现的结果输出。在未达到预定迭代次数时,返回步骤405,进行下一迭代轮次的正则粗筛召回。
该关键词获取方案采用了node2vec模型对由词组-词语-字三个层级构成的图模型进行采样;对节点的采样序列采用word2vec模型进行词向量训练。该方案关键词的联想挖掘的精确度和召回率相对于相关技术具有较大提升。本申请的关键词获取技术方案相对于TF-IDF方法和Word2vec词向量方法的关键词获取技术的准确度均有大幅提升。在一个示例中,TF-IDF方法的Top100准确率为9.06%,Word2vec词向量方法的Top100准确率为21.76%,本申请的Top100准确率为40.87%。
本申请的技术方案能够从语料中挖掘高质量关键词组。所挖掘出的关键字组比例高于传统方法,同时减小了人工定义1规则进行关键词重组带来的下游错误。在无人工定义将词连成词组的规则下,本申请相对于相关技术的关键词组比例和关键词组的准确率都有大幅提升。在一个示例中,TF-IDF方法的关键词组比例为0.187,本申请的关键词组比例为0.252;TF-IDF方法的关键词组准确率为0.204,本申请的关键词组准确率为0.260。
此外,可以采用本申请的关键词获取方法针对大规模文本语料进行处理,提高了关键词的挖掘速度。例如,针对2.2亿企业经营范围文本的计算速度约为3~5分钟。
图7示意性示出了根据本申请一个实施例获取关键词的方法700的示例流程图。在步骤701中,获取种子关键词。首先输入少量种子关键词。在一些实施例中,种子关键词的数量可以是1~10。在步骤702中,基于种子关键词对全量语料库中的关键词进行正则筛选,得到召回关键词。利用正则表达式进行粗筛,并召回语料T1。在步骤703中,获取召回关键词的平均词向量和正例关键词库中正例关键词的平均词向量。
在一个实施例中,获取所述召回关键词的平均词向量和正例关键词库中正例关键词的平均词向量包括:分别基于召回关键词和正例关键词在经预训练的词向量库中查找与召回关键词相对应的词向量和与正例关键词相对应的词向量;分别基于与召回关键词相对应的词向量和与正例关键词相对应的词向量计算召回关键词的平均词向量和正例关键词的平均词向量。
在一个实施例中,经预训练的词向量库基于下述步骤进行训练:基于预定条件选择全量语料库;对全量语料库中的文本进行分词,得到不同层级的文本;以不同层级的文本作为节点构建词图;对节点进行节点采样,生成节点序列;以及基于节点序列训练词向量。
在一个实施例中,基于预定条件选择全量语料库包括:基于产品范围或企业范围选择全量语料库。
在一个实施例中,对全量语料库中的文本进行分词,得到不同层级的文本包括:对全量语料库中的文本进行分词,分别得到词组、词语和字层级的文本。
在一个实施例中,以词组、词语和字层级的文本作为节点,分别对预定大小的窗口内的各个词组、词组和词语级别的文本、词组和字层级的文本进行连接,作为词图的词组-词组边、词组-词语边和词语-字边。词图的词组-词组边、词组-词语边和词语-字边分别具有不同的权重。例如,对经营范围文本中一定大小的窗口(例如,取大小为5的窗口)内的词语进行连接,并设置该边的权重(例如,权重为1.0);对词组-词语的节点进行连接(例如,权重为0.5);对词语-字的节点之间进行连接(例如,权重为0.1)。
对节点进行节点采样,生成节点序列包括:
在步骤704中,计算召回关键词的平均词向量与正例关键词的平均词向量的相似度。这里,采用余弦距离作为计算关键词之间的语义距离,如本领域技术人员理解的也可以采用其他距离方式计算相似度。
在步骤705中,提取相似度大于预定阈值的召回关键词作为候选关键词。类似地,这里的相似度可以是余弦距离或其他距离相似度。
在一些实施例中,该关键词获取方法对召回关键词执行下述步骤:选择经排序的关键词中排序前K的关键词;对排序前K的关键词进行进一步筛选,得到经筛选的关键词;和将经筛选的关键词加入正例关键词库。这里,进一步筛选可以是通过专家进行标注。在一个实施例中,K可以为例如按照TF-IDF排序的前100个输出。该K个输出可以例如呈现在界面上并提供相应的标签以供专家进行标注。标签可以为例如:标识该候选关键词是正例关键词的标签“Y”,和标识该候选关键词不是正例关键词的标签“N”。由此上述步骤完成了一轮的标注。
在一些实施例中,该方法将上述步骤:获取召回关键词的平均词向量和正例关键词库中正例关键词的平均词向量;计算召回关键词的平均词向量与正例关键词的平均词向量的相似度;提取相似度大于预定阈值的召回关键词作为候选关键词;以预定频率作为权重对候选关键词进行排序,输出经排序的关键词;选择经排序的关键词中排序前K的关键词,K为正整数;对排序前K的关键词进行进一步筛选,得到经筛选的关键词;将经筛选的关键词加入正例关键词库迭代M次,M为预先设定的迭代次数且M为正整数。在迭代次数达到预定次数时,停止迭代。此外,也可以通过人工手动停止迭代。
该关键词获取方法通过采用node2vec模型对由词组-词语-字三个层级构成的图模型进行采样;对节点的采样序列采用word2vec模型进行词向量训练。联想挖掘的精确度和召回率相对于相关技术具有较大提升。能够从语料中挖掘高质量关键词组。所挖掘出的关键字组比例高于传统方法,同时减小了人工定义规则进行关键词重组带来的下游错误。基于高性能图计算平台和分布式计算平台实现了在亿级别上联想和挖掘关键词,处理速度在分钟的数量级。
图8示意性示出了根据本申请一个实施例获取关键词的装置800的示例。装置800包括获取模块801、筛选模块802和关键词联想模块803。获取模块801被配置成获取种子关键词。筛选模块802被配置成基于种子关键词对全量语料库中的关键词进行正则筛选,得到召回关键词。关键词联想模块803被配置成对召回关键词执行下述步骤:获取召回关键词的平均词向量和正例关键词库中正例关键词的平均词向量;计算召回关键词的平均词向量与正例关键词的平均词向量的相似度;提取相似度大于预定阈值的召回关键词作为候选关键词;以词频-逆文档频率作为权重对候选关键词进行排序,输出经排序的关键词。
在一些实施例中,关键词联想模块803被配置成执行下述步骤:选择经排序的关键词中排序前K的关键词;对所述排序前K的关键词进行进一步筛选,得到经筛选的关键词;和将所述经筛选的关键词加入所述正例关键词库。上述步骤:获取召回关键词的平均词向量和正例关键词库中正例关键词的平均词向量;计算召回关键词的平均词向量与正例关键词的平均词向量的相似度;提取相似度大于预定阈值的召回关键词作为候选关键词;以预定频率作为权重对候选关键词进行排序,输出经排序的关键词;选择经排序的关键词中排序前K的关键词,K为正整数;对排序前K的关键词进行进一步筛选,得到经筛选的关键词;将经筛选的关键词加入正例关键词库迭代M次,M为预先设定的迭代次数且M为正整数。
该装置通过采用node2vec模型对由词组-词语-字三个层级构成的图模型进行采样;对节点的采样序列采用word2vec模型进行词向量训练。联想挖掘的精确度和召回率相对于相关技术具有较大提升。能够从语料中挖掘高质量关键词组。所挖掘出的关键字组比例高于传统方法,同时减小了人工定义规则进行关键词重组带来的下游错误。基于高性能图计算平台和分布式计算平台实现了在亿级别上联想和挖掘关键词,处理速度在分钟的数量级。
本申请的另一方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算设备执行上述各实施例所述的关键词获取的方法。
图9图示了示例系统900,其包括代表可以实现本文各实施例描述的技术方案的一个或多个系统和/或设备中的示例计算设备910。计算设备910可以是例如服务提供商的服务器、与服务器相关联的设备、片上系统、和/或任何其它合适的计算设备或计算系统。上面参照图8描述的关键词获取的装置800可以采取计算设备910的形式。替换地,关键词获取的装置800可以以应用916的形式被实现为计算机程序。
如9图示的示例计算设备910包括彼此通信耦合的处理系统911、一个或多个计算机可读介质912以及一个或多个I / O接口913。尽管未示出,但是计算设备910还可以包括系统总线或其他数据和命令传送系统,其将各种组件彼此耦合。系统总线可以包括不同总线结构的任何一个或组合,所述总线结构诸如存储器总线或存储器控制器、外围总线、通用串行总线、和/或利用各种总线架构中的任何一种的处理器或局部总线。还构思了各种其他示例,诸如控制和数据线。
处理系统911代表使用硬件执行一个或多个操作的功能。因此,处理系统911被图示为包括可被配置为处理器、功能块等的硬件元件914。这可以包括在硬件中实现为专用集成电路或使用一个或多个半导体形成的其它逻辑器件。硬件元件914不受其形成的材料或其中采用的处理机构的限制。例如,处理器可以由(多个)半导体和/或晶体管(例如,电子集成电路(IC))组成。在这样的上下文中,处理器可执行指令可以是电子可执行指令。
计算机可读介质912被图示为包括存储器/存储装置915。存储器/存储装置915表示与一个或多个计算机可读介质相关联的存储器/存储容量。存储器/存储装置915可以包括易失性介质(诸如随机存取存储器(RAM))和/或非易失性介质(诸如只读存储器(ROM)、闪存、光盘、磁盘等)。存储器/存储装置915可以包括固定介质(例如,RAM、ROM、固定硬盘驱动器等)以及可移动介质(例如,闪存、可移动硬盘驱动器、光盘等)。计算机可读介质912可以以下面进一步描述的各种其他方式进行配置。
一个或多个I/O接口913代表允许用户使用各种输入设备向计算设备910输入命令和信息并且可选地还允许使用各种输出设备将信息呈现给用户和/或其他组件或设备的功能。输入设备的示例包括键盘、光标控制设备(例如,鼠标)、麦克风(例如,用于语音输入)、扫描仪、触摸功能(例如,被配置为检测物理触摸的容性或其他传感器)、相机(例如,可以采用可见或不可见的波长(诸如红外频率)将不涉及触摸的运动检测为手势)等等。输出设备的示例包括显示设备(例如,监视器或投影仪)、扬声器、打印机、网卡、触觉响应设备等。因此,计算设备910可以以下面进一步描述的各种方式进行配置以支持用户交互。
计算设备910还包括应用916。应用916可以例如是参照图8描述的关键词获取的装置800的软件实例,并且与计算设备910中的其他元件相组合地实现本文描述的技术。
本文可以在软件硬件元件或程序模块的一般上下文中描述各种技术。一般地,这些模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、组件、数据结构等。本文所使用的术语“模块”,“功能”和“组件”一般表示软件、固件、硬件或其组合。本文描述的技术的特征是与平台无关的,意味着这些技术可以在具有各种处理器的各种计算平台上实现。
所描述的模块和技术的实现可以存储在某种形式的计算机可读介质上或者跨某种形式的计算机可读介质传输。计算机可读介质可以包括可由计算设备910访问的各种介质。作为示例而非限制,计算机可读介质可以包括“计算机可读存储介质”和“计算机可读信号介质”。
与单纯的信号传输、载波或信号本身相反,“计算机可读存储介质”是指能够持久存储信息的介质和/或设备,和/或有形的存储装置。因此,计算机可读存储介质是指非信号承载介质。计算机可读存储介质包括诸如易失性和非易失性、可移动和不可移动介质和/或以适用于存储信息(诸如计算机可读指令、数据结构、程序模块、逻辑元件/电路或其他数据)的方法或技术实现的存储设备之类的硬件。计算机可读存储介质的示例可以包括但不限于RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字通用盘(DVD)或其他光学存储装置、硬盘、盒式磁带、磁带,磁盘存储装置或其他磁存储设备,或其他存储设备、有形介质或适于存储期望信息并可以由计算机访问的制品。
“计算机可读信号介质”是指被配置为诸如经由网络将指令发送到计算设备910的硬件的信号承载介质。信号介质典型地可以将计算机可读指令、数据结构、程序模块或其他数据体现在诸如载波、数据信号或其它传输机制的调制数据信号中。信号介质还包括任何信息传递介质。术语“调制数据信号”是指这样的信号,该信号的特征中的一个或多个被设置或改变,从而将信息编码到该信号中。作为示例而非限制,通信介质包括诸如有线网络或直接连线的有线介质以及诸如声、RF、红外和其它无线介质的无线介质。
如前所述,硬件元件914和计算机可读介质912代表以硬件形式实现的指令、模块、可编程器件逻辑和/或固定器件逻辑,其在一些实施例中可以用于实现本文描述的技术的至少一些方面。硬件元件可以包括集成电路或片上系统、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、复杂可编程逻辑器件(CPLD)以及硅中的其它实现或其他硬件设备的组件。在这种上下文中,硬件元件可以作为执行由硬件元件所体现的指令、模块和/或逻辑所定义的程序任务的处理设备,以及用于存储用于执行的指令的硬件设备,例如,先前描述的计算机可读存储介质。
前述的组合也可以用于实现本文所述的各种技术和模块。因此,可以将软件、硬件或程序模块和其它程序模块实现为在某种形式的计算机可读存储介质上和/或由一个或多个硬件元件914体现的一个或多个指令和/或逻辑。计算设备910可以被配置为实现与软件和/或硬件模块相对应的特定指令和/或功能。因此,例如通过使用处理系统的计算机可读存储介质和/或硬件元件914,可以至少部分地以硬件来实现将模块实现为可由计算设备910作为软件执行的模块。指令和/或功能可以由一个或多个制品(例如,一个或多个计算设备910和/或处理系统911)可执行/可操作以实现本文所述的技术、模块和示例。
在各种实施方式中,计算设备910可以采用各种不同的配置。例如,计算设备910可以被实现为包括个人计算机、台式计算机、多屏幕计算机、膝上型计算机、上网本等的计算机类设备。计算设备910还可以被实现为包括诸如移动电话、便携式音乐播放器、便携式游戏设备、平板计算机、多屏幕计算机等移动设备的移动装置类设备。计算设备910还可以实现为电视类设备,其包括具有或连接到休闲观看环境中的一般地较大屏幕的设备。这些设备包括电视、机顶盒、游戏机等。
本文描述的技术可以由计算设备910的这些各种配置来支持,并且不限于本文所描述的技术的具体示例。功能还可以通过使用分布式系统、诸如通过如下所述的平台922而在“云”920上全部或部分地实现。
云920包括和/或代表用于资源924的平台922。平台922抽象云920的硬件(例如,服务器)和软件资源的底层功能。资源924可以包括在远离计算设备910的服务器上执行计算机处理时可以使用的其它应用和/或数据。资源924还可以包括通过因特网和/或通过诸如蜂窝或Wi-Fi网络的订户网络提供的服务。
平台922可以抽象资源和功能以将计算设备910与其他计算设备连接。平台922还可以用于抽象资源的分级以提供遇到的对于经由平台922实现的资源924的需求的相应水平的分级。因此,在互连设备实施例中,本文描述的功能的实现可以分布在整个系统900内。例如,功能可以部分地在计算设备910上以及通过抽象云920的功能的平台922来实现。
应当理解,为清楚起见,参考不同的功能单元对本公开的实施例进行了描述。然而,将明显的是,在不偏离本公开的情况下,每个功能单元的功能性可以被实施在单个单元中、实施在多个单元中或作为其它功能单元的一部分被实施。例如,被说明成由单个单元执行的功能性可以由多个不同的单元来执行。因此,对特定功能单元的参考仅被视为对用于提供所描述的功能性的适当单元的参考,而不是表明严格的逻辑或物理结构或组织。因此,本公开可以被实施在单个单元中,或者可以在物理上和功能上被分布在不同的单元和电路之间。
将理解的是,尽管第一、第二、第三等术语在本文中可以用来描述各种设备、元件、部件或部分,但是这些设备、元件、部件或部分不应当由这些术语限制。这些术语仅用来将一个设备、元件、部件或部分与另一个设备、元件、部件或部分相区分。
尽管已经结合一些实施例描述了本公开,但是其不旨在被限于在本文中所阐述的特定形式。相反,本公开的范围仅由所附权利要求来限制。附加地,尽管单独的特征可以被包括在不同的权利要求中,但是这些可以可能地被有利地组合,并且包括在不同权利要求中不暗示特征的组合不是可行的和/或有利的。特征在权利要求中的次序不暗示特征必须以其工作的任何特定次序。此外,在权利要求中,词“包括”不排除其它元件,并且术语“一”或“一个”不排除多个。权利要求中的附图标记仅作为明确的例子被提供,不应该被解释为以任何方式限制权利要求的范围。
Claims (15)
1.一种关键词获取方法,包括:
获取种子关键词;
基于所述种子关键词对全量语料库中的关键词进行正则筛选,得到召回关键词;
获取所述召回关键词的平均词向量和正例关键词库中正例关键词的平均词向量;
计算所述召回关键词的平均词向量与所述正例关键词的平均词向量的相似度;
提取所述相似度大于预定阈值的召回关键词作为候选关键词;
以预定频率作为权重对所述候选关键词进行排序,输出经排序的关键词。
2.如权利要求1所述的方法,还包括:
选择所述经排序的关键词中排序前K的关键词,K为正整数;
对所述排序前K的关键词进行进一步筛选,得到经筛选的关键词;
将所述经筛选的关键词加入所述正例关键词库。
3.如权利要求2所述的方法,还包括:
将下述步骤迭代M次,M为预先设定的迭代次数且M为正整数:
获取所述召回关键词的平均词向量和正例关键词库中正例关键词的平均词向量;
计算所述召回关键词的平均词向量与所述正例关键词的平均词向量的相似度;
提取所述相似度大于预定阈值的召回关键词作为候选关键词;
以预定频率作为权重对所述候选关键词进行排序,输出经排序的关键词;
选择所述经排序的关键词中排序前K的关键词,K为正整数;
对所述排序前K的关键词进行进一步筛选,得到经筛选的关键词;
将所述经筛选的关键词加入所述正例关键词库。
4.如权利要求1-3中任一项所述的方法,其中所述获取所述召回关键词的平均词向量和正例关键词库中正例关键词的平均词向量包括:
分别基于所述召回关键词和所述正例关键词在经预训练的词向量库中查找与所述召回关键词相对应的词向量和与所述正例关键词相对应的词向量;
分别基于与所述召回关键词相对应的词向量和与所述正例关键词相对应的词向量计算所述召回关键词的平均词向量和所述正例关键词的平均词向量。
5.如权利要求4所述的方法,其中所述经预训练的词向量库基于下述步骤进行训练:
基于预定条件选择全量语料库;
对全量语料库中的文本进行分词,得到不同层级的文本;
以不同层级的文本作为节点构建词图;
对所述节点进行节点采样,生成节点序列;以及
基于所述节点序列训练词向量。
6.如权利要求5所述的方法,其中所述基于预定条件选择全量语料库包括:基于产品范围或企业范围选择全量语料库。
7.如权利要求5所述的方法,其中所述对全量语料库中的文本进行分词,得到不同层级的文本包括:
对所述全量语料库中的文本进行分词,分别得到词组、词语和字层级的文本。
8.如权利要求7所述的方法,其中所述以不同层级的文本作为节点构建词图包括:
以所述词组、词语和字层级的文本作为节点,分别对预定大小的窗口内的各个词组、所述词组和所述词语级别的文本、所述词组和所述字层级的文本进行连接,作为所述词图的词组-词组边、词组-词语边和词语-字边。
9.如权利要求8所述的方法,其中所述词图的词组-词组边、词组-词语边和词语-字边分别具有不同的权重。
10.如权利要求5所述的方法,其中所述对所述节点进行节点采样,生成节点序列包括:
采用node2vec算法进行节点采样,生成所述节点序列。
11.如权利要求5所述的方法,其中所述基于所述节点序列训练词向量包括:
利用word2vec算法对所述节点序列进行训练,得到各自与词组、词和字相对应的词向量。
13.一种关键词获取装置,包括:
获取模块,被配置成获取种子关键词;
筛选模块,被配置成基于所述种子关键词对全量语料库中的关键词进行正则筛选,得到召回关键词,以及
关键词联想模块,被配置成对所述召回关键词执行下述步骤:
获取所述召回关键词的平均词向量和正例关键词库中正例关键词的平均词向量;
计算所述召回关键词的平均词向量与所述正例关键词的平均词向量的相似度;
提取所述相似度大于预定阈值的召回关键词作为候选关键词;
以预定频率作为权重对所述候选关键词进行排序,输出经排序的关键词。
14.一种计算设备,包括
存储器,其被配置成存储计算机可执行指令;
处理器,其被配置成当所述计算机可执行指令被处理器执行时执行如权利要求1-12中的任一项所述的方法。
15.一种计算机可读存储介质,其存储有计算机可执行指令,当所述计算机可执行指令被执行时,执行如权利要求1-12中的任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110557654.4A CN113761123A (zh) | 2021-05-21 | 2021-05-21 | 关键词获取的方法、装置、计算设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110557654.4A CN113761123A (zh) | 2021-05-21 | 2021-05-21 | 关键词获取的方法、装置、计算设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113761123A true CN113761123A (zh) | 2021-12-07 |
Family
ID=78787129
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110557654.4A Pending CN113761123A (zh) | 2021-05-21 | 2021-05-21 | 关键词获取的方法、装置、计算设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113761123A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115061836A (zh) * | 2022-08-16 | 2022-09-16 | 浙江大学滨海产业技术研究院 | 一种接口层面的基于图嵌入算法的微服务拆分方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108197098A (zh) * | 2017-11-22 | 2018-06-22 | 阿里巴巴集团控股有限公司 | 一种关键词组合策略的生成及关键词扩展方法、装置和设备 |
US20200159829A1 (en) * | 2018-11-21 | 2020-05-21 | Intuit Inc. | Visualizing comment sentiment |
US20200184151A1 (en) * | 2018-11-30 | 2020-06-11 | Thomson Reuters Special Services Llc | Systems and methods for identifying an event in data |
US20200273064A1 (en) * | 2019-02-27 | 2020-08-27 | Nanocorp AG | Generating Campaign Datasets for Use in Automated Assessment of Online Marketing Campaigns Run on Online Advertising Platforms |
CN111931501A (zh) * | 2020-09-22 | 2020-11-13 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的文本挖掘方法、相关装置及设备 |
CN112541105A (zh) * | 2019-09-20 | 2021-03-23 | 福建师范大学地理研究所 | 一种关键词生成方法、舆情监测方法、装置、设备和介质 |
-
2021
- 2021-05-21 CN CN202110557654.4A patent/CN113761123A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108197098A (zh) * | 2017-11-22 | 2018-06-22 | 阿里巴巴集团控股有限公司 | 一种关键词组合策略的生成及关键词扩展方法、装置和设备 |
US20200159829A1 (en) * | 2018-11-21 | 2020-05-21 | Intuit Inc. | Visualizing comment sentiment |
US20200184151A1 (en) * | 2018-11-30 | 2020-06-11 | Thomson Reuters Special Services Llc | Systems and methods for identifying an event in data |
US20200273064A1 (en) * | 2019-02-27 | 2020-08-27 | Nanocorp AG | Generating Campaign Datasets for Use in Automated Assessment of Online Marketing Campaigns Run on Online Advertising Platforms |
CN112541105A (zh) * | 2019-09-20 | 2021-03-23 | 福建师范大学地理研究所 | 一种关键词生成方法、舆情监测方法、装置、设备和介质 |
CN111931501A (zh) * | 2020-09-22 | 2020-11-13 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的文本挖掘方法、相关装置及设备 |
Non-Patent Citations (1)
Title |
---|
郎冬冬;刘晨晨;冯旭鹏;刘利军;黄青松;: "一种基于LDA和TextRank的文本关键短语抽取方案的设计与实现", 计算机应用与软件, no. 03, 15 March 2018 (2018-03-15) * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115061836A (zh) * | 2022-08-16 | 2022-09-16 | 浙江大学滨海产业技术研究院 | 一种接口层面的基于图嵌入算法的微服务拆分方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108804512B (zh) | 文本分类模型的生成装置、方法及计算机可读存储介质 | |
CN111753060B (zh) | 信息检索方法、装置、设备及计算机可读存储介质 | |
CN108897857B (zh) | 面向领域的中文文本主题句生成方法 | |
CN110309331B (zh) | 一种基于自监督的跨模态深度哈希检索方法 | |
CN106095928B (zh) | 一种事件类型识别方法及装置 | |
CN110413780B (zh) | 文本情感分析方法和电子设备 | |
CN110717047A (zh) | 一种基于图卷积神经网络的Web服务分类方法 | |
CN111159485B (zh) | 尾实体链接方法、装置、服务器及存储介质 | |
CN109086265B (zh) | 一种语义训练方法、短文本中多语义词消歧方法 | |
CN112559747B (zh) | 事件分类处理方法、装置、电子设备和存储介质 | |
CN109815400A (zh) | 基于长文本的人物兴趣提取方法 | |
CN112836509A (zh) | 一种专家系统知识库构建方法及系统 | |
CN113010705B (zh) | 标签预测方法、装置、设备及存储介质 | |
CN109918648B (zh) | 一种基于动态滑动窗口特征评分的谣言深度检测方法 | |
CN116304063B (zh) | 一种简单的情感知识增强提示调优的方面级情感分类方法 | |
Sunarya et al. | Comparison of accuracy between convolutional neural networks and Naïve Bayes Classifiers in sentiment analysis on Twitter | |
CN115952292B (zh) | 多标签分类方法、装置及计算机可读介质 | |
CN110866102A (zh) | 检索处理方法 | |
CN108268470A (zh) | 一种基于演化聚类的评论文本分类提取方法 | |
Ong et al. | Sentiment analysis of informal Malay tweets with deep learning | |
Saddam et al. | Sentiment analysis of flood disaster management in Jakarta on Twitter using support vector machines | |
Sajeevan et al. | An enhanced approach for movie review analysis using deep learning techniques | |
CN115062621A (zh) | 标签提取方法、装置、电子设备和存储介质 | |
CN113761123A (zh) | 关键词获取的方法、装置、计算设备和存储介质 | |
CN111859955A (zh) | 一种基于深度学习的舆情数据分析模型 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |