CN116431814A - 信息提取方法、装置、电子设备及可读存储介质 - Google Patents
信息提取方法、装置、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN116431814A CN116431814A CN202310659763.6A CN202310659763A CN116431814A CN 116431814 A CN116431814 A CN 116431814A CN 202310659763 A CN202310659763 A CN 202310659763A CN 116431814 A CN116431814 A CN 116431814A
- Authority
- CN
- China
- Prior art keywords
- type
- subject
- topics
- text
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 56
- 238000012549 training Methods 0.000 claims abstract description 20
- 239000013598 vector Substances 0.000 claims description 69
- 238000000034 method Methods 0.000 claims description 34
- 238000004364 calculation method Methods 0.000 claims description 16
- 238000012935 Averaging Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 11
- 238000004140 cleaning Methods 0.000 claims description 7
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 14
- 238000005065 mining Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000009467 reduction Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种信息提取方法、装置、电子设备及可读存储介质,属于人工智能技术领域。本申请实施例中的信息提取方法包括:获取待处理的文本集合,所述文本集合中包括多条短文本;利用训练好的主题模型对所述多条短文本进行分析,获得n类第一主题和每类第一主题下的多个候选主题词,和利用预训练模型对所述多条短文本进行文本聚类和关键词提取,获得m类第二主题和每类第二主题下的多个候选主题词;根据所述n类第一主题和每类第一主题下的多个候选主题词以及所述m类第二主题和每类第二主题下的多个候选主题词,确定所述文本集合对应的至少一类目标主题和每类目标主题下的主题词。由此,可以精准的提取短文本中的主题词。
Description
技术领域
本申请属于人工智能技术领域,具体涉及一种信息提取方法、装置、电子设备及可读存储介质。
背景技术
随着信息时代数据的不断积累,人工智能技术在越来越多领域上的应用价值不断突显,尤其是在文本领域,通过对文本的分析挖掘、对文本内容的学习等,可以有效辅助和指导业务的发展。目前,针对从大量冗杂的短文本中挖掘热点和主题,通常直接利用训练好的BTM主题模型从短文本中分析得到主题词。但由于BTM主题模型会忽略短文本的语义信息等,将会造成无法精准的提取短文本中的主题词。
发明内容
本申请实施例的目的是提供一种信息提取方法、装置、电子设备及可读存储介质,以解决目前无法精准的提取短文本中的主题词的问题。
为了解决上述技术问题,本申请是这样实现的:
第一方面,提供了一种信息提取方法,应用于电子设备,包括:
获取待处理的文本集合,所述文本集合中包括多条短文本;
利用训练好的主题模型对所述多条短文本进行分析,获得n类第一主题和每类第一主题下的多个候选主题词,和利用预训练模型对所述多条短文本进行文本聚类和关键词提取,获得m类第二主题和每类第二主题下的多个候选主题词;其中,所述n和m为大于1的整数;
根据所述n类第一主题和每类第一主题下的多个候选主题词以及所述m类第二主题和每类第二主题下的多个候选主题词,确定所述文本集合对应的至少一类目标主题和每类目标主题下的主题词。
可选的,所述根据所述n类第一主题和每类第一主题下的多个候选主题词以及所述m类第二主题和每类第二主题下的多个候选主题词,确定所述文本集合对应的至少一类目标主题和每类目标主题下的主题词,包括:
对所述n类第一主题和所述m类第二主题进行两两余弦相似度计算,并将余弦相似度满足预设条件的两类主题进行合并,和将余弦相似度不满足预设条件的两类主题保持不变,获得所述文本集合对应的至少一类目标主题和每类目标主题下的主题词。
可选的,所述对所述n类第一主题和所述m类第二主题进行两两余弦相似度计算,包括:
利用训练好的词表示模型对所述每类第一主题下的多个候选主题词进行词表示,获得所述每类第一主题下的多个候选主题词的词向量,以及利用训练好的词表示模型对所述每类第二主题下的多个候选主题词进行词表示,获得所述每类第二主题下的多个候选主题词的词向量;
对所述每类第一主题下的多个候选主题词的词向量进行加和求均值,获得所述每类第一主题的特征向量,以及对所述每类第二主题下的多个候选主题词的词向量进行加和求均值,获得所述每类第二主题的特征向量;
对所述每类第一主题的特征向量和所述每类第二主题的特征向量进行两两余弦相似度计算。
可选的,所述词表示模型是根据待处理的文本集合进行词向量训练得到。
可选的,所述确定所述文本集合对应的至少一类目标主题和每类目标主题下的主题词之后,所述方法还包括:
对所述每类目标主题下的主题词进行聚类,获得多类主题词簇;
将所述多类主题词簇中的主题词数量最多的s类主题词簇中的主题词,确定为所述每类目标主题下的目标主题词,所述s为大于1的整数。
可选的,所述利用主题模型对所述多条短文本进行分析,获得n类第一主题和每类第一主题下的多个候选主题词,包括:
分别对所述多条短文本中的停用字符进行清洗,获得多条文本数据;
利用训练好的BTM模型对所述多条文本数据进行分析,获得所述n类第一主题和每类第一主题下的多个候选主题词。
可选的,所述利用预训练模型对所述多条短文本进行文本聚类和关键词提取,获得m类第二主题和每类第二主题下的多个候选主题词,包括:
分别对所述多条短文本进行向量表示,获得多个文本向量;
利用训练好的语义聚类模型对所述多个文本向量进行聚类,获得多类文本簇,其中,所述多类文本簇中的每类文本簇对应一类第二主题;
分别提取所述每类文本簇中的候选主题词。
第二方面,提供了一种信息提取装置,应用于电子设备,包括:
获取模块,用于获取待处理的文本集合,所述文本集合中包括多条短文本;
处理模块,用于利用训练好的主题模型对所述多条短文本进行分析,获得n类第一主题和每类第一主题下的多个候选主题词,并利用预训练模型对所述多条短文本进行文本聚类和关键词提取,获得m类第二主题和每类第二主题下的多个候选主题词;其中,所述n和m为大于1的整数;
确定模块,用于根据所述n类第一主题和每类第一主题下的多个候选主题词以及所述m类第二主题和每类第二主题下的多个候选主题词,确定所述文本集合对应的至少一类目标主题和每类目标主题下的主题词。
第三方面,提供了一种电子设备,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
第四方面,提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
本申请实施例中,在获取待处理的文本集合之后,可以利用训练好的主题模型对所述文本集合中的多条短文本进行分析,获得n类第一主题和每类第一主题下的多个候选主题词,和利用预训练模型对所述文本集合中的多条短文本进行文本聚类和关键词提取,获得m类第二主题和每类第二主题下的多个候选主题词,并根据所述n类第一主题和每类第一主题下的多个候选主题词以及所述m类第二主题和每类第二主题下的多个候选主题词,确定所述文本集合对应的至少一类目标主题和每类目标主题下的主题词。由此,在提取短文本中的主题词时,可以融合词分布和文本语义特征,既考虑了词语的共现性和分布情况,又考虑了文本的整体语义与主题的相关性,从而实现精准的提取短文本中的主题词,使得主题挖掘更准确。
附图说明
图1是本申请实施例提供的一种信息提取方法的流程图;
图2是本申请实施例中的主题词提取过程的流程图;
图3是本申请实施例中基于BTM主题模型的主题提取过程的流程图;
图4是本申请实施例中的文本聚类及关键词提取过程的流程图;
图5是本申请实施例中的主题词聚类过程的流程图;
图6是本申请实施例中的提供的一种信息提取装置的结构示意图;
图7是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的信息提取方法、装置、电子设备及可读存储介质进行详细地说明。
请参见图1,图1是本申请实施例提供的一种信息提取方法的流程图,该方法应用于电子设备,如图1所示,该方法包括如下步骤:
步骤11:获取待处理的文本集合,所述文本集合中包括多条短文本;
步骤12:利用训练好的主题模型对多条短文本进行分析,获得n类第一主题和每类第一主题下的多个候选主题词,和利用预训练模型对多条短文本进行文本聚类和关键词提取,获得m类第二主题和每类第二主题下的多个候选主题词;所述n和m为大于1的整数;
步骤13:根据n类第一主题和每类第一主题下的多个候选主题词以及m类第二主题和每类第二主题下的多个候选主题词,确定文本集合对应的至少一类目标主题和每类目标主题下的主题词。
这里,上述文本集合可以包括大量冗杂的短文本。上述主题模型可选为BTM主题模型(Biterm Topic Model)。BTM主题模型为非常适合于短文本的主题模型,通过抽取一个文本中的任意两个词对,并基于词共现算法进行建模,推断文本主题。
上述的第一主题和第二主题都为相应短文本中存在的可能主题,其中第一主题是基于词语的共现性和分布情况得到的,第二主题是基于文本的整体语义与主题的相关性得到的。
对于关键词提取,本实施例中主要使用无监督的关键词抽取算法,通过统计词在当前文本和其他文本中的分布情况判断词的关键程度,进而定位关键词。即,如果一个词在当前文本中出现的频率较高但出现在其他文本中的频率较低,则可以初步判断该词对当前文本较为关键,即为当前文本的关键词。
可选的,上述预训练模型的获得方式可以是:在自身目标任务上使用别人用庞大语料训练好的模型,进行自己任务的微调,使下游任务建模中对文本语义的向量表示更加精准。
可选的,本申请实施例适用于从大量冗杂的短文本内容中精准挖掘热点和主题的场景等。
本申请实施例的信息提取方法,在获取待处理的文本集合之后,可以利用训练好的主题模型对所述文本集合中的多条短文本进行分析,获得n类第一主题和每类第一主题下的多个候选主题词,和利用预训练模型对所述文本集合中的多条短文本进行文本聚类和关键词提取,获得m类第二主题和每类第二主题下的多个候选主题词,并根据所述n类第一主题和每类第一主题下的多个候选主题词以及所述m类第二主题和每类第二主题下的多个候选主题词,确定所述文本集合对应的至少一类目标主题和每类目标主题下的主题词。由此,在提取短文本中的主题词时,可以融合词分布和文本语义特征,既考虑了词语的共现性和分布情况,又考虑了文本的整体语义与主题的相关性,从而实现精准的提取短文本中的主题词,使得主题挖掘更准确。
可选的,为了准确提取主题词,可以先将原始短文本进行去停用词等清洗后,再利用BTM主题模型提取主题词。上述利用训练好的主题模型对多条短文本进行分析,获得n类第一主题和每类第一主题下的多个候选主题词的过程可以包括:首先,分别对所述多条短文本中的停用字符进行清洗,获得多条文本数据;其中该停用字符代表无关字符,比如包括标点符号、助词等;然后,利用训练好的主题模型(如BTM主题模型)对所述多条文本数据进行分析,获得n类第一主题和每类第一主题下的多个候选主题词,即利用训练好的BTM模型分析词共现特征及词分布,提取短文本中存在的可能主题及主题相关词。这样,可以避免无关字符影响相应短文本的词分布,从而准确提取主题词。
可选的,上述利用预训练模型对多条短文本进行文本聚类和关键词提取,获得m类第二主题和每类第二主题下的多个候选主题词的过程可以包括:
分别对所述多条短文本进行向量表示,获得多个文本向量;比如,可以利用训练好的模型对短文本进行向量表示;
利用训练好的语义聚类模型对所述多个文本向量进行聚类,获得多类文本簇,所述多类文本簇中的每类文本簇对应一类第二主题,即可获得m类文本簇,分别对应m类第二主题;
分别提取所述每类文本簇中的候选主题词,以获得m类第二主题和每类第二主题下的多个候选主题词。
需指出的,上述聚类可以采用无监督数据挖掘算法,即基于短文本的特征,根据特征向量之间的距离差异,将短文本分成一些独立的类别/簇,使簇内短文本的相似性较高,簇间短文本的相似性较低。
本申请实施例中,在根据n类第一主题和每类第一主题下的多个候选主题词以及m类第二主题和每类第二主题下的多个候选主题词,确定文本集合对应的至少一类目标主题和每类目标主题下的主题词时,可以直接将n类第一主题和m类第二主题作为目标主题,也可以将n类第一主题和m类第二主题进行两两余弦相似度计算,且将主题相似度较高的主题进行合并,即主题内的候选主题词取并集,合成同一主题后,得到目标主题,以达到去重的效果,实现准确提取主题词。
可选的,上述根据n类第一主题和每类第一主题下的多个候选主题词以及m类第二主题和每类第二主题下的多个候选主题词,确定文本集合对应的至少一类目标主题和每类目标主题下的主题词可以包括:
对n类第一主题和m类第二主题进行两两余弦相似度计算,并将余弦相似度满足预设条件的两类主题进行合并(即,将余弦相似度满足预设条件的两类主题内的候选主题词取并集,合成同一主题),和将余弦相似度不满足预设条件的两类主题保持不变,获得所述文本集合对应的至少一类目标主题和每类目标主题下的主题词。其中,上述预设条件可以基于实际需求预先设置,比如为余弦相似度超过0.8等,对此不作限定。
这样,通过主题相似性计算和主题词聚类,可以有效过滤无监督聚类可能产生的大量噪音,使主题内的主题词更凝聚/相近,主题之间更独立。
可选的,上述对n类第一主题和m类第二主题进行两两余弦相似度计算可以包括:
利用训练好的词表示模型对每类第一主题下的多个候选主题词进行词表示,获得每类第一主题下的多个候选主题词的词向量,以及利用训练好的词表示模型对每类第二主题下的多个候选主题词进行词表示,获得每类第二主题下的多个候选主题词的词向量;
对每类第一主题下的多个候选主题词的词向量进行加和求均值,获得每类第一主题的特征向量,以及对每类第二主题下的多个候选主题词的词向量进行加和求均值,获得每类第二主题的特征向量;
对每类第一主题的特征向量和每类第二主题的特征向量进行两两余弦相似度计算。
可选的,为了使主题词更贴合整体语料库的语境,上述训练好的词表示模型是根据待处理的文本集合进行词向量训练得到。
可选的,上述确定文本集合对应的至少一类目标主题和每类目标主题下的主题词之后,可以先对每类目标主题下的主题词进行聚类,获得多类主题词簇;比如可采用无监督聚类算法等进行聚类;然后,将该多类主题词簇中的主题词数量最多的s类主题词簇中的主题词,确定为每类目标主题下的目标主题词,所述s为大于1的整数,比如可预先设置s等于2等。这样,可以充分考虑主题的复杂性,在定义主题时能够综合考虑主题的整体特征以及噪音的剔除,从而可以快速地通过少量精准的主题词对主题进行定义。
下面结合图2至图5对本申请实施例进行详细说明。
本申请实施例中,如图2所述,主题词提取过程主要包括:
S1:获取待处理的文本集合,其中包括多条短文本。
此S1之后,进行数据清洗和整理。1)对多条短文本(即原始文本)进行去停用词等清洗,用于BTM主题模型的挖掘数据源;2)原始的多条短文本用于语义模型的数据源。
以下用来自两个主题的三条短文本作为实例进行说明:剃须刀#的个性革新,雷明定制1版新品首发;X公司研发的两轮电动车怎么样;A国女足逆转击败B国女足获得亚洲杯冠军。
针对上述三条短文本数据,用分号进行句子分割,其中前两句的主题应属于科技主题,第三句属于体育主题。真实场景下,需要通过建模,从大量这样类似的短文本中通过机器挖掘出其中一共包含了哪些主题,并进行后续的分析,如哪些主题是讨论的热点等。本实例中通过建模,期望可以最终发现存在两个主题:科技和体育。
对于上述1)的处理方式,停用词代表无关字符,如标点符号、助词等。比如去停用词后,第一句可变成“剃须刀个性革新雷明定制1版新品首发”。而对于语义主题挖掘,这里不对短文本进行过多处理,主要是为了保持上下文语义的完整性。
S2:利用BTM主题模型进行分析;如图3所示,主要过程包括:
S21:针对清洗后的短文本进行分词。
S22:利用BTM主题模型分析词共现特征及词分布,获得n类第一主题和每类第一主题下的多个候选主题词,n为大于1的整数。
以主题类别数n等于3为例,针对上述三句实例,经过BTM主题模型分析/挖掘之后,可能会出现的结果为:第一类主题词:剃须刀、雷明、X公司、电动车、A国;第二类主题词:女足、A国、B国、亚洲杯;第三类主题词:电动车、女足、A国。由于定义的主题类别数不同,可能会存在部分类别内混入少量非主题相关词,或主题并不明显,如第三类,可经过后续模型的融合进行缓解。
S3:基于预训练模型进行语义聚类及关键词抽取。如图4所示,主要过程包括:
S31:基于预训练模型,分别对原始的多条短文本进行向量表示,获得多个文本向量。
S32:对获得的多个文本向量进行降维。由于预训练模型通常设置的句向量维度较高,故对获得的文本向量进行降维,以缓解向量稀疏问题。
S33:对降维后的文本向量进行层次聚类。
S34:对聚类形成的每类文本簇内,利用TF-IDF算法,提取每类文本簇中的候选主题词,获得m类第二主题和每类第二主题下的多个候选主题词,其输出形式同S22。
S4:对S2和S3中获得的候选主题词进行词表示。比如,利用训练好的词表示模型对获得的候选主题词进行词表示。
S5:对主题内容进行相似性计算,将主题相似度较高的候选主题词进行合并,即对主题内词取并集,合成同一主题。主要过程包括:
首先:对每类第一主题下的多个候选主题词的词向量进行加和求均值,获得每类第一主题的特征向量,以及对每类第二主题下的多个候选主题词的词向量进行加和求均值,获得每类第二主题的特征向量,即对每类主题下的多个候选主题词的词向量进行加和求均值,获得该主题的特征向量。
比如,可采用如下公式计算每类主题的特征向量vector topic:
然后:对所有主题计算其特征向量后,进行两两余弦相似度计算,将余弦相似度满足预设条件(如相似度超过0.8)的两类主题进行合并,即将余弦相似度满足预设条件的两类主题内的候选主题词取并集,合成同一主题,并去重即删除重复的主题词,获得至少一类目标主题和每类目标主题下的主题词。
S6:筛选主题词,以对主题内的相关词进行纯度提升。如图5所示,主要过程包括:
S61:对每类目标主题下的主题词进行词向量表示后,进行无监督聚类,获得多类主题词簇;其中可以根据聚类的轮廓系数指标,定义每类目标主题下主题词的适当类别数,即形成的簇数;
S62:将该多类主题词簇中的主题词数量最多的两类主题词簇中的主题词,确定为每类目标主题下的目标主题词,其他主题词删除。之后,基于筛选后的目标主题词来挖掘/分析确定对应的主题。
S7:主题词排序/推荐。例如,根据业务需求,对过滤后的主题及其相关词进行后续分析,如排序推荐场景,可以对原始文本集合进行主题分类,并依据主题样本量进行排序推荐,其中包含样本量最大的主题可以被认为是最热点的主题。同时如果有其他下游场景需求,也可以将本方案的数据结果,即主题-主题词的映射关系,用于下游业务的数据源,以满足更多的需求。
需要说明的是,本申请实施例提供的信息提取方法,执行主体可以为信息提取装置,或者该信息提取装置中的用于执行信息提取方法的控制模块。本申请实施例中以信息提取装置执行信息提取方法为例,说明本申请实施例提供的信息提取装置。
请参见图6,图6是本申请实施例提供的一种信息提取装置的结构示意图,该装置应用于电子设备,如图6所示,信息提取装置600包括:
获取模块601,用于获取待处理的文本集合,所述文本集合中包括多条短文本;
处理模块602,用于利用训练好的主题模型对所述多条短文本进行分析,获得n类第一主题和每类第一主题下的多个候选主题词,和利用预训练模型对所述多条短文本进行文本聚类和关键词提取,获得m类第二主题和每类第二主题下的多个候选主题词;所述n和m为大于1的整数;
确定模块603,用于根据所述n类第一主题和每类第一主题下的多个候选主题词以及所述m类第二主题和每类第二主题下的多个候选主题词,确定所述文本集合对应的至少一类目标主题和每类目标主题下的主题词。
可选的,所述确定模块603具体用于:对n类第一主题和m类第二主题进行两两余弦相似度计算,并将余弦相似度满足预设条件的两类主题进行合并,和将余弦相似度不满足预设条件的两类主题保持不变,获得所述文本集合对应的至少一类目标主题和每类目标主题下的主题词。
可选的,所述确定模块603包括:
处理单元,用于利用训练好的词表示模型对所述每类第一主题下的多个候选主题词进行词表示,获得所述每类第一主题下的多个候选主题词的词向量,以及利用训练好的词表示模型对所述每类第二主题下的多个候选主题词进行词表示,获得所述每类第二主题下的多个候选主题词的词向量;
第一计算单元,用于对所述每类第一主题下的多个候选主题词的词向量进行加和求均值,获得所述每类第一主题的特征向量,以及对所述每类第二主题下的多个候选主题词的词向量进行加和求均值,获得所述每类第二主题的特征向量;
第二计算单元,用于对所述每类第一主题的特征向量和所述每类第二主题的特征向量进行两两余弦相似度计算。
可选的,所述词表示模型是根据待处理的文本集合进行词向量训练得到。
可选的,所述确定模块603还用于:在确定所述文本集合对应的至少一类目标主题和每类目标主题下的主题词之后,对所述每类目标主题下的主题词进行聚类,获得多类主题词簇;将所述多类主题词簇中的主题词数量最多的s类主题词簇中的主题词,确定为所述每类目标主题下的目标主题词,所述s为大于1的整数。
可选的,所述处理模块602具体用于:
分别对所述多条短文本中的停用字符进行清洗,获得多条文本数据;利用训练好的BTM模型对所述多条文本数据进行分析,获得所述n类第一主题和每类第一主题下的多个候选主题词。
可选的,所述处理模块602具体用于:
分别对所述多条短文本进行向量表示,获得多个文本向量;利用训练好的语义聚类模型对所述多个文本向量进行聚类,获得多类文本簇,其中,所述多类文本簇中的每类文本簇对应一类第二主题;分别提取所述每类文本簇中的候选主题词。
本申请实施例的信息提取装置600,可以实现上述信息提取方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
可选的,如图7所示,本申请实施例还提供一种电子设备70,包括处理器71,存储器72,存储在存储器72上并可在所述处理器71上运行的程序或指令,该程序或指令被处理器71执行时实现上述信息提取方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本申请实施例还提供了一种可读存储介质,其上存储有程序或指令,所述程序或指令被处理器执行时可实现上述信息提取方法实施例的各个过程且能达到相同的技术效果,为避免重复,这里不再赘述。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存 (PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器(ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器 (CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体 (transitory media),如调制的数据信号和载波。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台服务分类设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (10)
1.一种信息提取方法,应用于电子设备,其特征在于,包括:
获取待处理的文本集合,所述文本集合中包括多条短文本;
利用训练好的主题模型对所述多条短文本进行分析,获得n类第一主题和每类第一主题下的多个候选主题词,和利用预训练模型对所述多条短文本进行文本聚类和关键词提取,获得m类第二主题和每类第二主题下的多个候选主题词;其中,所述n和m为大于1的整数;
根据所述n类第一主题和每类第一主题下的多个候选主题词以及所述m类第二主题和每类第二主题下的多个候选主题词,确定所述文本集合对应的至少一类目标主题和每类目标主题下的主题词。
2.根据权利要求1所述的方法,其特征在于,所述根据所述n类第一主题和每类第一主题下的多个候选主题词以及所述m类第二主题和每类第二主题下的多个候选主题词,确定所述文本集合对应的至少一类目标主题和每类目标主题下的主题词,包括:
对所述n类第一主题和所述m类第二主题进行两两余弦相似度计算,并将余弦相似度满足预设条件的两类主题进行合并,和将余弦相似度不满足预设条件的两类主题保持不变,获得所述文本集合对应的至少一类目标主题和每类目标主题下的主题词。
3.根据权利要求2所述的方法,其特征在于,所述对所述n类第一主题和所述m类第二主题进行两两余弦相似度计算,包括:
利用训练好的词表示模型对所述每类第一主题下的多个候选主题词进行词表示,获得所述每类第一主题下的多个候选主题词的词向量,以及利用训练好的词表示模型对所述每类第二主题下的多个候选主题词进行词表示,获得所述每类第二主题下的多个候选主题词的词向量;
对所述每类第一主题下的多个候选主题词的词向量进行加和求均值,获得所述每类第一主题的特征向量,以及对所述每类第二主题下的多个候选主题词的词向量进行加和求均值,获得所述每类第二主题的特征向量;
对所述每类第一主题的特征向量和所述每类第二主题的特征向量进行两两余弦相似度计算。
4.根据权利要求3所述的方法,其特征在于,所述词表示模型是根据所述待处理的文本集合进行词向量训练得到。
5.根据权利要求1或2所述的方法,其特征在于,所述确定所述文本集合对应的至少一类目标主题和每类目标主题下的主题词之后,所述方法还包括:
对所述每类目标主题下的主题词进行聚类,获得多类主题词簇;
将所述多类主题词簇中的主题词数量最多的s类主题词簇中的主题词,确定为所述每类目标主题下的目标主题词,所述s为大于1的整数。
6.根据权利要求1所述的方法,其特征在于,所述利用训练好的主题模型对所述多条短文本进行分析,获得n类第一主题和每类第一主题下的多个候选主题词,包括:
分别对所述多条短文本中的停用字符进行清洗,获得多条文本数据;
利用训练好的主题模型对所述多条文本数据进行分析,获得所述n类第一主题和每类第一主题下的多个候选主题词。
7.根据权利要求1所述的方法,其特征在于,所述利用预训练模型对所述多条短文本进行文本聚类和关键词提取,获得m类第二主题和每类第二主题下的多个候选主题词,包括:
分别对所述多条短文本进行向量表示,获得多个文本向量;
利用训练好的语义聚类模型对所述多个文本向量进行聚类,获得多类文本簇,其中,所述多类文本簇中的每类文本簇对应一类第二主题;
分别提取所述每类文本簇中的候选主题词。
8.一种信息提取装置,其特征在于,包括:
获取模块,用于获取待处理的文本集合,所述文本集合中包括多条短文本;
处理模块,用于利用训练好的主题模型对所述多条短文本进行分析,获得n类第一主题和每类第一主题下的多个候选主题词,和利用预训练模型对所述多条短文本进行文本聚类和关键词提取,获得m类第二主题和每类第二主题下的多个候选主题词;其中,所述n和m为大于1的整数;
确定模块,用于根据所述n类第一主题和每类第一主题下的多个候选主题词以及所述m类第二主题和每类第二主题下的多个候选主题词,确定所述文本集合对应的至少一类目标主题和每类目标主题下的主题词。
9.一种电子设备,其特征在于,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1至7任一项所述的信息提取方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1至7任一项所述的信息提取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310659763.6A CN116431814B (zh) | 2023-06-06 | 2023-06-06 | 信息提取方法、装置、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310659763.6A CN116431814B (zh) | 2023-06-06 | 2023-06-06 | 信息提取方法、装置、电子设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116431814A true CN116431814A (zh) | 2023-07-14 |
CN116431814B CN116431814B (zh) | 2023-09-05 |
Family
ID=87084088
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310659763.6A Active CN116431814B (zh) | 2023-06-06 | 2023-06-06 | 信息提取方法、装置、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116431814B (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090055381A1 (en) * | 2007-08-23 | 2009-02-26 | Google Inc. | Domain Dictionary Creation |
CN107992477A (zh) * | 2017-11-30 | 2018-05-04 | 北京神州泰岳软件股份有限公司 | 文本主题确定方法、装置及电子设备 |
CN108052593A (zh) * | 2017-12-12 | 2018-05-18 | 山东科技大学 | 一种基于主题词向量和网络结构的主题关键词提取方法 |
CN108536868A (zh) * | 2018-04-24 | 2018-09-14 | 北京慧闻科技发展有限公司 | 社交网络上短文本数据的数据处理方法及应用 |
CN108829799A (zh) * | 2018-06-05 | 2018-11-16 | 中国人民公安大学 | 基于改进lda主题模型的文本相似度计算方法及系统 |
CN110321553A (zh) * | 2019-05-30 | 2019-10-11 | 平安科技(深圳)有限公司 | 短文本主题识别方法、装置及计算机可读存储介质 |
CN111274798A (zh) * | 2020-01-06 | 2020-06-12 | 北京大米科技有限公司 | 一种文本主题词确定方法、装置、存储介质及终端 |
CN112699232A (zh) * | 2019-10-17 | 2021-04-23 | 北京京东尚科信息技术有限公司 | 文本标签提取方法、装置、设备和存储介质 |
CN113255340A (zh) * | 2021-07-09 | 2021-08-13 | 北京邮电大学 | 面向科技需求的主题提取方法、装置和存储介质 |
CN113407679A (zh) * | 2021-06-30 | 2021-09-17 | 竹间智能科技(上海)有限公司 | 文本主题挖掘方法、装置、电子设备及存储介质 |
WO2021227831A1 (zh) * | 2020-05-13 | 2021-11-18 | 杭州安恒信息技术股份有限公司 | 威胁情报的主题检测方法、装置和计算机存储介质 |
CN115329754A (zh) * | 2022-08-24 | 2022-11-11 | 讯飞智元信息科技有限公司 | 一种文本主题提取方法、装置、设备及存储介质 |
CN115935977A (zh) * | 2022-11-10 | 2023-04-07 | 北京市大数据中心 | 文本主题识别方法、装置及电子设备 |
-
2023
- 2023-06-06 CN CN202310659763.6A patent/CN116431814B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090055381A1 (en) * | 2007-08-23 | 2009-02-26 | Google Inc. | Domain Dictionary Creation |
CN107992477A (zh) * | 2017-11-30 | 2018-05-04 | 北京神州泰岳软件股份有限公司 | 文本主题确定方法、装置及电子设备 |
CN108052593A (zh) * | 2017-12-12 | 2018-05-18 | 山东科技大学 | 一种基于主题词向量和网络结构的主题关键词提取方法 |
CN108536868A (zh) * | 2018-04-24 | 2018-09-14 | 北京慧闻科技发展有限公司 | 社交网络上短文本数据的数据处理方法及应用 |
CN108829799A (zh) * | 2018-06-05 | 2018-11-16 | 中国人民公安大学 | 基于改进lda主题模型的文本相似度计算方法及系统 |
CN110321553A (zh) * | 2019-05-30 | 2019-10-11 | 平安科技(深圳)有限公司 | 短文本主题识别方法、装置及计算机可读存储介质 |
CN112699232A (zh) * | 2019-10-17 | 2021-04-23 | 北京京东尚科信息技术有限公司 | 文本标签提取方法、装置、设备和存储介质 |
CN111274798A (zh) * | 2020-01-06 | 2020-06-12 | 北京大米科技有限公司 | 一种文本主题词确定方法、装置、存储介质及终端 |
WO2021227831A1 (zh) * | 2020-05-13 | 2021-11-18 | 杭州安恒信息技术股份有限公司 | 威胁情报的主题检测方法、装置和计算机存储介质 |
CN113407679A (zh) * | 2021-06-30 | 2021-09-17 | 竹间智能科技(上海)有限公司 | 文本主题挖掘方法、装置、电子设备及存储介质 |
CN113255340A (zh) * | 2021-07-09 | 2021-08-13 | 北京邮电大学 | 面向科技需求的主题提取方法、装置和存储介质 |
CN115329754A (zh) * | 2022-08-24 | 2022-11-11 | 讯飞智元信息科技有限公司 | 一种文本主题提取方法、装置、设备及存储介质 |
CN115935977A (zh) * | 2022-11-10 | 2023-04-07 | 北京市大数据中心 | 文本主题识别方法、装置及电子设备 |
Non-Patent Citations (1)
Title |
---|
王云云等: "基于Multi-TWE模型的短文本分类研究", 《智能计算机与应用》, no. 03 * |
Also Published As
Publication number | Publication date |
---|---|
CN116431814B (zh) | 2023-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107291723B (zh) | 网页文本分类的方法和装置,网页文本识别的方法和装置 | |
CN106919619B (zh) | 一种商品聚类方法、装置及电子设备 | |
CN105975558B (zh) | 建立语句编辑模型的方法、语句自动编辑方法及对应装置 | |
CN110196910B (zh) | 一种语料分类的方法及装置 | |
Çakir et al. | Text mining analysis in Turkish language using big data tools | |
CN103678422A (zh) | 网页分类方法和装置、网页分类器的训练方法和装置 | |
CN108228612B (zh) | 一种提取网络事件关键词以及情绪倾向的方法及装置 | |
CN112183093A (zh) | 一种企业舆情分析方法、装置、设备及可读存储介质 | |
Ashok Kumar et al. | An efficient text-based image retrieval using natural language processing (NLP) techniques | |
Kayakuş et al. | Classification of news texts by categories using machine learning methods | |
CN107291686B (zh) | 情感标识的辨识方法和情感标识的辨识系统 | |
CN116431814B (zh) | 信息提取方法、装置、电子设备及可读存储介质 | |
CN106294689A (zh) | 一种基于文本类特征选择进行降维的方法和装置 | |
CN107729509B (zh) | 基于隐性高维分布式特征表示的篇章相似度判定方法 | |
Timoney et al. | Nostalgic sentiment analysis of youtube comments for chart hits of the 20th century | |
CN113516202A (zh) | Cbl特征提取与去噪的网页精准分类方法 | |
Kastrati et al. | Transfer learning to timed text based video classification using CNN | |
JP5342574B2 (ja) | トピックモデリング装置、トピックモデリング方法、及びプログラム | |
Hamza et al. | MaroBERTa: Multilabel Classification Language Model for Darija Newspaper | |
CN111008281A (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
Esteves et al. | HORUS-NER: A Multimodal Named Entity Recognition Framework for Noisy Data | |
Dey et al. | Evaluation of word spotting under improper segmentation scenario | |
CN117540747B (zh) | 一种基于人工智能的图书出版智慧选题系统 | |
Lin et al. | Research on keyword extraction algorithm for Chinese text based on document topic structure and semantics | |
EP4435670A1 (en) | Web content sentiment analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address |
Address after: Room 228, 2nd Floor, No. 5 Guanghua Road, Zhangjiawan Town, Tongzhou District, Beijing, 101113 Patentee after: BEIJING ZHONGGUANCUN KEJIN TECHNOLOGY Co.,Ltd. Country or region after: China Address before: 130, 1st Floor, Building 5, Courtyard 1, Shangdi Fourth Street, Haidian District, Beijing, 100085 Patentee before: BEIJING ZHONGGUANCUN KEJIN TECHNOLOGY Co.,Ltd. Country or region before: China |