CN111930885A - 文本话题的抽取方法、装置及计算机设备 - Google Patents

文本话题的抽取方法、装置及计算机设备 Download PDF

Info

Publication number
CN111930885A
CN111930885A CN202010631669.6A CN202010631669A CN111930885A CN 111930885 A CN111930885 A CN 111930885A CN 202010631669 A CN202010631669 A CN 202010631669A CN 111930885 A CN111930885 A CN 111930885A
Authority
CN
China
Prior art keywords
word
text
topic
input text
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010631669.6A
Other languages
English (en)
Other versions
CN111930885B (zh
Inventor
朱鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xinlian Caitong Consulting Co ltd
Original Assignee
Beijing Xinlian Caitong Consulting Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xinlian Caitong Consulting Co ltd filed Critical Beijing Xinlian Caitong Consulting Co ltd
Priority to CN202010631669.6A priority Critical patent/CN111930885B/zh
Publication of CN111930885A publication Critical patent/CN111930885A/zh
Application granted granted Critical
Publication of CN111930885B publication Critical patent/CN111930885B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种文本话题的抽取方法、装置及计算机设备,涉及数据处理领域,可以解决目前在进行文本话题抽取时,抽取效率低,且准确度不高的问题。其中方法包括:对文本集合中各个待进行话题抽取的输入文本进行预处理,得到所述输入文本对应的词序列;依据所述词序列计算各个所述输入文本的词频向量以及词权重向量;基于所述词频向量确定所述文本集合的第一话题抽取结果;根据所述词权重向量以及所述第一话题抽取结果输出所述文本集合的第二话题抽取结果,所述第二话题抽取结果包括预设数量个目标话题以及所述目标话题下的第一文本集合,所述第一文本集合中至少包含一个所述输入文本。本申请适用于对文本话题的抽取。

Description

文本话题的抽取方法、装置及计算机设备
技术领域
本申请涉及数据处理领域,尤其涉及到一种文本话题的抽取方法、装置及计算机设备。
背景技术
随着信息时代的发展,业务数据日渐增多甚至泛滥,话题的抽取与检测技术逐步应用到诸多数据处理的过程之中,机器自动从业务数据中抽取话题、组织话题帮助使用者提高工作效率意义重大。基于图理论和概率统计学的主题模型在机器学习领域中得到越来越多的应用。
目前在对文本中的话题进行抽取时,通常可采用两种方法:一种是仅能在话题已知的情况下进行抽取,通过将文本与预设话题匹配,获取话题抽取结果;第二种是在话题未知的情况下,直接将文本中出现频率最高的话题确定为文本对应的话题抽取结果。
然而上述两种话题抽取方法往往会导致一个文本对应多个话题识别结果,均不能在话题未知的情况下,准确快速地抽取出文本所对应的话题。
发明内容
有鉴于此,本申请提供了一种文本话题的抽取方法、装置及计算机设备,主要解决目前在进行文本话题抽取时,抽取效率低,且准确度不高的问题。
根据本申请的一个方面,提供了一种文本话题的抽取方法,该方法包括:
对文本集合中各个待进行话题抽取的输入文本进行预处理,得到所述输入文本对应的词序列;
依据所述词序列计算各个所述输入文本的词频向量以及词权重向量;
基于所述词频向量确定所述文本集合的第一话题抽取结果;
根据所述词权重向量以及所述第一话题抽取结果输出所述文本集合的第二话题抽取结果,所述第二话题抽取结果包括预设数量个目标话题以及所述目标话题下的第一文本集合,所述第一文本集合中至少包含一个所述输入文本。
优选地,所述对文本集合中各个待进行话题抽取的输入文本进行预处理,得到所述输入文本对应的词序列,具体包括:
基于分词技术分别将各个输入文本切分为第一词语,并得到第一词序列;
基于所述第一词语的目标词性确定与预设停用词性匹配的第二词语,以便从所述第一词序列中剔除所述第二词语,得到第二词序列。
优选地,所述依据所述词序列计算各个所述输入文本的词频向量以及词权重向量,具体包括:
基于TF-IDF算法计算所述第二词序列中各个所述第一词语对应所述输入文本的词频以及权重值;
利用所述第二词序列以及所述词频构建关于所述输入文本的词频向量;
根据所述第二词序列以及所述词权重构建关于所述输入文本的词权重向量。
优选地,所述TF-IDF算法包括:第一计算公式和第二计算公式,所述基于TF-IDF算法计算所述第二词序列中各个所述第一词语对应所述输入文本的词频以及权重值,包括:
根据所述第一计算公式计算所述输入文本中所述第一词语的词频;
根据所述第二计算公式计算所述输入文本中所述第一词语的逆向文件频率;
将所述所述词频与所述逆向文件频率的乘积,确定为所述第一词语对应所述输入文本的权重值。
优选地,所述基于所述词频向量确定所述文本集合的第一话题抽取结果,具体包括:
利用文本词典集合训练确定LDA预测模型的最优配置参数;
将所述LDA预测模型的配置参数调整为所述最优配置参数,并将各个所述输入文本的词频向量输入参数调整后的LDA预测模型中,获取得到第一话题抽取结果,所述第一话题抽取结果包括预设数量个目标话题以及所述第二词序列中与所述目标话题关联的第三词语。
优选地,所述根据所述词权重向量以及所述第一话题抽取结果输出所述文本集合的第二话题抽取结果,所述第二话题抽取结果包括预设数量个目标话题以及所述目标话题下的第一文本集合,所述第一文本集合中至少包含一个所述输入文本,具体包括:
依据所述第三词语的数据标识,提取与各个所述目标话题关联的第一输入文本;
基于所述第一输入文本的词权重向量筛选与各个所述目标话题匹配的输入文本,并构建第一文本集合;
输出所述目标话题以及对应的所述第一文本集合。
优选地,所述基于所述第一输入文本的词权重向量筛选与各个所述目标话题匹配的输入文本,并构建第一文本集合,具体包括:
若判定所述目标话题中仅存在一个关联的第一输入文本,则将所述关联的第一输入文本确定为与所述目标话题匹配的输入文本,并归类至所述目标话题对应的第一文本集合中;
若判定所述目标话题中存在多个关联的第一输入文本,则对所述关联的第一输入文本进行相似度验证;
将通过所述相似度验证的所述第一输入文本确定为与所述目标话题匹配的输入文本,归类至所述第一文本集合中。
根据本申请的另一个方面,提供了一种文本话题的抽取装置,该装置包括:
处理模块,用于对文本集合中各个待进行话题抽取的输入文本进行预处理,得到所述输入文本对应的词序列;
计算模块,用于依据所述词序列计算各个所述输入文本的词频向量以及词权重向量;
确定模块,用于基于所述词频向量确定所述文本集合的第一话题抽取结果;
输出模块,用于根据所述词权重向量以及所述第一话题抽取结果输出所述文本集合的第二话题抽取结果,所述第二话题抽取结果包括预设数量个目标话题以及所述目标话题下的第一文本集合,所述第一文本集合中至少包含一个所述输入文本。
优选地,所述处理模块,具体用于:
基于分词技术分别将各个输入文本切分为第一词语,并得到第一词序列;
基于所述第一词语的目标词性确定与预设停用词性匹配的第二词语,以便从所述第一词序列中剔除所述第二词语,得到第二词序列。
优选地,所述计算模块,具体用于:
基于TF-IDF算法计算所述第二词序列中各个所述第一词语对应所述输入文本的词频以及权重值;
利用所述第二词序列以及所述词频构建关于所述输入文本的词频向量;
根据所述第二词序列以及所述词权重构建关于所述输入文本的词权重向量。
优选地,所述计算模块,具体用于:
根据所述第一计算公式计算所述输入文本中所述第一词语的词频;
根据所述第二计算公式计算所述输入文本中所述第一词语的逆向文件频率;
将所述所述词频与所述逆向文件频率的乘积,确定为所述第一词语对应所述输入文本的权重值。
优选地,所述确定模块,具体用于:
利用文本词典集合训练确定LDA预测模型的最优配置参数;
将所述LDA预测模型的配置参数调整为所述最优配置参数,并将各个所述输入文本的词频向量输入参数调整后的LDA预测模型中,获取得到第一话题抽取结果,所述第一话题抽取结果包括预设数量个目标话题以及所述第二词序列中与所述目标话题关联的第三词语。
优选地,所述输出模块,具体用于:
依据所述第三词语的数据标识,提取与各个所述目标话题关联的第一输入文本;
基于所述第一输入文本的词权重向量筛选与各个所述目标话题匹配的输入文本,并构建第一文本集合;
输出所述目标话题以及对应的所述第一文本集合。
优选地,所述输出模块,具体用于:
若判定所述目标话题中仅存在一个关联的第一输入文本,则将所述关联的第一输入文本确定为与所述目标话题匹配的输入文本,并归类至所述目标话题对应的第一文本集合中;
若判定所述目标话题中存在多个关联的第一输入文本,则对所述关联的第一输入文本进行相似度验证;
将通过所述相似度验证的所述第一输入文本确定为与所述目标话题匹配的输入文本,归类至所述第一文本集合中。
根据本申请的又一个方面,提供了一种非易失性可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述文本话题的抽取方法。
根据本申请的再一个方面,提供了一种计算机设备,包括非易失性可读存储介质、处理器及存储在非易失性可读存储介质上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述文本话题的抽取方法。
借由上述技术方案,本申请提供的一种文本话题的抽取方法、装置及计算机设备,与目前文本话题的抽取方式相比,本申请可首先对文本集合中的输入文本进行分词处理,得到各个输入文本对应的词序列,之后基于词序列构建关于输入文本的词频向量以及词权重向量,在利用词频向量确定出文本集合的第一话题抽取结果后,根据词权重向量对第一话题抽取结果进行校验修正,以便获取得到最终的第二话题抽取结果。在本申请中,通过将统计学与概率学相结合,可实现在话题未知的情况下,对文本话题的精准提取,提高话题抽取效率的同时,也能保证话题抽取的准确度。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本地申请的不当限定。在附图中:
图1示出了本申请实施例提供的一种文本话题的抽取方法的流程示意图;
图2示出了本申请实施例提供的另一种文本话题的抽取方法的流程示意图;
图3示出了本申请实施例提供的一种文本话题的抽取装置的结构示意图;
图4示出了本申请实施例提供的另一种文本话题的抽取装置的结构示意图。
具体实施方式
下文将参考附图并结合实施例来详细说明本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合。
针对目前在进行文本话题抽取时,抽取效率低,且准确度不高的问题,本申请实施例提供了一种文本话题的抽取方法,如图1所示,该方法包括:
101、对文本集合中各个待进行话题抽取的输入文本进行预处理,得到输入文本对应的词序列。
对于本实施例,在具体的应用场景中,预处理操作可包括切词处理以及停用词滤除两部分内容。其中,切词处理可将各个输入文本切分为各个独立的词段,但在切分后的词段中,往往会存在一些冗余或者质量不高的词汇,故为了提高话题抽取效率,且节省运行的空间占用,故可通过设置需要滤除的停用词,以便筛选出一些对于话题抽取作用不大的词语,并将之滤除。
102、依据词序列计算各个输入文本的词频向量以及词权重向量。
对于本实施例,在具体的应用场景中,计算词频向量以及词权重向量的目的是将每个文本均用向量表示,能够便于话题维度的分析以及统计。
103、基于词频向量确定文本集合的第一话题抽取结果。
对于本实施例,在具体的应用场景中,可将各个输入文本对应的词频向量输入文档主题生成模型中,获取得到第一话题抽取结果,其中,文档主题生成模型可为现有的隐狄利克雷分配模型(Latent Dirichlet Allocation,LDA)。其中,LDA也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构,将文本集合中的各个词频向量输入至LDA预测模型中,可得到预判话题结果集合,预判话题结果集合包含预设数量个未知话题,不同话题后呈现与该话题相关的切分词段。
104、根据词权重向量以及第一话题抽取结果输出文本集合的第二话题抽取结果,第二话题抽取结果包括预设数量个目标话题以及目标话题下的第一文本集合,第一文本集合中至少包含一个输入文本。
对于本实施例,在具体的应用场景中,由于LDA结合了潜在语义信息,但是精度不够,故在获取得到第一话题抽取结果后,可利用各个输入文本对应的词权重向量对第一话题抽取结果进行验证并优化,以得到精度相对较高的话题抽取结果。
通过本实施例中文本话题的抽取方法,可首先对文本集合中的输入文本进行分词处理,得到各个输入文本对应的词序列,之后基于词序列构建关于输入文本的词频向量以及词权重向量,在利用词频向量确定出文本集合的第一话题抽取结果后,根据词权重向量对第一话题抽取结果进行校验修正,以便获取得到最终的第二话题抽取结果。在本申请中,通过将统计学与概率学相结合,可实现在话题未知的情况下,对文本话题的精准提取,提高话题抽取效率的同时,也能保证话题抽取的准确度。
进一步的,作为上述实施例具体实施方式的细化和扩展,为了完整说明本实施例中的具体实施过程,提供了另一种文本话题的抽取方法,如图2所示,该方法包括:
201、基于分词技术分别将各个输入文本切分为第一词语,并得到第一词序列。
对于本实施例,在具体的应用场景中,可利用现有的切词工具(如CRF分词器)对输入文本进行词语切分,得到各个独立的第一词语以及分词后的第一词序列,其中,每个第一词语标记有对应的目标词性。具体的,在获取文本集合后,需要对文本集合中的每个输入文本均进行切词处理,并生成一个词序列,各个第一词语作为词序列中的元素,按照在输入文本中的出现位置依次排列,进一步得到第一词序列,其中,对应第一词序列的格式为:[词1,词2,词3,…词N]。
202、基于第一词语的目标词性确定与预设停用词性匹配的第二词语,以便从第一词序列中剔除第二词语,得到第二词序列。
对于本实施例,在具体的应用场景中,作为一种优选方式,为了提高话题抽取的效率,在利用上述方法获取得到标记好目标词性的第一词语后,还可进一步对第一词语进行识别,剔除第一词序列中存在的一些停用词性,进一步得到仅包含有效第一词语的第二词序列。其中,预设停用词性可为语气助词、副词、介词、连接词等,这些预设停用词性通常自身并无什么明确的意义,只有将其放入一个完整的句子中才有一定作用,如常见的“哎”,“哎哟”,“别的”,“结果”,“让”,“不过”等。由于这些词很少单独表达文档相关程度的信息,且这些功能词对于话题区分基本没有什么帮助,故为了提高话题抽取的效率和节省存储空间,可事先过滤掉这些没有意义的词。具体可基于现有的停用词词表来实现对停用词的识别与滤除,比如“百度停用词表”、“哈工大停用词表”等。
203、基于TF-IDF算法计算第二词序列中各个第一词语对应输入文本的词频以及权重值。
其中,TF-IDF算法是一种统计方法,用以评估一个词语对于一个文件集或一个语料库中其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF的主要思想就是,如果某个单词在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力。在本申请中,可利用TF-IDF算法计算各个第二词序列中所包含的各个第一词语在该第二词序列中的出现频率,即词频TFij,以及计算各个第一词语在所有第二词序列中的出现频率,即逆向文件频率IDFi,,并且将词频TFij和逆向文件频率IDFi的乘积确定为该第一词语对应输入文本的重要程度,即权重值。
其中,TF-IDF算法包括:第一计算公式和第二计算公式。
第一计算公式的特征描述为:
Figure BDA0002569112060000081
其中,TFij为第一词语i的词频,ni,j为第一词语i在第二词序列dj中出现的次数,
Figure BDA0002569112060000082
为第二词序列dj中所有第一词语的数量之和;第二计算公式的特征描述为:
Figure BDA0002569112060000083
其中,IDFi为第一词语ti的逆向文件频率,|D|为文本集合中第二词序列的总数量,|{j:ti∈dj}|+1表示包含第一词语ti的第二词序列的数量。
对于本实施例,相应的,为了计算得到各个第二词语对应输入文本的词频以及权重值,实施例步骤204具体可以包括:根据第一计算公式计算输入文本中第一词语的词频;根据第二计算公式计算输入文本中第一词语的逆向文件频率;将词频与逆向文件频率的乘积,确定为第一词语对应输入文本的权重值。
204、利用第二词序列以及词频构建关于输入文本的词频向量。
对于本实施例,在具体的应用场景中,作为一种优选方式,为了提供话题的抽取效率,可对第二序列进行数字化处理,以便构建数据数字化组。在依据实施例步骤204计算出各个第一词语对应第二词序列的词频后,可将词频添加到数字化处理后的各个第一词语之后,形成第一词语与词频的集合,即对应输入文本的词频向量,对应格式为:词-词频。在词频向量中,向量元素对应数字化处理后的第一词语(数字ID)和第一词语的词频。
205、根据第二词序列以及词权重构建关于输入文本的词权重向量。
在本实施例中,相应的,在获取得到数字化处理后的第二序列后,可将依据实施例步骤204计算出的各个第一词语对应第二词序列的词权重值,添加到数字化处理后的各个第一词语之后,形成第一词语与权重的集合,即对应输入文本的词权重向量,对应格式为:词-权重值。在词权重向量中,每个元素对应数字化处理后的第一词语(数字ID)和第一词语的词权重。
206、利用文本词典集合训练确定LDA预测模型的最优配置参数。
其中,LDA预测模型可包含配置参数有:主题数(k)、迭代次数(maxIterations)、文档-主题分布的先验Dirichlet参数(docConcentration(alpha))、主题-词语分布的先验Dirichlet参数(topicConcentration(beta)),其中,主题数即聚类中心数,设定k值后,在进行话题抽取时,系统可直接自动抽取出k个话题;docConcentration(alpha)对应的设定数值越大,推断的分布越平滑,由于LDA预测模型只支持对称的先验,因此在提供的k维向量中所有值都相等,所有值必须大于1.0;topicConcentration(beta)对应的设定数值越大,推断的分布越平滑,所有值也必须大于1.0。
对于本实施例,在具体的应用场景中,可将拥有大量测试文本的文本词典集合输入LDA预测模型中,获取最优配置参数。在本申请中,在通过30次5-10万文本测试确定最优配置参数可为:
k=10;
maxIterations=150;
docConcentration(alpha)=2.0;
topicConcentration(beta)=3.0。
207、将LDA预测模型的配置参数调整为最优配置参数,并将各个输入文本的词频向量输入参数调整后的LDA预测模型中,获取得到第一话题抽取结果,第一话题抽取结果包括预设数量个目标话题以及第二词序列中与目标话题关联的第三词语。
对于本实施例,在具体的应用场景中,在基于实施例步骤207确定出LDA预测模型的最优配置参数后,作为一种优选方式,为了使话题抽取结果更加精确,可优先将LDA预测模型的配置参数调整为最优配置参数。
相应的,在将LDA预测模型的参数调整为最优配置参数后,可将文本集合中所有输入文本对应的词频向量一同输入至LDA预测模型中,获取得到10(k)个目标话题,以及各个目标话题对应的第三词语。其中,每个目标话题至少存在一个与之关联的第三词语。例如,LDA预测模型共输出a、b、c、d、e、f、g、h、i、j十个目标话题,当输出目标话题a为“体育运动”时,话题a之后即对应与“体育运动”相关的第三词语,如马拉松、田径、球类、游泳、武术、健美操、登山、滑冰、举重、摔跤、柔道、自行车等;当输出目标话题b为“文化”时,话题b之后即对应与“文化”相关的第三词语,如书法、篆刻印章、中国结、京戏脸谱、皮影、兵马俑、剪纸等;这些第三词语均是从各个输入文本中提取出来的,也正是由于这些第三词语才会导致生成这十个目标话题。
208、依据第三词语的数据标识,提取与各个目标话题关联的第一输入文本。
对于本实施例,在具体的应用场景中,LDA预测模型输出的各个目标话题对应的第三词语可来源于不同的输入文本,由于各个切分后的词语均可查取得到对应所属的输入文本,故可根据第三词语的数据标识,确定出第三词语对应的输入文本,若确定输入文本对应的第二序列中存在任意一个与目标话题关联的第三词语,则可将该输入文本确定为与该目标话题关联的第一输入文本。如基于实施例步骤208的实例,若输出目标话题b为“文化”,且输出与“文化”相关的第三词语,包括:书法、篆刻印章、中国结、京戏脸谱、皮影、兵马俑、剪纸,若根据上述第三词语的数据标识,确定书法、篆刻印章是输入文本1的切分词,京戏脸谱、皮影是输入文本5的切分词,兵马俑是输入文本7的切分词,中国结、剪纸是输入文本10的切分词,则可进一步确定出与目标话题b关联的第一输入文本为:输入文本1、输入文本5、输入文本7、输入文本10。
209、基于第一输入文本的词权重向量筛选与各个目标话题匹配的输入文本,并构建第一文本集合。
对于本实施例,在具体的应用场景中,为了筛选出与各个目标话题真正匹配的输入文本,实施例步骤210具体可以包括:若判定目标话题中仅存在一个关联的第一输入文本,则将关联的第一输入文本确定为与目标话题匹配的输入文本,并归类至目标话题对应的第一文本集合中;若判定目标话题中存在多个关联的第一输入文本,则对关联的第一输入文本进行相似度验证;将通过相似度验证的第一输入文本确定为与目标话题匹配的输入文本,归类至第一文本集合中。
在具体的应用场景中,由于LDA预测模型是利用词频进行话题抽取的,故可能会出现一个输入文本对应多个不同目标话题的情况,如输入文本5的第二序列中既包含与“体育运动”这一目标话题关联的第三词语,也同样包含与“文化”这一目标话题关联的第三词语,故依据第一话题抽取结果可判定输入文本5对应的目标话题为“体育运动”和“文化”。由于“体育运动”和“文化”分别归属于不同的话题维度,故对于输入文本5的话题定位显然不够精准,从而需要对与同一目标话题关联的第一输入文本进行相似度验证;将通过相似度验证的第一输入文本确定为与目标话题匹配的输入文本,归类至第一文本集合中。
在本实施例中,在进行相似度验证时,可对同属于一个话题维度的第一输入文本进行两两文本聚类,并计算各个文本聚类中词权重向量的余弦相似度,利用余弦相似度计算结果对预估话题分类结果进行校验,以便滤除同一话题维度内与其他第一输入文本余弦相似度小于预设阈值的输入文本,并且对文本特征符合该话题维度内文本聚类特征的第一输入文本进行归类,得到该目标话题对应的第一文本集合。其中,预设阈值为0~1之间的数值,具体数值的大小可根据实际应用场景进行设定,例如可为0.7。其中设定的预设阈值越接近1,第一文本集合中输入文本间的向量夹角越小,文本特征越相似;反之,若设定的预设阈值越小,第一文本集合中输入文本间的向量夹角越大,即文本特征差异越大,文本越不相关。
其中,词权重向量的余弦相似度的计算公式为:
Figure BDA0002569112060000121
其中,x为两两文本聚类中第一篇输入文本的词权重向量,y为两两文本聚类中第二篇输入文本的词权重向量,n为词权重向量的维度。
例如,基于实施例步骤209,确定出与目标话题b关联的第一输入文本为:输入文本1、输入文本5、输入文本7、输入文本10,则在本实施例中,可进一步对目标话题b的关联结果进行验证,即验证输入文本1、输入文本5、输入文本7、输入文本10是否属于目标话题b。首先需要两两聚类,两两聚类结果为:输入文本1和输入文本5、输入文本1和输入文本7、输入文本1和输入文本10、输入文本5和输入文本7、输入文本5和输入文本10、输入文本7和输入文本10,之后分别计算上述聚类中,两个输入文本间权重向量的余弦相似度,若确定输入文本1与输入文本5、7、10的余弦相似度计算结果均大于0.7(预设阈值),则可将输入文本1归类至该目标话题对应的第一文本集合中;反之若确定输入文本1与输入文本5、7、10的余弦相似度计算结果均小于0.7(预设阈值),则可判定输入文本1不予该目标话题,进而不需要归类至该目标话题对应的第一文本集合。
210、输出目标话题以及对应的第一文本集合。
对于本实施例,在具体的应用场景中,在基于词权重向量的余弦相似度对各个目标话题对应的第一输入文本进行关联性验证后,可得到各个目标话题对应的第一文本集合,每个第一文本集合中包含与目标话题真正关联的输入文本。
借由上述文本话题的抽取方法,可首先对文本集合中的输入文本进行分词处理,得到各个输入文本对应的词序列,之后基于词序列构建关于输入文本的词频向量以及词权重向量,在利用词频向量确定出文本集合的第一话题抽取结果后,根据词权重向量对第一话题抽取结果进行校验修正,以便获取得到最终的第二话题抽取结果。在本申请中,通过将统计学与概率学相结合,可实现在话题未知的情况下,对文本话题的精准提取,提高话题抽取效率的同时,也能保证话题抽取的准确度。
进一步的,作为图1和图2所示方法的具体实现,本申请实施例提供了一种文本话题的抽取装置,如图3所示,该装置包括:处理模块31、计算模块32、确定模块33、输出模块34;
处理模块31,用于对文本集合中各个待进行话题抽取的输入文本进行预处理,得到输入文本对应的词序列;
计算模块32,用于依据词序列计算各个输入文本的词频向量以及词权重向量;
确定模块33,用于基于词频向量确定文本集合的第一话题抽取结果;
输出模块34,用于根据词权重向量以及第一话题抽取结果输出文本集合的第二话题抽取结果,第二话题抽取结果包括预设数量个目标话题以及目标话题下的第一文本集合,第一文本集合中至少包含一个输入文本。
在具体的应用场景中,为了对文本集合中各个待进行话题抽取的输入文本进行预处理,得到输入文本对应的词序列,如题4所示,处理模块31,具体可包括:切分单元311、确定单元312;
切分单元311,可用于基于分词技术分别将各个输入文本切分为第一词语,并得到第一词序列;
确定单元312,可用于基于第一词语的目标词性确定与预设停用词性匹配的第二词语,以便从第一词序列中剔除第二词语,得到第二词序列。
相应的,为了计算出各个输入文本的词频向量以及词权重向量,如题4所示,计算模块32,具体可包括:计算单元321、构建单元322;
计算单元321,可用于基于TF-IDF算法计算第二词序列中各个第一词语对应输入文本的词频以及权重值;
构建单元322,可用于利用第二词序列以及词频构建关于输入文本的词频向量;
构建单元322,还可用于根据第二词序列以及词权重构建关于输入文本的词权重向量。
在具体的应用场景中,为了基于TF-IDF算法计算出第二词序列中各个第一词语对应输入文本的词频以及权重值,计算单元321,具体可用于根据第一计算公式计算输入文本中第一词语的词频;根据第二计算公式计算输入文本中第一词语的逆向文件频率;将词频与逆向文件频率的乘积,确定为第一词语对应输入文本的权重值。
在具体的应用场景中,为了基于词频向量确定文本集合的第一话题抽取结果,如图4所示,确定模块33,具体可包括:确定单元331、输入单元332;
确定单元331,用于利用文本词典集合训练确定LDA预测模型的最优配置参数;
输入单元332,用于将LDA预测模型的配置参数调整为最优配置参数,并将各个输入文本的词频向量输入参数调整后的LDA预测模型中,获取得到第一话题抽取结果,第一话题抽取结果包括预设数量个目标话题以及第二词序列中与目标话题关联的第三词语。
相应的,为了根据词权重向量以及第一话题抽取结果确定出文本集合的第二话题抽取结果,如图4所示,输出模块34,具体可包括:提取单元341、筛选单元342、输出单元343;
提取单元341,可用于依据第三词语的数据标识,提取与各个目标话题关联的第一输入文本;
筛选单元342,可用于基于第一输入文本的词权重向量筛选与各个目标话题匹配的输入文本,并构建第一文本集合;
输出单元343,可用于输出目标话题以及对应的第一文本集合。
在具体的应用场景中,为了基于第一输入文本的词权重向量筛选与各个目标话题匹配的输入文本,并构建第一文本集合,筛选单元342,具体可用于若判定目标话题中仅存在一个关联的第一输入文本,则将关联的第一输入文本确定为与目标话题匹配的输入文本,并归类至目标话题对应的第一文本集合中;若判定目标话题中存在多个关联的第一输入文本,则对关联的第一输入文本进行相似度验证;将通过相似度验证的第一输入文本确定为与目标话题匹配的输入文本,归类至第一文本集合中。
需要说明的是,本实施例提供的一种文本话题的抽取装置所涉及各功能单元的其他相应描述,可以参考图1至图2的对应描述,在此不再赘述。
基于上述如图1至图2所示方法,相应的,本实施例还提供了一种非易失性存储介质,其上存储有计算机可读指令,该可读指令被处理器执行时实现上述如图1至图2所示的文本话题的抽取方法。
基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景所述的方法。
基于上述如图1至图2所示的方法和图3、图4所示的虚拟装置实施例,为了实现上述目的,本实施例还提供了一种计算机设备,该计算机设备包括存储介质和处理器;非易失性存储介质,用于存储计算机程序;处理器,用于执行计算机程序以实现上述如图1至图2所示的文本话题的抽取方法。
可选的,该计算机设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency,RF)电路,传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等,可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)等。
本领域技术人员可以理解,本实施例提供的一种计算机设备结构并不构成对该实体设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。
非易失性存储介质中还可以包括操作系统、网络通信模块。操作系统是管理上述计算机设备硬件和软件资源的程序,支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现非易失性存储介质内部各组件之间的通信,以及与信息处理实体设备中其它硬件和软件之间通信。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现,也可以通过硬件实现。
通过应用本申请的技术方案,与目前现有技术相比,本申请可首先对文本集合中的输入文本进行分词处理,得到各个输入文本对应的词序列,之后基于词序列构建关于输入文本的词频向量以及词权重向量,在利用词频向量确定出文本集合的第一话题抽取结果后,根据词权重向量对第一话题抽取结果进行校验修正,以便获取得到最终的第二话题抽取结果。在本申请中,通过将统计学与概率学相结合,可实现在话题未知的情况下,对文本话题的精准提取,提高话题抽取效率的同时,也能保证话题抽取的准确度。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims (10)

1.一种文本话题的抽取方法,其特征在于,包括:
对文本集合中各个待进行话题抽取的输入文本进行预处理,得到所述输入文本对应的词序列;
依据所述词序列计算各个所述输入文本的词频向量以及词权重向量;
基于所述词频向量确定所述文本集合的第一话题抽取结果;
根据所述词权重向量以及所述第一话题抽取结果输出所述文本集合的第二话题抽取结果,所述第二话题抽取结果包括预设数量个目标话题以及所述目标话题下的第一文本集合,所述第一文本集合中至少包含一个所述输入文本。
2.根据权利要求1所述的方法,其特征在于,所述对文本集合中各个待进行话题抽取的输入文本进行预处理,得到所述输入文本对应的词序列,具体包括:
基于分词技术分别将各个输入文本切分为第一词语,并得到第一词序列;
基于所述第一词语的目标词性确定与预设停用词性匹配的第二词语,以便从所述第一词序列中剔除所述第二词语,得到第二词序列。
3.根据权利要求2所述的方法,其特征在于,所述依据所述词序列计算各个所述输入文本的词频向量以及词权重向量,具体包括:
基于TF-IDF算法计算所述第二词序列中各个所述第一词语对应所述输入文本的词频以及权重值;
利用所述第二词序列以及所述词频构建关于所述输入文本的词频向量;
根据所述第二词序列以及所述词权重构建关于所述输入文本的词权重向量。
4.根据权利要求3所述的方法,其特征在于,所述TF-IDF算法包括:第一计算公式和第二计算公式,所述基于TF-IDF算法计算所述第二词序列中各个所述第一词语对应所述输入文本的词频以及权重值,包括:
根据所述第一计算公式计算所述输入文本中所述第一词语的词频;
根据所述第二计算公式计算所述输入文本中所述第一词语的逆向文件频率;
将所述所述词频与所述逆向文件频率的乘积,确定为所述第一词语对应所述输入文本的权重值。
5.根据权利要求4所述的方法,其特征在于,所述基于所述词频向量确定所述文本集合的第一话题抽取结果,具体包括:
利用文本词典集合训练确定LDA预测模型的最优配置参数;
将所述LDA预测模型的配置参数调整为所述最优配置参数,并将各个所述输入文本的词频向量输入参数调整后的LDA预测模型中,获取得到第一话题抽取结果,所述第一话题抽取结果包括预设数量个目标话题以及所述第二词序列中与所述目标话题关联的第三词语。
6.根据权利要求5所述的方法,其特征在于,所述根据所述词权重向量以及所述第一话题抽取结果输出所述文本集合的第二话题抽取结果,所述第二话题抽取结果包括预设数量个目标话题以及所述目标话题下的第一文本集合,所述第一文本集合中至少包含一个所述输入文本,具体包括:
依据所述第三词语的数据标识,提取与各个所述目标话题关联的第一输入文本;
基于所述第一输入文本的词权重向量筛选与各个所述目标话题匹配的输入文本,并构建第一文本集合;
输出所述目标话题以及对应的所述第一文本集合。
7.根据权利要求6所述的方法,其特征在于,所述基于所述第一输入文本的词权重向量筛选与各个所述目标话题匹配的输入文本,并构建第一文本集合,具体包括:
若判定所述目标话题中仅存在一个关联的第一输入文本,则将所述关联的第一输入文本确定为与所述目标话题匹配的输入文本,并归类至所述目标话题对应的第一文本集合中;
若判定所述目标话题中存在多个关联的第一输入文本,则对所述关联的第一输入文本进行相似度验证;
将通过所述相似度验证的所述第一输入文本确定为与所述目标话题匹配的输入文本,归类至所述第一文本集合中。
8.一种文本话题的抽取装置,其特征在于,包括:
处理模块,用于对文本集合中各个待进行话题抽取的输入文本进行预处理,得到所述输入文本对应的词序列;
计算模块,用于依据所述词序列计算各个所述输入文本的词频向量以及词权重向量;
确定模块,用于基于所述词频向量确定所述文本集合的第一话题抽取结果;
输出模块,用于根据所述词权重向量以及所述第一话题抽取结果输出所述文本集合的第二话题抽取结果,所述第二话题抽取结果包括预设数量个目标话题以及所述目标话题下的第一文本集合,所述第一文本集合中至少包含一个所述输入文本。
9.一种非易失性可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至7中任一项所述的文本话题的抽取方法。
10.一种计算机设备,包括非易失性可读存储介质、处理器及存储在非易失性可读存储介质上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至7中任一项所述的文本话题的抽取方法。
CN202010631669.6A 2020-07-03 2020-07-03 文本话题的抽取方法、装置及计算机设备 Active CN111930885B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010631669.6A CN111930885B (zh) 2020-07-03 2020-07-03 文本话题的抽取方法、装置及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010631669.6A CN111930885B (zh) 2020-07-03 2020-07-03 文本话题的抽取方法、装置及计算机设备

Publications (2)

Publication Number Publication Date
CN111930885A true CN111930885A (zh) 2020-11-13
CN111930885B CN111930885B (zh) 2023-08-04

Family

ID=73317145

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010631669.6A Active CN111930885B (zh) 2020-07-03 2020-07-03 文本话题的抽取方法、装置及计算机设备

Country Status (1)

Country Link
CN (1) CN111930885B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113407584A (zh) * 2021-06-29 2021-09-17 微民保险代理有限公司 标签抽取方法、装置、设备及存储介质
CN114676701A (zh) * 2020-12-24 2022-06-28 腾讯科技(深圳)有限公司 文本向量的处理方法、装置、介质以及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004046621A (ja) * 2002-07-12 2004-02-12 Nippon Telegr & Teleph Corp <Ntt> テキストの多重トピックス抽出方法および装置、テキストの多重トピックス抽出プログラム、ならびに該プログラムを記録した記録媒体
CN105354333A (zh) * 2015-12-07 2016-02-24 天云融创数据科技(北京)有限公司 一种基于新闻文本的话题提取方法
CN108595425A (zh) * 2018-04-20 2018-09-28 昆明理工大学 基于主题与语义的对话语料关键词抽取方法
CN110321553A (zh) * 2019-05-30 2019-10-11 平安科技(深圳)有限公司 短文本主题识别方法、装置及计算机可读存储介质
CN110807326A (zh) * 2019-10-24 2020-02-18 江汉大学 结合gpu-dmm与文本特征的短文本关键词提取方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004046621A (ja) * 2002-07-12 2004-02-12 Nippon Telegr & Teleph Corp <Ntt> テキストの多重トピックス抽出方法および装置、テキストの多重トピックス抽出プログラム、ならびに該プログラムを記録した記録媒体
CN105354333A (zh) * 2015-12-07 2016-02-24 天云融创数据科技(北京)有限公司 一种基于新闻文本的话题提取方法
CN108595425A (zh) * 2018-04-20 2018-09-28 昆明理工大学 基于主题与语义的对话语料关键词抽取方法
CN110321553A (zh) * 2019-05-30 2019-10-11 平安科技(深圳)有限公司 短文本主题识别方法、装置及计算机可读存储介质
CN110807326A (zh) * 2019-10-24 2020-02-18 江汉大学 结合gpu-dmm与文本特征的短文本关键词提取方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114676701A (zh) * 2020-12-24 2022-06-28 腾讯科技(深圳)有限公司 文本向量的处理方法、装置、介质以及电子设备
CN113407584A (zh) * 2021-06-29 2021-09-17 微民保险代理有限公司 标签抽取方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN111930885B (zh) 2023-08-04

Similar Documents

Publication Publication Date Title
CN112270196B (zh) 实体关系的识别方法、装置及电子设备
KR101737887B1 (ko) 크로스 미디어 분석에 기반한 소셜 미디어 텍스트의 주제 카테고리 자동 분류 방법 및 그 장치
WO2021051598A1 (zh) 文本情感分析模型训练方法、装置、设备及可读存储介质
CN110134792B (zh) 文本识别方法、装置、电子设备以及存储介质
CN107180084B (zh) 词库更新方法及装置
CN106598959B (zh) 一种确定双语语句对互译关系方法及系统
CN109271542A (zh) 封面确定方法、装置、设备及可读存储介质
CN103955453B (zh) 一种从文档集中自动发现新词的方法及装置
CN110134777B (zh) 问题去重方法、装置、电子设备和计算机可读存储介质
CN108269122B (zh) 广告的相似度处理方法和装置
EP3067831A1 (en) Video classification method and device
CN110287311A (zh) 文本分类方法及装置、存储介质、计算机设备
US20170061957A1 (en) Method and apparatus for improving a language model, and speech recognition method and apparatus
CN103870840A (zh) 基于改进的潜在狄利克雷分配的自然图像分类方法
CN111930885B (zh) 文本话题的抽取方法、装置及计算机设备
CN116402166B (zh) 一种预测模型的训练方法、装置、电子设备及存储介质
CN112528022A (zh) 主题类别对应的特征词提取和文本主题类别识别方法
CN112562736A (zh) 一种语音数据集质量评估方法和装置
CN116109732A (zh) 图像标注方法、装置、处理设备及存储介质
CN109344252B (zh) 基于优质主题扩展的微博文本分类方法及系统
CN112926297B (zh) 处理信息的方法、装置、设备和存储介质
CN111831819B (zh) 一种文本更新方法及装置
Tschuggnall et al. Reduce & attribute: Two-step authorship attribution for large-scale problems
CN117057349A (zh) 新闻文本关键词抽取方法、装置、计算机设备和存储介质
CN113011503B (zh) 一种电子设备的数据取证方法、存储介质及终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant