CN111309910A - 文本信息挖掘方法及装置 - Google Patents

文本信息挖掘方法及装置 Download PDF

Info

Publication number
CN111309910A
CN111309910A CN202010092214.1A CN202010092214A CN111309910A CN 111309910 A CN111309910 A CN 111309910A CN 202010092214 A CN202010092214 A CN 202010092214A CN 111309910 A CN111309910 A CN 111309910A
Authority
CN
China
Prior art keywords
text information
mined
text
evaluation
mining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010092214.1A
Other languages
English (en)
Inventor
林思琦
杜振东
王清琛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Yunwen Network Technology Co ltd
Original Assignee
Nanjing Yunwen Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Yunwen Network Technology Co ltd filed Critical Nanjing Yunwen Network Technology Co ltd
Priority to CN202010092214.1A priority Critical patent/CN111309910A/zh
Publication of CN111309910A publication Critical patent/CN111309910A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种文本信息挖掘方法及装置。该方法包括:获取待挖掘的文本信息;将所述待挖掘的文本信息输入第一预设模型进行语义特征的提取和分类,以得到情感分类结果和/或标签分类结果;将所述待挖掘的文本信息输入第二预设模型进行语义特征的提取和分类,以得到评价对象和评价词;根据所述第一文本挖掘结果和所述第二文本挖掘结果确定挖掘后的文本信息。本申请解决了相关技术中的文本信息挖掘方法由于挖掘维度较为简单导致挖掘的文本信息不够准确和全面的技术问题。通过本申请,达到了从情感极性、多分类标签以及评价词与评价对象的关系三个维度进行文本信息挖掘的目的,为后续的统计或信息可视化提供了有效的数据支撑。

Description

文本信息挖掘方法及装置
技术领域
本申请涉及自然语言处理技术领域,具体而言,涉及一种文本信息挖掘方法及装置、电子设备及可读存储介质。
背景技术
随着互联网信息技术和移动智能终端的快速发展,网络上出现了用户针对各种各样的产品或者事件等的评论信息,这些评论信息包含了产品或事件的大量信息,具有一定的商业价值和社会价值。目前针对这些评论信息的挖掘利用主要是通过自然语言处理等相关技术从评论信息中进行文本挖掘,然后通过可视化的方式将分析结果反馈给商家,有利于商家及时提升产品质量与服务水准。
发明人发现,相关技术中的文本信息挖掘方法至少存在如下问题:针对文本信息的挖掘主要考虑了情感极性的判别和单标签的分类这两个维度,挖掘的维度过于简单,并且现有的标签分类模型通常只能识别出文本中的一种类别的信息,导致文本信息的挖掘不是十分准确和全面。
针对相关技术中的文本信息挖掘方法由于挖掘维度较为简单导致挖掘的文本信息不够准确和全面的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种文本信息挖掘方法及装置、电子设备及可读存储介质,以解决相关技术中的文本信息挖掘方法由于挖掘维度较为简单导致挖掘的文本信息不够准确和全面的问题。
为了实现上述目的,根据本申请的第一方面,提供了一种文本信息挖掘方法。
根据本申请的文本信息挖掘方法包括:获取待挖掘的文本信息;将所述待挖掘的文本信息输入第一预设模型进行语义特征的提取和分类,以得到第一文本挖掘结果,其中,所述第一文本挖掘结果包括情感分类结果和/或标签分类结果;将所述待挖掘的文本信息输入第二预设模型进行语义特征的提取和分类,以得到第二文本挖掘结果,其中,所述第二文本挖掘结果包括评价对象和评价词;根据所述第一文本挖掘结果和所述第二文本挖掘结果确定挖掘后的文本信息。
进一步地,所述第一预设模型包括文本卷积网络模型,所述将所述待挖掘的文本信息输入第一预设模型进行语义特征的提取和分类,以得到第一文本挖掘结果包括:根据所述待挖掘的文本信息构建所述待挖掘的文本信息的词向量矩阵;将所述词向量矩阵输入所述文本卷积网络模型,以提取所述待挖掘的文本信息中的语义特征;将所述语义特征输入softmax分类器进行分类,以得到与所述待挖掘的文本信息对应的不同情感类别和/或不同标签类别的分类概率。
进一步地,所述将所述待挖掘的文本信息输入第一预设模型进行语义特征的提取和分类,以得到第一文本挖掘结果包括:将所述待挖掘的文本信息输入第一预设模型进行语义特征的提取和分类,以得到与所述待挖掘的文本信息对应的多个标签类别的分类概率;将多个所述标签类别的分类概率分别与预设标签分类概率阈值进行比较;根据比较结果确定与所述待挖掘的文本信息对应的一个或多个标签类别。
进一步地,所述第二预设模型包括预训练模型和序列标注模型,所述将所述待挖掘的文本信息输入第二预设模型进行语义特征的提取和分类,以得到第二文本挖掘结果包括:将所述待挖掘的文本信息输入所述预训练模型,以得到所述待挖掘的文本信息对应的字符向量;将所述字符向量输入所述序列标注模型进行所述评价对象和所述评价词的提取和分类,以得到所述评价对象和所述评价词的分类概率;根据所述评价对象和所述评价词的分类概率确定所述待挖掘的文本信息对应的所述评价对象和所述评价词。
进一步地,所述将所述待挖掘的文本信息输入第二预设模型进行语义特征的提取和分类,以得到第二文本挖掘结果包括:根据所述第二预设模型提取所述待挖掘的文本信息中的所述评价对象和所述评价词;根据所述评价对象和所述评价词在所述待挖掘的文本信息的位置确定所述评价对象与所述评价词的评价关系。
进一步地,所述将所述待挖掘的文本信息输入第二预设模型进行语义特征的提取和分类,以得到第二文本挖掘结果包括:将所述待挖掘的文本信息按照句子的标点符号进行拆分,以得到一个或多个子句;计算每个所述子句中的所述评价对象与每个所述评价词的相对距离;根据所述相对距离确定所述评价对象与所述评价词的评价关系。
为了实现上述目的,根据本申请的第二方面,提供了一种文本信息挖掘装置。
根据本申请的文本信息挖掘装置包括:获取模块,用于获取待挖掘的文本信息;第一挖掘模块,用于将所述待挖掘的文本信息输入第一预设模型进行语义特征的提取和分类,以得到第一文本挖掘结果,其中,所述第一文本挖掘结果包括情感分类结果和/或标签分类结果;第二挖掘模块,用于将所述待挖掘的文本信息输入第二预设模型进行语义特征的提取和分类,以得到第二文本挖掘结果,其中,所述第二文本挖掘结果包括评价对象和评价词;确定模块,用于根据所述第一文本挖掘结果和所述第二文本挖掘结果确定挖掘后的文本信息。
进一步地,所述第一预设模型包括文本卷积网络模型,所述第一挖掘模块包括:构建单元,用于根据所述待挖掘的文本信息构建所述待挖掘的文本信息的词向量矩阵;第一提取单元,用于将所述词向量矩阵输入所述文本卷积网络模型,以提取所述待挖掘的文本信息中的语义特征;分类单元,用于将所述语义特征输入softmax分类器进行分类,以得到与所述待挖掘的文本信息对应的不同情感类别和/或不同标签类别的分类概率。
为了实现上述目的,根据本申请的第三方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如前任一项所述的方法。
为了实现上述目的,根据本申请的第三方面,提供了一种非暂态可读存储介质,其特征在于,其上存储有计算机指令,所述指令被处理器执行时实现如前任一项所述方法的步骤。
在本申请实施例中,采用获取待挖掘的文本信息;将所述待挖掘的文本信息输入第一预设模型进行语义特征的提取和分类,以得到第一文本挖掘结果,其中,所述第一文本挖掘结果包括情感分类结果和/或标签分类结果;将所述待挖掘的文本信息输入第二预设模型进行语义特征的提取和分类,以得到第二文本挖掘结果,其中,所述第二文本挖掘结果包括评价对象和评价词的方式,通过根据所述第一文本挖掘结果和所述第二文本挖掘结果确定挖掘后的文本信息,达到了从情感极性、多分类标签以及评价词与评价对象的关系三个维度进行文本信息挖掘的目的,从而实现了提高文本信息挖掘的准确性和全面性的技术效果,进而解决了相关技术中的文本信息挖掘方法由于挖掘维度较为简单导致挖掘的文本信息不够准确和全面的技术问题。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请第一实施例的文本信息挖掘方法的流程示意图;
图2是根据本申请第二实施例的文本信息挖掘方法的流程示意图;
图3是本申请实施例基于文本卷积模型进行文本信息挖掘的过程示意图;
图4是根据本申请第三实施例的文本信息挖掘方法的流程示意图;
图5是根据本申请第四实施例的文本信息挖掘方法的流程示意图;
图6是本申请实施例基于bert预训练模型和BiLSTM-CRF序列标注模型的文本信息挖掘的过程示意图;
图7是根据本申请第五实施例的文本信息挖掘方法的流程示意图;
图8是根据本申请第六实施例的文本信息挖掘方法的流程示意图;
图9是根据本申请实施例的文本信息挖掘装置的组成结构示意图;以及
图10是根据本申请实施例的电子设备的组成结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
根据本发明实施例,提供了一种文本信息挖掘方法,如图1所示,该方法包括如下的步骤S101至步骤S104:
步骤S101,获取待挖掘的文本信息。
具体实施时,首先需要获取待挖掘的文本信息,所述待挖掘的文本信息可以是各种类型的网站上的用户针对某些产品或者事件等的评论信息,具体地,可以通过现有技术中的网络爬虫技术对网站或网页中的各种评论信息进行爬取,对爬取后的评论信息进行一定的预处理包括数据清洗、去重等操作后作为本申请实施例的待挖掘的文本信息。
步骤S102,将所述待挖掘的文本信息输入第一预设模型进行语义特征的提取和分类,以得到第一文本挖掘结果,其中,所述第一文本挖掘结果包括情感分类结果和/或标签分类结果。
具体实施时,在得到上述待挖掘的文本信息后,将该文本信息输入到本申请预先构建的第一预设模型中进行文本语义特征的提取,具体地,该第一预设模型可以是文本卷积网络模型(TextCNN),TextCNN是一种利用卷积神经网络对文本进行分类的算法。本申请实施例利用TextCNN网络模型对待挖掘的文本信息中的情感极性信息以及多标签类别信息进行提取和分类,最后得到情感极性分类结果以及多标签分类结果。
步骤S103,将所述待挖掘的文本信息输入第二预设模型进行语义特征的提取和分类,以得到第二文本挖掘结果,其中,所述第二文本挖掘结果包括评价对象和评价词。
具体实施时,本申请实施例除了对文本中的情感极性信息和多标签类别信息进行提取和分类之外,还利用预先构建的第二预设模型对文本信息中的评价对象和评价词信息进行提取和分类,进而得到该文本信息对应的评价对象和评价词。
步骤S104,根据所述第一文本挖掘结果和所述第二文本挖掘结果确定挖掘后的文本信息。
具体实施时,将上述通过第一预设模型得到的情感分类结果和标签分类结果以及通过第二预设模型得到的评价对象和评价词整合后作为该文本信息最终的挖掘结果。通过上述过程,从情感极性、多标签类别以及评价对象与评价词三个维度对文本信息进行了挖掘,更加准确和全面的反映了文本信息所表达的含义,为后续的统计或信息可视化提供了有效的数据支撑。
作为本申请实施例的一种优选实施方式,如图2所示,所述第一预设模型包括文本卷积网络模型,所述将所述待挖掘的文本信息输入第一预设模型进行语义特征的提取和分类,以得到第一文本挖掘结果包括如下的步骤S201至步骤S203:
步骤S201,根据所述待挖掘的文本信息构建所述待挖掘的文本信息的词向量矩阵。
具体实施时,对于情感分类或多标签分类任务而言,其效果的好坏主要依赖于模型是否可以有效捕捉到句子的浅层语义特征。因此,本申请实施例选择文本卷积网络模型(TextCNN)来进行文本语义特征的提取的分类,首先需要将待挖掘的文本信息转换为与所述文本卷积网络模型相匹配的词向量矩阵。
步骤S202,将所述词向量矩阵输入所述文本卷积网络模型,以提取所述待挖掘的文本信息中的语义特征。
具体实施时,将上述得到的词向量矩阵输入到文本卷积网络模型中,进而抽取出这些待挖掘的文本信息中的语义特征。
步骤S203,将所述语义特征输入softmax分类器进行分类,以得到与所述待挖掘的文本信息对应的不同情感类别和/或不同标签类别的分类概率。
具体实施时,将上述抽取出的语义特征输入softmax层来进行分类,以得到每个语义特征属于每一个情感极性类别或者标签类别的概率,进而根据该分类概率确定该文本信息对应的情感极性类别以及一个或多个标签类别。上述基于文本卷积网络模型进行文本情感极性分类以及多标签分类的方法不仅具有较好的分类效果,同时运行速度也较快。
图3提供了一种基于文本卷积模型对句子进行文本信息挖掘的过程示意图,其中以“态度好检查仔细”这一评论句子为例。
作为本申请实施例的一种优选实施方式,如图4所示,所述将所述待挖掘的文本信息输入第一预设模型进行语义特征的提取和分类,以得到第一文本挖掘结果包括如下的步骤S301至步骤S303:
步骤S301,将所述待挖掘的文本信息输入第一预设模型进行语义特征的提取和分类,以得到与所述待挖掘的文本信息对应的多个标签类别的分类概率。
具体实施时,在多标签分类场景下,在利用文本卷积网络模型对待挖掘的文本信息进行语义特征的提取和分类后,可能会得到与该文本信息对应的多个标签类别及每个标签类别对应的分类概率,需要根据多个标签类别的分类概率确定该文本信息最终对应的标签类别。
步骤S302,将多个所述标签类别的分类概率分别与预设标签分类概率阈值进行比较。
具体实施时,可以预先设置文本信息的标签分类概率阈值,将上述多个标签类别对应的分类概率分别与该分类概率阈值进行比较,以根据比较结果确定该文本信息最终对应的标签类别。
步骤S303,根据比较结果确定与所述待挖掘的文本信息对应的一个或多个标签类别。
具体实施时,当该标签的分类概率不小于预设概率阈值时,则将该标签作为该文本信息的标签之一,如果该标签的分类概率小于预设概率阈值,则不将该标签作为该文本信息的标签。由此可以根据比较结果确定与待挖掘的文本信息对应的一个或多个标签类别。
可选地,在情感极性判别场景下,可以遴选出分类概率最大的情感标签作为该文本信息的情感极性标签。
作为本申请实施例的一种优选实施方式,如图5所示,所述第二预设模型包括预训练模型和序列标注模型,所述将所述待挖掘的文本信息输入第二预设模型进行语义特征的提取和分类,以得到第二文本挖掘结果包括如下的步骤S401至步骤S403:
步骤S401,将所述待挖掘的文本信息输入所述预训练模型,以得到所述待挖掘的文本信息对应的字符向量。
具体实施时,评价对象和评价词的抽取是一个序列标注任务,序列标注任务的思路主要是通过BiLSTM网络(双向长短记忆网络)对句子序列建模来捕获句子中的语义信息,然后使用CRF(条件随机场)模型来计算序列标签输出的联合概率。为了获得更好的效果,本申请实施例在BiLSTM-CRF模型的基础上加入了bert预训练模型,该方法可以通过对大规模参数进行微调的方式来提升信息提取的效果。因此为了实现上述目的,本申请实施例首先需要利用bert预训练模型将待挖掘的文本信息转换成字符向量,进而可以得到句子中每个token的向量。
步骤S402,将所述字符向量输入所述序列标注模型进行所述评价对象和所述评价词的提取和分类,以得到所述评价对象和所述评价词的分类概率。
具体实施时,将上述得到的每个token的表征序列输入到BiLSTM序列标注模型中进行建模,通常评价对象的词性为名词词性,评价词的词性为形容词词性,因此可以基于词性对评价词和和评价对象进行区分。之后再通过CRF(条件随机场)层来计算每个序列标签输出的联合概率并进行标签解析,进而得到该文本信息对应的最终的评价词标签和评价对象标签。
步骤S403,根据所述评价对象和所述评价词的分类概率确定所述待挖掘的文本信息对应的所述评价对象和所述评价词。
具体实施时,根据每个评价对象和评价词的分类概率以及评价对象和评价词在当前文本信息中的具体位置确定该文本信息对应的评价对象及该评价对象对应的评价词。所述具体位置可以是评价对象和评价词的相对位置以及评价对象和评价词是否在一个句子的子句中的位置判断等。
图6提供了一种基于bert预训练模型和BiLSTM-CRF序列标注模型的文本信息挖掘的过程示意图。
作为本申请实施例的一种优选实施方式,如图7所示,所述将所述待挖掘的文本信息输入第二预设模型进行语义特征的提取和分类,以得到第二文本挖掘结果包括如下的步骤S501至步骤S502:
步骤S501,根据所述第二预设模型提取所述待挖掘的文本信息中的所述评价对象和所述评价词。
具体实施时,利用BiLSTM序列标注模型和CRF模型来提取出待挖掘的文本信息中的评价对象和评价词及对应的分类概率。
步骤S502,根据所述评价对象和所述评价词在所述待挖掘的文本信息的位置确定所述评价对象与所述评价词的评价关系。
具体实施时,在得到一个或多个评价对象和评价词后,根据每个评价对象和评价词在所述句子中的具体位置以及评价对象和评价词之间的相对位置来确定一组或者多组评价关系。
例如,文本信息为:师傅上门及时,服务态度好,技术熟练并且活干的漂亮。该句子中共有三个子句,分别为:子句1:师傅上门及时;子句2:服务态度好;子句3:技术熟练并且活干的漂亮。三个子句中提取出的评价对象和评价词如下:
评价对象:师傅上门、服务态度、技术、活;
评价词:及时、好、熟练、干的漂亮;
根据评价对象和评价词在句子中的位置以及二者之间的相对位置,可以确定出评价对象与评价词的评价关系为:师傅上门+及时,服务态度+好,技术+熟练,活+干的漂亮。
作为本申请实施例的一种优选实施方式,如图8所示,所述将所述待挖掘的文本信息输入第二预设模型进行语义特征的提取和分类,以得到第二文本挖掘结果包括如下的步骤S601至步骤S603:
步骤S601,将所述待挖掘的文本信息按照句子的标点符号进行拆分,以得到一个或多个子句。
具体实施时,首先根据句子的标点符号对句子进行拆分,进而得到多个子句
例如,将句子“师傅上门及时,服务态度好,技术熟练并且活干的漂亮。”拆分为“师傅上门及时”、“服务态度好”和“技术熟练并且活干的漂亮”三个子句。
步骤S602,计算每个所述子句中的所述评价对象与每个所述评价词的相对距离。
具体实施时,计算每个所述子句中的评价对象与每个所述评价词的相对距离,进而根据相对距离确定出每个子句中与该评价词位置最近的评价对象。
步骤S603,根据所述相对距离确定所述评价对象与所述评价词的评价关系。
具体实施时,根据所述评价对象与评价词的相对距离确定评价对象与评价词的评价关系,也即如果子句中存在与该评价词距离最近的评价对象,则可以将该评价对象和评价词构成该子句的一组评价关系。
从以上的描述中,可以看出,本发明实现了如下技术效果:采用获取待挖掘的文本信息;将所述待挖掘的文本信息输入第一预设模型进行语义特征的提取和分类,以得到情感分类结果和/或标签分类结果;将所述待挖掘的文本信息输入第二预设模型进行语义特征的提取和分类,以得到评价对象和评价词,通过根据所述第一文本挖掘结果和所述第二文本挖掘结果确定挖掘后的文本信息,达到了从情感极性、多分类标签以及评价词与评价对象的关系三个维度进行文本信息挖掘的目的,从而实现了提高文本信息挖掘的准确性和全面性的技术效果,为后续的统计或信息可视化提供了有效的数据支撑。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
根据本发明实施例,还提供了一种用于实施上述文本信息挖掘的装置,如图9所示,该装置包括:获取模块1,用于获取待挖掘的文本信息;第一挖掘模块2,用于将所述待挖掘的文本信息输入第一预设模型进行语义特征的提取和分类,以得到第一文本挖掘结果,其中,所述第一文本挖掘结果包括情感分类结果和/或标签分类结果;第二挖掘模块3,用于将所述待挖掘的文本信息输入第二预设模型进行语义特征的提取和分类,以得到第二文本挖掘结果,其中,所述第二文本挖掘结果包括评价对象和评价词;确定模块4,用于根据所述第一文本挖掘结果和所述第二文本挖掘结果确定挖掘后的文本信息。
作为本申请实施例的一种优选实施方式,所述第一预设模型包括文本卷积网络模型,所述第一挖掘模块包括:构建单元,用于根据所述待挖掘的文本信息构建所述待挖掘的文本信息的词向量矩阵;第一提取单元,用于将所述词向量矩阵输入所述文本卷积网络模型,以提取所述待挖掘的文本信息中的语义特征;分类单元,用于将所述语义特征输入softmax分类器进行分类,以得到与所述待挖掘的文本信息对应的不同情感类别和/或不同标签类别的分类概率。
作为本申请实施例的一种优选实施方式,所述第一挖掘模块还包括:第一输入单元,用于将所述待挖掘的文本信息输入第一预设模型进行语义特征的提取和分类,以得到与所述待挖掘的文本信息对应的多个标签类别的分类概率;比较单元,用于将多个所述标签类别的分类概率分别与预设标签分类概率阈值进行比较;第一确定单元,用于根据比较结果确定与所述待挖掘的文本信息对应的一个或多个标签类别。
作为本申请实施例的一种优选实施方式,所述第二预设模型包括预训练模型和序列标注模型,所述第二挖掘模块包括:第二输入单元,用于将所述待挖掘的文本信息输入所述预训练模型,以得到所述待挖掘的文本信息对应的字符向量;第三输入单元,用于将所述字符向量输入所述序列标注模型进行所述评价对象和所述评价词的提取和分类,以得到所述评价对象和所述评价词的分类概率;第二确定单元,用于根据所述评价对象和所述评价词的分类概率确定所述待挖掘的文本信息对应的所述评价对象和所述评价词。
作为本申请实施例的一种优选实施方式,所述第二挖掘模块包括:第二提取单元,用于根据所述第二预设模型提取所述待挖掘的文本信息中的所述评价对象和所述评价词;第三确定单元,用于根据所述评价对象和所述评价词在所述待挖掘的文本信息的位置确定所述评价对象与所述评价词的评价关系。
作为本申请实施例的一种优选实施方式,所述第二挖掘模块包括:拆分单元,用于将所述待挖掘的文本信息按照句子的标点符号进行拆分,以得到一个或多个子句;计算单元,用于计算每个所述子句中的所述评价对象与每个所述评价词的相对距离;第四确定单元,用于根据所述相对距离确定所述评价对象与所述评价词的评价关系。
上述各模块及各单元之间的具体连接关系及所发挥的功能请参照方法部分的具体描述,在此不做赘述。
根据本发明实施例,还提供了一种计算机设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如前所述的方法。
根据本发明实施例,还提供了一种计算机可读存储介质,其上存储有计算机指令,所述指令被处理器执行时实现如前所述方法的步骤。
如图10所示,该电子设备包括一个或多个处理器31以及存储器32,图10中以一个处理器31为例。
控制单元还可以包括:输入装置33和输出装置34。
处理器31、存储器32、输入装置33和输出装置34可以通过总线或者其他方式连接,图10中以通过总线连接为例。
处理器31可以为中央处理器(Central Processing Unit,CPU)。处理器31还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器32作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块。处理器31通过运行存储在存储器32中的非暂态软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例的文本信息挖掘方法。
存储器32可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据服务器操作的处理装置的使用所创建的数据等。此外,存储器32可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器32可选包括相对于处理器31远程设置的存储器,这些远程存储器可以通过网络连接至网络连接装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置33可接收输入的数字或字符信息,以及产生与服务器的处理装置的用户设置以及功能控制有关的键信号输入。输出装置34可包括显示屏等显示设备。
一个或者多个模块存储在存储器32中,当被一个或者多个处理器31执行时,执行如前所述的方法。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。计算机指令用于使所述计算机执行上述文本信息挖掘方法。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后,本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种文本信息挖掘方法,其特征在于,包括:
获取待挖掘的文本信息;
将所述待挖掘的文本信息输入第一预设模型进行语义特征的提取和分类,以得到第一文本挖掘结果,其中,所述第一文本挖掘结果包括情感分类结果和/或标签分类结果;
将所述待挖掘的文本信息输入第二预设模型进行语义特征的提取和分类,以得到第二文本挖掘结果,其中,所述第二文本挖掘结果包括评价对象和评价词;
根据所述第一文本挖掘结果和所述第二文本挖掘结果确定挖掘后的文本信息。
2.根据权利要求1所述的文本信息挖掘方法,其特征在于,所述第一预设模型包括文本卷积网络模型,所述将所述待挖掘的文本信息输入第一预设模型进行语义特征的提取和分类,以得到第一文本挖掘结果包括:
根据所述待挖掘的文本信息构建所述待挖掘的文本信息的词向量矩阵;
将所述词向量矩阵输入所述文本卷积网络模型,以提取所述待挖掘的文本信息中的语义特征;
将所述语义特征输入softmax分类器进行分类,以得到与所述待挖掘的文本信息对应的不同情感类别和/或不同标签类别的分类概率。
3.根据权利要求1所述的文本信息挖掘方法,其特征在于,所述将所述待挖掘的文本信息输入第一预设模型进行语义特征的提取和分类,以得到第一文本挖掘结果包括:
将所述待挖掘的文本信息输入第一预设模型进行语义特征的提取和分类,以得到与所述待挖掘的文本信息对应的多个标签类别的分类概率;
将多个所述标签类别的分类概率分别与预设标签分类概率阈值进行比较;
根据比较结果确定与所述待挖掘的文本信息对应的一个或多个标签类别。
4.根据权利要求1所述的文本信息挖掘方法,其特征在于,所述第二预设模型包括预训练模型和序列标注模型,所述将所述待挖掘的文本信息输入第二预设模型进行语义特征的提取和分类,以得到第二文本挖掘结果包括:
将所述待挖掘的文本信息输入所述预训练模型,以得到所述待挖掘的文本信息对应的字符向量;
将所述字符向量输入所述序列标注模型进行所述评价对象和所述评价词的提取和分类,以得到所述评价对象和所述评价词的分类概率;
根据所述评价对象和所述评价词的分类概率确定所述待挖掘的文本信息对应的所述评价对象和所述评价词。
5.根据权利要求1所述的文本信息挖掘方法,其特征在于,所述将所述待挖掘的文本信息输入第二预设模型进行语义特征的提取和分类,以得到第二文本挖掘结果包括:
根据所述第二预设模型提取所述待挖掘的文本信息中的所述评价对象和所述评价词;
根据所述评价对象和所述评价词在所述待挖掘的文本信息的位置确定所述评价对象与所述评价词的评价关系。
6.根据权利要求1所述的文本信息挖掘方法,其特征在于,所述将所述待挖掘的文本信息输入第二预设模型进行语义特征的提取和分类,以得到第二文本挖掘结果包括:
将所述待挖掘的文本信息按照句子的标点符号进行拆分,以得到一个或多个子句;
计算每个所述子句中的所述评价对象与每个所述评价词的相对距离;
根据所述相对距离确定所述评价对象与所述评价词的评价关系。
7.一种文本信息挖掘装置,其特征在于,包括:
获取模块,用于获取待挖掘的文本信息;
第一挖掘模块,用于将所述待挖掘的文本信息输入第一预设模型进行语义特征的提取和分类,以得到第一文本挖掘结果,其中,所述第一文本挖掘结果包括情感分类结果和/或标签分类结果;
第二挖掘模块,用于将所述待挖掘的文本信息输入第二预设模型进行语义特征的提取和分类,以得到第二文本挖掘结果,其中,所述第二文本挖掘结果包括评价对象和评价词;
确定模块,用于根据所述第一文本挖掘结果和所述第二文本挖掘结果确定挖掘后的文本信息。
8.根据权利要求7所述的文本信息挖掘装置,其特征在于,所述第一预设模型包括文本卷积网络模型,所述第一挖掘模块包括:
构建单元,用于根据所述待挖掘的文本信息构建所述待挖掘的文本信息的词向量矩阵;
第一提取单元,用于将所述词向量矩阵输入所述文本卷积网络模型,以提取所述待挖掘的文本信息中的语义特征;
分类单元,用于将所述语义特征输入softmax分类器进行分类,以得到与所述待挖掘的文本信息对应的不同情感类别和/或不同标签类别的分类概率。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至6中任一项所述的方法。
10.一种非暂态可读存储介质,其特征在于,其上存储有计算机指令,所述指令被处理器执行时实现如权利要求1至6中任一项所述方法的步骤。
CN202010092214.1A 2020-02-13 2020-02-13 文本信息挖掘方法及装置 Pending CN111309910A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010092214.1A CN111309910A (zh) 2020-02-13 2020-02-13 文本信息挖掘方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010092214.1A CN111309910A (zh) 2020-02-13 2020-02-13 文本信息挖掘方法及装置

Publications (1)

Publication Number Publication Date
CN111309910A true CN111309910A (zh) 2020-06-19

Family

ID=71149049

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010092214.1A Pending CN111309910A (zh) 2020-02-13 2020-02-13 文本信息挖掘方法及装置

Country Status (1)

Country Link
CN (1) CN111309910A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111753058A (zh) * 2020-06-30 2020-10-09 北京信息科技大学 一种文本观点挖掘方法及系统
CN111966832A (zh) * 2020-08-21 2020-11-20 网易(杭州)网络有限公司 评价对象的提取方法、装置和电子设备
CN112069311A (zh) * 2020-08-04 2020-12-11 北京声智科技有限公司 一种文本提取方法、装置、设备及介质
CN112579884A (zh) * 2020-11-27 2021-03-30 腾讯科技(深圳)有限公司 一种用户偏好估计方法及装置
CN113157788A (zh) * 2021-04-13 2021-07-23 福州外语外贸学院 大数据挖掘方法及系统
CN114444617A (zh) * 2022-02-28 2022-05-06 北京百度网讯科技有限公司 用于输出信息的方法、装置、设备以及存储介质
CN114580433A (zh) * 2022-05-05 2022-06-03 北京大学 基于动态权重对比学习的多标签文本分类方法和系统
CN115329757A (zh) * 2022-10-17 2022-11-11 广州数说故事信息科技有限公司 一种产品创新概念挖掘方法、装置、存储介质及终端设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107578092A (zh) * 2017-09-01 2018-01-12 广州智慧城市发展研究院 一种基于情绪和意见挖掘的情感复合分析方法及系统
CN109086340A (zh) * 2018-07-10 2018-12-25 太原理工大学 基于语义特征的评价对象识别方法
CN109299457A (zh) * 2018-09-06 2019-02-01 北京奇艺世纪科技有限公司 一种观点挖掘方法、装置及设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107578092A (zh) * 2017-09-01 2018-01-12 广州智慧城市发展研究院 一种基于情绪和意见挖掘的情感复合分析方法及系统
CN109086340A (zh) * 2018-07-10 2018-12-25 太原理工大学 基于语义特征的评价对象识别方法
CN109299457A (zh) * 2018-09-06 2019-02-01 北京奇艺世纪科技有限公司 一种观点挖掘方法、装置及设备

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111753058A (zh) * 2020-06-30 2020-10-09 北京信息科技大学 一种文本观点挖掘方法及系统
CN111753058B (zh) * 2020-06-30 2023-06-02 北京信息科技大学 一种文本观点挖掘方法及系统
CN112069311A (zh) * 2020-08-04 2020-12-11 北京声智科技有限公司 一种文本提取方法、装置、设备及介质
CN112069311B (zh) * 2020-08-04 2024-06-11 北京声智科技有限公司 一种文本提取方法、装置、设备及介质
CN111966832A (zh) * 2020-08-21 2020-11-20 网易(杭州)网络有限公司 评价对象的提取方法、装置和电子设备
CN112579884A (zh) * 2020-11-27 2021-03-30 腾讯科技(深圳)有限公司 一种用户偏好估计方法及装置
CN113157788A (zh) * 2021-04-13 2021-07-23 福州外语外贸学院 大数据挖掘方法及系统
CN113157788B (zh) * 2021-04-13 2024-02-13 福州外语外贸学院 大数据挖掘方法及系统
CN114444617A (zh) * 2022-02-28 2022-05-06 北京百度网讯科技有限公司 用于输出信息的方法、装置、设备以及存储介质
CN114580433A (zh) * 2022-05-05 2022-06-03 北京大学 基于动态权重对比学习的多标签文本分类方法和系统
CN114580433B (zh) * 2022-05-05 2022-08-02 北京大学 基于动态权重对比学习的多标签文本分类方法和系统
CN115329757A (zh) * 2022-10-17 2022-11-11 广州数说故事信息科技有限公司 一种产品创新概念挖掘方法、装置、存储介质及终端设备

Similar Documents

Publication Publication Date Title
CN110717339B (zh) 语义表示模型的处理方法、装置、电子设备及存储介质
CN111309910A (zh) 文本信息挖掘方法及装置
CN109918560B (zh) 一种基于搜索引擎的问答方法和装置
CN111625635A (zh) 问答处理、语言模型的训练方法、装置、设备及存储介质
CN112507700A (zh) 事件抽取方法、装置、电子设备及存储介质
CN111783468B (zh) 文本处理方法、装置、设备和介质
TW202020691A (zh) 特徵詞的確定方法、裝置和伺服器
CN104572958A (zh) 一种基于事件抽取的敏感信息监控方法
CN104050256A (zh) 基于主动学习的问答方法及采用该方法的问答系统
CN109961068A (zh) 图像识别、训练、搜索方法和装置及设备、介质
CN104598535A (zh) 一种基于最大熵的事件抽取方法
KR20210038467A (ko) 이벤트 테마 생성 방법, 장치, 기기 및 저장 매체
CN113722493B (zh) 文本分类的数据处理方法、设备、存储介质
CN112330455A (zh) 用于推送信息的方法、装置、设备以及存储介质
CN113051914A (zh) 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
CN111061837A (zh) 话题识别方法、装置、设备及介质
CN111782793A (zh) 智能客服处理方法和系统及设备
CN112560461A (zh) 新闻线索的生成方法、装置、电子设备及存储介质
CN111178080B (zh) 一种基于结构化信息的命名实体识别方法及系统
CN113704420A (zh) 文本中的角色识别方法、装置、电子设备及存储介质
CN112926308A (zh) 匹配正文的方法、装置、设备、存储介质以及程序产品
CN110222139B (zh) 道路实体数据去重方法、装置、计算设备和介质
CN110263345B (zh) 关键词提取方法、装置及存储介质
CN113434631A (zh) 基于事件的情感分析方法、装置、计算机设备及存储介质
CN112989043A (zh) 指代消解方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination