CN112069394A - 文本信息的挖掘方法及装置 - Google Patents

文本信息的挖掘方法及装置 Download PDF

Info

Publication number
CN112069394A
CN112069394A CN202010817997.5A CN202010817997A CN112069394A CN 112069394 A CN112069394 A CN 112069394A CN 202010817997 A CN202010817997 A CN 202010817997A CN 112069394 A CN112069394 A CN 112069394A
Authority
CN
China
Prior art keywords
text
topic
probability matrix
obtaining
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010817997.5A
Other languages
English (en)
Other versions
CN112069394B (zh
Inventor
吴明平
梁新敏
陈羲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Second Picket Network Technology Co ltd
Original Assignee
Shanghai Fengzhi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Fengzhi Technology Co ltd filed Critical Shanghai Fengzhi Technology Co ltd
Priority to CN202010817997.5A priority Critical patent/CN112069394B/zh
Publication of CN112069394A publication Critical patent/CN112069394A/zh
Application granted granted Critical
Publication of CN112069394B publication Critical patent/CN112069394B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种文本信息的挖掘方法及装置,挖掘方法包括:步骤S1:对获取的舆情信息进行数据提取获得多个文本,根据文本的发布时间对多个文本进行分组;步骤S2:通过jieba分词对每个分组中的文本进行分词并获得分组中每一主题词的分布统计数据;步骤S3:通过LDA算法对每个分组中的文本进行主题词提取输出文本属于主题的第一概率矩阵及每个主题中主题词分布的第二概率矩阵;步骤S4:根据第一概率矩阵及第二概率矩阵获得每个分组的文本话题特征;步骤S5:根据每个分组中文本话题特征及主题词的分布统计数据获得话题峰值。由此在保证准确率的前提下,提升了算法计算速度,满足了实时计算的需求。

Description

文本信息的挖掘方法及装置
技术领域
本发明涉及一种文本信息的挖掘方法及装置。
背景技术
随着互联网的飞速发展,网络数据源越来越丰富,产生的舆情数据也越来越大,及时的检测舆情数据中包含的主要信息,可以让品牌商及时发现新产品的客户反馈,主流的文本主题挖掘算法依然是LDA主题模型,在LDA中,算法需要维护三个矩阵:θ,φ和字典映射矩阵。它们分别为文档在主题上的分布矩阵,规模为NDKNDK;主题在词上的分布,规模为WKWK和文档次的编号映射矩阵,规模为NDl-NDl-。因此其空间复杂度就是NDK+WK+NDl-NDK+WK+NDl-了。这种算法的算法复杂度为O(NiterNdKl-),所以主题输越多,文本数越多的情况下,算法计算时长越长,所以需要有一种有效的方法对其进行优化。
目前,对LDA主题算法模型进行优化的方法,大致有以下几种,第一,采用并行计算,LDA算法本身是计算所有文章包含的主题,以及每篇文章归属每种主题的概率,即使采用并行方法,最耗时的计算模块本身是串型算法,达到的优化效果不大;第二:以优化算法hdLDA模型为例,是更改抽样方法,hdLDA所需要的不重要变量特别多,但是如果不计入核心算法的话,有φ矩阵,规模为WK;θ矩阵,规模为NDK;ψ矩阵,规模为JW,其中K表示formaltopic的个数,J表示leisure topic的个数;以及文档保存矩阵ptrndata(结构体),规模为NDC-lc-hdLDA的时间复杂度为:NiterND(Kl-+2KC-lc-+C-lc-),因此面对大量文本计算主题时,计算速度依然无法得到保证。
因此亟需开发一种克服上述缺陷的文本信息的挖掘方法及装置。
发明内容
针对上述问题,本发明提供一种文本信息的挖掘方法,其中,包括:
步骤S1:对获取的舆情信息进行数据提取获得多个文本,根据文本的发布时间对多个文本进行分组;
步骤S2:通过jieba分词对每个分组中的文本进行分词并获得分组中每一主题词的分布统计数据;
步骤S3:通过LDA算法对每个分组中的文本进行主题词提取输出文本属于主题的第一概率矩阵及每个主题中主题词分布的第二概率矩阵;
步骤S4:根据第一概率矩阵及第二概率矩阵获得每个分组的文本话题特征;
步骤S5:根据每个分组中文本话题特征及主题词的分布统计数据获得话题峰值。
上述的挖掘方法,其中,所述步骤S1中包括:
步骤S11:根据舆情信息获得包括文本id、发布时间及文本内容的多个文本;
步骤S12:根据发布时间对多个文本进行分组。
上述的挖掘方法,其中,所述步骤S3中包括:
步骤S31:根据对每个文本对应到不同中间层集合的概率θd进行计算获得p(t|d);
步骤S32:根据对中间层集合中的topic t生成不同主题词的概率
Figure BDA0002633440050000022
进行计算获得p(w|t);
步骤S33:根据p(t|d)及p(w|t)构建第一概率矩阵及第二概率矩阵。
上述的挖掘方法,其中,所述步骤S4中包括:
步骤S41:根据第一概率矩阵及第二概率矩阵获得每个文本的话题特征;
步骤S42:根据每个文本的话题特征获得每个分组的文本话题特征。
上述的挖掘方法,其中,所述步骤S5中根据以下公式获得话题峰值:
Figure BDA0002633440050000021
其中,S为话题峰值,Si为文本话题特征,Fij为分布统计数据。
本发明还提供一种文本信息的挖掘装置,其中,包括:
分组单元,对获取的舆情信息进行数据提取获得多个文本,根据文本的发布时间对多个文本进行分组;
分布统计数据计算单元,通过jieba分词对每个分组中的文本进行分词并获得分组中每一主题词的分布统计数据;
概率矩阵获得单元,通过LDA算法对每个分组中的文本进行主题词提取输出文本属于主题的第一概率矩阵及每个主题中主题词分布的第二概率矩阵;
文本话题特征获得单元,根据第一概率矩阵及第二概率矩阵获得每个分组的文本话题特征;
峰值发现单元,根据每个分组中文本话题特征及主题词的分布统计数据获得话题峰值。
上述的挖掘装置,其中,所述分组单元包括:
提取模块,根据舆情信息获得包括文本id、发布时间及文本内容的多个文本;
分组模块,根据发布时间对多个文本进行分组。
上述的挖掘装置,其中,所述概率矩阵获得单元包括:
第一计算模块,根据对每个文本对应到不同中间层集合的概率θd进行计算获得p(t|d);
第二计算模块,根据对中间层集合中的topic t生成不同主题词的概率
Figure BDA0002633440050000031
进行计算获得p(w|t);
概率矩阵构建模块,根据p(t|d)及p(w|t)构建第一概率矩阵及第二概率矩阵。
上述的挖掘装置,其中,所述文本话题特征获得单元包括:
第三计算模块,根据第一概率矩阵及第二概率矩阵获得每个文本的话题特征;
第四计算模块,根据每个文本的话题特征获得每个分组的文本话题特征。
上述的挖掘装置,其中,所述峰值发现单元根据以下公式获得话题峰值:
Figure BDA0002633440050000041
其中,S为话题峰值,Si为文本话题特征,Fij为分布统计数据。
综上所述,本发明相对于现有技术其功效在于:本发明通过对文本进行初步拆分,并计算每个分组中的词在总数据中的分布统计数据,结合分组计算到的主题与主题词概率矩阵,解决了聚类算法进行主题提取无法进行并行计算,且受数据量影响导致计算速度慢的问题,在保证准确率的前提下,提升了算法计算速度,满足了实时计算的需求。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的挖掘方法的流程图;
图2为图1中步骤S1的分步骤流程图;
图3为图1中步骤S3的分步骤流程图;
图4为图1中步骤S4的分步骤流程图;
图5为本发明的挖掘方法的应用流程图;
图6为图5中的主题提取与概率矩阵的细部流程图;
图7为本发明的挖掘装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地说明,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
关于本文中所使用的“包含”、“包括”、“具有”、“含有”等等,均为开放性的用语,即意指包含但不限于。
关于本文中的“多个”包括“两个”及“两个以上”。
请参照图1,图1为本发明的挖掘方法的流程图。如图1所示,本发明的挖掘方法包括:
步骤S1:对获取的舆情信息进行数据提取获得多个文本,根据文本的发布时间对多个文本进行分组;
步骤S2:通过jieba分词(一种中文分词的算法)对每个分组中的文本进行分词并获得分组中每一主题词的分布统计数据;
步骤S3:通过LDA(Latent Dirichlet Allocation,隐含狄利克雷分布)算法对每个分组中的文本进行主题词提取输出文本属于主题的第一概率矩阵及每个主题中主题词分布的第二概率矩阵;
步骤S4:根据第一概率矩阵及第二概率矩阵获得每个分组的文本话题特征;
步骤S5:根据每个分组中文本话题特征及主题词的分布统计数据获得话题峰值,其中,所述步骤S5中根据以下公式获得话题峰值:
Figure BDA0002633440050000051
其中,S为话题峰值,Si为文本话题特征,Fij为分布统计数据。
进一步地,请参照图2,图2为图1中步骤S1的分步骤流程图。如图2所示,所述步骤S1中包括:
步骤S11:根据舆情信息获得包括文本id、发布时间及文本内容的多个文本;
步骤S12:根据发布时间对多个文本进行分组。
进一步地,请参照图3,图3为图1中步骤S3的分步骤流程图。如图3所示,所述步骤S3中包括:
步骤S31:根据对每个文本对应到不同中间层集合的概率θd进行计算获得p(t|d);
步骤S32:根据对中间层集合中的topic t生成不同主题词的概率
Figure BDA0002633440050000061
进行计算获得p(w|t);
步骤S33:根据p(t|d)及p(w|t)构建第一概率矩阵及第二概率矩阵。
更进一步地,请参照图4,图4为图1中步骤S4的分步骤流程图。如图4所示,所述步骤S4中包括:
步骤S41:根据第一概率矩阵及第二概率矩阵获得每个文本的话题特征;
步骤S42:根据每个文本的话题特征获得每个分组的文本话题特征。
以下请参照图5-图6,图5为本发明的挖掘方法的应用流程图;图6为图5中的主题提取与概率矩阵的细部流程图。结合图5-图6具体说明本发明挖掘方法的工作过程如下:
步骤1:数据抓取
抓取某个网站有关品牌A的舆情信息,得到如下数据:
文本id 发布时间 文本内容
步骤2、数据分组
如下图所示:横轴表示时间,纵轴表示当天抓取到的文本数量(N0,N1,…,N7),按照文本发布时间顺序将所有文本平均划分为8份,即每份包含1/8(N0+N1,…+N7)条文本。其中,在本实施例中,以每一天做为一个分组为较佳的实施方式,但本发明并不以此为限。
步骤3、分布统计数据统计
对平均分组后的文本,采用jieba分词进行分词,统计每个组中每个词的分布统计数据定义如下:
Fij=Nij/Nj
上述公式中,Fij表示第i个分组中词j的分布统计数据,Nij表示词j在第i个分组中出现的个数,Nj表示第j个词在所有文本中的个数,也即本发明的分布统计数据为某个词在分组中的数量与该词在总文本中数量的比例。
步骤4、分组后的数据进行主题提取:
对平均分组后的文本采用LDA算法进行主题提取,得到文本聚类结果:
LDA的核心公式如下:
p(w|d)=p(w|t)*p(t|d)
以Topic作为中间层,可以通过当前的θd和
Figure BDA0002633440050000071
给出了文档d中出现单词w的概率。其中p(t|d)利用θd计算得到,p(w|t)利用
Figure BDA0002633440050000072
计算得到。
文档集合D,topic集合T,D中每个文档d看作一个单词序列<w1,w2,...,wn>,wi表示第i个单词,设d有n个单词。D中涉及的所有不同单词组成一个大集合VOC。
LDA以文档集合D作为输入,经过分词,去停用词,最终训练出的两个向量(设聚成k个Topic,VOC中共包含m个词):
对每个D中的文档d,对应到不同topic的概率θd<pt1,...,ptk>,其中,pti表示d对应T中第i个topic的概率。计算方法是直观的,pti=nti/n,其中nti表示d中对应第i个topic的词的数目,n是d中所有词的总数。
对每个T中的topic t,生成不同单词的概率
Figure BDA0002633440050000073
其中,pwi表示t生成VOC中第i个单词的概率。计算方法同样很直观,pwi=Nwi/N,其中Nwi表示对应到topict的VOC中第i个单词的数目,N表示所有对应到topic t的单词总数。
实际上,利用当前的θd和
Figure BDA0002633440050000074
可以为一个文档中的一个单词计算它对应任意一个Topic时的p(w|d),然后根据这些结果来更新这个词应该对应的topic。然后,如果这个更新改变了这个单词所对应的Topic,就会反过来影响θd和
Figure BDA0002633440050000086
LDA算法开始时,先随机地给θd和
Figure BDA0002633440050000085
赋值(对所有的d和t)。然后上述过程不断重复,最终收敛到的结果就是LDA的输出:
文本属于主题的第一概率矩阵为:
Figure BDA0002633440050000081
每个主题中词分布的第二概率为:
Figure BDA0002633440050000082
步骤5、根据提取到的主题计算话题峰值。
根据步骤5可以计算得到每条文本属于某个主题的概率,以及每个主题中词的分布概率,举例如下:
假设文本有D条,其中聚合为N个主题,词典包含M个词,
文本属于主题的第一概率矩阵为:
Figure BDA0002633440050000083
每个主题中词分布的第二概率为:
Figure BDA0002633440050000084
在实际场景中,当文本达到一定量级,词典中词的个数会很多,但是这个词典是服从幂律分布,即文本中经常高频出现的词会集中于较少的一些词。
步骤2中的数据分组方法,对每个数据分组进行文本属于主题的概率与每个主题中词分布概率的计算,并且选取主题中概率topN的词用于简介表征主题,选取top2(前两个)的文本所属主题为最终表征文本的主题,然后根据以下公式计算每个文本的话题特征:
以文本i为例
fi=pi1*(topn(q1k))+pi2*(topn(q1k))
上述公式中topn(1k)代表排序后的主题1的topn词的分布概率。
根据以上公式计算后可以得到每条文本的话题特征,然后定义每个分组中的文本话题特征如下:
Figure BDA0002633440050000091
上述公式中代表第j个数据分组中有m条文本,fi为每条文本的话题特征。得到每个分组的话题特征后,将结合步骤3中的文本分布统计数据,最终给出话题峰值计算公式如下:
Figure BDA0002633440050000092
请参照图7,图7为本发明的挖掘装置的结构示意图。如图7所示,本发明的挖掘装置包括:
分组单元11,对获取的舆情信息进行数据提取获得多个文本,根据文本的发布时间对多个文本进行分组;
分布统计数据计算单元12,通过jieba分词对每个分组中的文本进行分词并获得分组中每一主题词的分布统计数据;
概率矩阵获得单元13,通过LDA算法对每个分组中的文本进行主题词提取输出文本属于主题的第一概率矩阵及每个主题中主题词分布的第二概率矩阵;
文本话题特征获得单元14,根据第一概率矩阵及第二概率矩阵获得每个分组的文本话题特征;
峰值发现单元15,根据每个分组中文本话题特征及主题词的分布统计数据获得话题峰值。
进一步地,所述分组单元11中包括:
提取模块111,根据舆情信息获得包括文本id、发布时间及文本内容的多个文本;
分组模块112,根据发布时间对多个文本进行分组。
再进一步地,所述概率矩阵获得单元13包括:
第一计算模块131,根据对每个文本对应到不同中间层集合的概率θd进行计算获得p(t|d);
第二计算模块132,根据对中间层集合中的topic t生成不同主题词的概率
Figure BDA0002633440050000102
进行计算获得p(w|t);
概率矩阵构建模块133,根据p(t|d)及p(w|t)构建第一概率矩阵及第二概率矩阵。
更进一步地,所述文本话题特征获得单元14包括:
第三计算模块141,根据第一概率矩阵及第二概率矩阵获得每个文本的话题特征;
第四计算模块142,根据每个文本的话题特征获得每个分组的文本话题特征。
其中,所述峰值发现单元15根据以下公式获得话题峰值:
Figure BDA0002633440050000101
其中,S为话题峰值,Si为文本话题特征,Fij为分布统计数据。
综上所述,本发明通过对文本进行初步拆分,并计算每个分组中的主题词的分布统计数据,结合分组计算到的主题与主题词概率矩阵,解决了聚类算法进行主题提取无法进行并行计算,且受数据量影响导致计算速度慢的问题。在保证准确率的前提下,提升了算法计算速度,满足了实时计算的需求。
尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种文本信息的挖掘方法,其特征在于,包括:
步骤S1:对获取的舆情信息进行数据提取获得多个文本,根据文本的发布时间对多个文本进行分组;
步骤S2:通过jieba分词对每个分组中的文本进行分词并获得分组中每一主题词的分布统计数据;
步骤S3:通过LDA算法对每个分组中的文本进行主题词提取输出文本属于主题的第一概率矩阵及每个主题中主题词分布的第二概率矩阵;
步骤S4:根据第一概率矩阵及第二概率矩阵获得每个分组的文本话题特征;
步骤S5:根据每个分组中文本话题特征及主题词的分布统计数据获得话题峰值。
2.如权利要求1所述的挖掘方法,其特征在于,所述步骤S1中包括:
步骤S11:根据舆情信息获得包括文本id、发布时间及文本内容的多个文本;
步骤S12:根据发布时间对多个文本进行分组。
3.如权利要求1所述的挖掘方法,其特征在于,所述步骤S3中包括:
步骤S31:根据对每个文本对应到不同中间层集合的概率θd进行计算获得p(t|d);
步骤S32:根据对中间层集合中的topic t生成不同主题词的概率
Figure FDA0002633440040000011
进行计算获得p(w|t);
步骤S33:根据p(t|d)及p(w|t)构建第一概率矩阵及第二概率矩阵。
4.如权利要求1所述的挖掘方法,其特征在于,所述步骤S4中包括:
步骤S41:根据第一概率矩阵及第二概率矩阵获得每个文本的话题特征;
步骤S42:根据每个文本的话题特征获得每个分组的文本话题特征。
5.如权利要求1所述的挖掘方法,其特征在于,所述步骤S5中根据以下公式获得话题峰值:
Figure FDA0002633440040000021
其中,S为话题峰值,Si为文本话题特征,Fij为分布统计数据。
6.一种文本信息的挖掘装置,其特征在于,包括:
分组单元,对获取的舆情信息进行数据提取获得多个文本,根据文本的发布时间对多个文本进行分组;
分布统计数据计算单元,通过jieba分词对每个分组中的文本进行分词并获得分组中每一主题词的分布统计数据;
概率矩阵获得单元,通过LDA算法对每个分组中的文本进行主题词提取输出文本属于主题的第一概率矩阵及每个主题中主题词分布的第二概率矩阵;
文本话题特征获得单元,根据第一概率矩阵及第二概率矩阵获得每个分组的文本话题特征;
峰值发现单元,根据每个分组中文本话题特征及主题词的分布统计数据获得话题峰值。
7.如权利要求6所述的挖掘装置,其特征在于,所述分组单元中包括:
提取模块,根据舆情信息获得包括文本id、发布时间及文本内容的多个文本;
分组模块,根据发布时间对多个文本进行分组。
8.如权利要求6所述的挖掘装置,其特征在于,所述概率矩阵获得单元包括:
第一计算模块,根据对每个文本对应到不同中间层集合的概率θd进行计算获得p(t|d);
第二计算模块,根据对中间层集合中的topic t生成不同主题词的概率
Figure FDA0002633440040000022
进行计算获得p(w|t);
概率矩阵构建模块,根据p(t|d)及p(w|t)构建第一概率矩阵及第二概率矩阵。
9.如权利要求6所述的挖掘装置,其特征在于,所述文本话题特征获得单元包括:
第三计算模块,根据第一概率矩阵及第二概率矩阵获得每个文本的话题特征;
第四计算模块,根据每个文本的话题特征获得每个分组的文本话题特征。
10.如权利要求1所述的挖掘装置,其特征在于,所述峰值发现单元根据以下公式获得话题峰值:
Figure FDA0002633440040000031
其中,S为话题峰值,Si为文本话题特征,Fij为分布统计数据。
CN202010817997.5A 2020-08-14 2020-08-14 文本信息的挖掘方法及装置 Active CN112069394B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010817997.5A CN112069394B (zh) 2020-08-14 2020-08-14 文本信息的挖掘方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010817997.5A CN112069394B (zh) 2020-08-14 2020-08-14 文本信息的挖掘方法及装置

Publications (2)

Publication Number Publication Date
CN112069394A true CN112069394A (zh) 2020-12-11
CN112069394B CN112069394B (zh) 2023-09-29

Family

ID=73661686

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010817997.5A Active CN112069394B (zh) 2020-08-14 2020-08-14 文本信息的挖掘方法及装置

Country Status (1)

Country Link
CN (1) CN112069394B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113223729A (zh) * 2021-05-26 2021-08-06 广州天鹏计算机科技有限公司 一种医疗数据的数据处理方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110145286A1 (en) * 2009-12-15 2011-06-16 Chalklabs, Llc Distributed platform for network analysis
US20120284016A1 (en) * 2009-12-10 2012-11-08 Nec Corporation Text mining method, text mining device and text mining program
CN102902700A (zh) * 2012-04-05 2013-01-30 中国人民解放军国防科学技术大学 基于在线增量演化主题模型的软件自动分类方法
JP2013225244A (ja) * 2012-04-23 2013-10-31 Ntt Docomo Inc 話題抽出装置及び話題抽出方法
CN106844416A (zh) * 2016-11-17 2017-06-13 中国科学院计算技术研究所 一种子话题挖掘方法
CN107908669A (zh) * 2017-10-17 2018-04-13 广东广业开元科技有限公司 一种基于并行lda的大数据新闻推荐方法、系统及装置
CN108519971A (zh) * 2018-03-23 2018-09-11 中国传媒大学 一种基于平行语料库的跨语种新闻主题相似性对比方法
CN109446320A (zh) * 2018-09-29 2019-03-08 昆明理工大学 一种基于lda的生物医药技术主题挖掘方法
US20190384981A1 (en) * 2018-06-15 2019-12-19 Adobe Inc. Utilizing a trained multi-modal combination model for content and text-based evaluation and distribution of digital video content to client devices
CN110990592A (zh) * 2019-11-07 2020-04-10 北京科技大学 一种微博突发话题在线检测方法及检测装置
US20200151207A1 (en) * 2017-07-17 2020-05-14 Bernt ANDRASSY Method and system for automatic discovery of topics and trends over time
CN111506785A (zh) * 2020-03-06 2020-08-07 之江实验室 基于社交文本的网络舆情话题识别方法和系统

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120284016A1 (en) * 2009-12-10 2012-11-08 Nec Corporation Text mining method, text mining device and text mining program
US20110145286A1 (en) * 2009-12-15 2011-06-16 Chalklabs, Llc Distributed platform for network analysis
CN102902700A (zh) * 2012-04-05 2013-01-30 中国人民解放军国防科学技术大学 基于在线增量演化主题模型的软件自动分类方法
JP2013225244A (ja) * 2012-04-23 2013-10-31 Ntt Docomo Inc 話題抽出装置及び話題抽出方法
CN106844416A (zh) * 2016-11-17 2017-06-13 中国科学院计算技术研究所 一种子话题挖掘方法
US20200151207A1 (en) * 2017-07-17 2020-05-14 Bernt ANDRASSY Method and system for automatic discovery of topics and trends over time
CN107908669A (zh) * 2017-10-17 2018-04-13 广东广业开元科技有限公司 一种基于并行lda的大数据新闻推荐方法、系统及装置
CN108519971A (zh) * 2018-03-23 2018-09-11 中国传媒大学 一种基于平行语料库的跨语种新闻主题相似性对比方法
US20190384981A1 (en) * 2018-06-15 2019-12-19 Adobe Inc. Utilizing a trained multi-modal combination model for content and text-based evaluation and distribution of digital video content to client devices
CN109446320A (zh) * 2018-09-29 2019-03-08 昆明理工大学 一种基于lda的生物医药技术主题挖掘方法
CN110990592A (zh) * 2019-11-07 2020-04-10 北京科技大学 一种微博突发话题在线检测方法及检测装置
CN111506785A (zh) * 2020-03-06 2020-08-07 之江实验室 基于社交文本的网络舆情话题识别方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HAMED JELODAR: "Latent Dirichlet allocation (LDA) and topic modeling: models, applications, a survey", MULTIMEDIA TOOLS AND APPLICATIONS, pages 15169 - 15211 *
周建华;: "一种基于Hadoop架构的网络舆情热点话题挖掘方法", 河北北方学院学报(自然科学版), no. 06 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113223729A (zh) * 2021-05-26 2021-08-06 广州天鹏计算机科技有限公司 一种医疗数据的数据处理方法

Also Published As

Publication number Publication date
CN112069394B (zh) 2023-09-29

Similar Documents

Publication Publication Date Title
Chen et al. Neural sentiment classification with user and product attention
CN105808526B (zh) 商品短文本核心词提取方法和装置
CN105022754B (zh) 基于社交网络的对象分类方法及装置
CN111666401B (zh) 基于图结构的公文推荐方法、装置、计算机设备及介质
WO2021051598A1 (zh) 文本情感分析模型训练方法、装置、设备及可读存储介质
CN103699525A (zh) 一种基于文本多维度特征自动生成摘要的方法和装置
Niu et al. FUIR: Fusing user and item information to deal with data sparsity by using side information in recommendation systems
CN110175221B (zh) 利用词向量结合机器学习的垃圾短信识别方法
CN102682120B (zh) 一种网络评论精华文本的获取方法和装置
CN104298765B (zh) 一种互联网舆情话题的动态识别和追踪方法
CN109960763A (zh) 一种基于用户细粒度摄影偏好的摄影社区个性化好友推荐方法
CN107273474A (zh) 基于潜在语义分析的自动摘要抽取方法及系统
CN107329954B (zh) 一种基于文档内容和相互关系的主题检测方法
WO2019071904A1 (zh) 基于贝叶斯网络的问答装置、方法及存储介质
CN108021651A (zh) 一种网络舆情风险评估方法及装置
CN110378124A (zh) 一种基于lda机器学习的网络安全威胁分析方法及系统
CN110706028A (zh) 基于属性特征的商品评价情感分析系统
CN112232933A (zh) 房源信息的推荐方法、装置、设备及可读存储介质
CN109359299A (zh) 一种基于商品数据的物联网设备能力本体自构建方法
CN110347934B (zh) 一种文本数据过滤方法、装置及介质
CN110085292A (zh) 药品推荐方法、装置及计算机可读存储介质
CN112069394A (zh) 文本信息的挖掘方法及装置
CN102760127B (zh) 基于扩展文本信息来确定资源类型的方法、装置及设备
CN117609498A (zh) 一种文本信息处理方法、装置、电子设备及存储介质
CN110413985B (zh) 一种相关文本片段搜索方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20231122

Address after: 200232 Unit 5B03, 5th Floor, Building 2, No. 277 Longlan Road, Xuhui District, Shanghai

Patentee after: SHANGHAI SECOND PICKET NETWORK TECHNOLOGY CO.,LTD.

Address before: Floors 4, 5 and 6, No. 3, Lane 1473, Zhenguang Road, Putuo District, Shanghai, 200333

Patentee before: Shanghai Fengzhi Technology Co.,Ltd.

TR01 Transfer of patent right