CN114491013A - 一种融入句法结构信息的主题挖掘方法、存储介质及系统 - Google Patents

一种融入句法结构信息的主题挖掘方法、存储介质及系统 Download PDF

Info

Publication number
CN114491013A
CN114491013A CN202111498143.6A CN202111498143A CN114491013A CN 114491013 A CN114491013 A CN 114491013A CN 202111498143 A CN202111498143 A CN 202111498143A CN 114491013 A CN114491013 A CN 114491013A
Authority
CN
China
Prior art keywords
word
binary
topic
words
structure information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111498143.6A
Other languages
English (en)
Inventor
刘洪涛
赵洪慷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202111498143.6A priority Critical patent/CN114491013A/zh
Publication of CN114491013A publication Critical patent/CN114491013A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/322Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明请求保护一种融入句法结构信息的主题挖掘方法、存储介质及系统,包括以下步骤:获取社交文本数据集,利用依存句法结构对社交文本数据集的二元词汇关系期望值进行计算;将二元词汇关系的期望值输入到二元词汇信息构建的主题挖掘模型中,所述主题挖掘模型采用隐含狄利克雷分布DP‑BTM模型;对待挖掘文本的词语进行采样分析,来确定主题词语分布集合;给出具体的主题分布结果和主题下词语的分布结果。该方法能够消除短文本数据稀疏对主题挖掘的影响,并且丰富了模型采样过程中二元词汇之间的语义信息,可以提升主题挖掘的质量和其解读性。

Description

一种融入句法结构信息的主题挖掘方法、存储介质及系统
技术领域
本发明属于自然语言处理技术领域,涉及一种融入句法结构信息的主题挖掘方法、存储介质及系统。
背景技术
目前在进行社会科学研究时,常常会使用大数据技术对大量的文本信息进行知识挖掘和分析,可以通过爬虫技术以及短文本主题挖掘,对大量的社交文本数据进行训练和分析,并输出相关的主题观点。但短文本的数据特征稀疏,同时传统的主题挖掘模型对语义的内容没有针对性,导致其结果可解释性差。如何利用社交文本,对于某个舆情的走向进行追踪,以及对新发的事件舆情走向进行预测,是目前社会科学领域的热点研究。
经过检索,申请公开号CN109766431A,一种基于词义主题模型的社交网络短文本推荐方法,具体步骤:将词义及下义词信息的基于上下文注意力机制的词表示学习融入社交网络短文本推荐中,以丰富文本的词层面特征;将基于词义表示的狄利克雷多项混合分布短文本主题建模融入社交网络短文本推荐中,以丰富文本层面特征;结合社交网络用户关系,用户相关文本的基于词义表示的短文本主题特征,及用户与文本间的潜在关系特征,对随时间演化的用户潜在兴趣度及倾向度进行建模;通过参数估计方法,预测用户对文本的潜在倾向度,并选取倾向度最大的文本推荐给用户,实现短文本推荐。本发明将词义信息融入到短文本主题建模及社交网络短文本推荐任务中,提高了社交网络短文本推荐任务的准确率。其技术上完全不同,本发明用的词汇间的依赖关系,是基于依存分析算法的信息,同时提出了基于该关系的度量方法,并且应用到了算法采样中。他用到了注意力机制提取信息,这些信息是模糊的概念,且没有度量的方法来保障自己提取的信息到底有多少意义。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种融入句法结构信息的主题挖掘方法。本发明的技术方案如下:
一种融入句法结构信息的主题挖掘方法,其包括以下步骤:
获取社交文本数据集,利用依存句法结构对社交文本数据集的二元词汇关系期望值进行计算;
将二元词汇关系的期望值输入到句法结构信息构建的主题挖掘模型中,所述主题挖掘模型采用隐含狄利克雷分布DP-BTM模型;对待挖掘文本的词语进行采样分析,来确定主题词语分布集合;
给出具体的主题分布结果和主题下词语的分布结果。
进一步的,所述社交文本数据集的二元词汇关系信息具体包括:|B|个二元词关系的期望值和L个词语;其中上述二元关系期望值包含两个单词和一个关系期望值,期望值由句法结构信息树包含的二元关系计算所得,其词语是由待挖掘的短文本中出现的单词构成的,句法结构信息树由依存句法工具分析实现,|B|、 L为正整数;当得到待主题挖掘的短文本时,计算其中出现的二元词汇关系期望值。
进一步的,所述利用依存句法分析工具获得句子中出现的依存关系,具体包括:
S11、一个短文本di中包含多个句子S,以句子为单位进行分割,对句子进行分词操作获得单词集合W,为单词进行词性标注,并使用依存算法工具获得单词之间存在的句法结构信息;句法结构信息中包含有多个由中心词words、从属词wordd和关系r组成的三元组合,筛选剔除掉其中words、wordd均是同一词的组合;
S12将节点中在句法结构信息中仅有做为中心词出现的单词节点挂载到 Root节点下,生成句法结构信息树;
S13统计句法结构信息树中出现的二元关系,分别为:亲子关系,兄弟关系,叔侄关系和无特殊关系;
S14在分别统计树中出现的二元关系之后,以短文本di为单位,将其包含的所有句子sj的句法结构信息树中统计的二元关系进行整合统计;
S15计算二元词汇b在文档di中的期望值;
S16重复S11-S15步骤对所有文档d中的二元词汇b关系进行期望值计算;
S176根据S16的结果最后wordi和wordj在短文本数据集中D的期望值。
进一步的,所述S15计算二元词汇b在文档di中的期望值,具体公式为:
pk为b所涉及的单词words和worde单词之间关系k出现在文档di下的概率,
Figure BDA0003401687590000031
其中
Figure BDA0003401687590000032
为步骤S13中叙述的四种二元关系在文档di出现次数的总和,当k依次取s,b,u,n时l依次取3,2,1,0,即亲子关系,兄弟关系,叔侄关系和无特殊关系对应的权重分配为(1+γ)3,(1+γ)2,(1+γ)1,(1+γ)0
其在文档di下二元词汇b的关系期望值为
Figure BDA0003401687590000033
进一步的,所述述主题挖掘模型的采样公式为:
Figure BDA0003401687590000034
其中,P是主题为z时的后验概率分布,z是经过采样后二元词汇b= (wordi,wordj)所被分配的主题,wordi和wordi是建模过程中出现的单词,
Figure BDA0003401687590000035
是假设文本当中没有二元词汇b时的主题分布,其中X是文档集合D用二元词汇集合B表示的集合,B是文档中出现的b的集合,α和β是狄利克雷分布的超参数,γ是用于计算二元关系期望值的配比权重,Eb是二元词汇b的关系期望值,
Figure BDA0003401687590000036
是将主题z分配给集合X时词汇wordj的采样次数,nb|z是将主题z分配给集合X时词汇wordj的采样次数,M是整个X中二元词汇出现的计数。
进一步的,所述主题挖掘模型的主题的多项式分布参数θz和主题词像的多项式分布参数
Figure BDA0003401687590000041
Figure BDA0003401687590000042
计算所得,
Figure BDA0003401687590000043
Figure BDA0003401687590000044
进一步的,所述二元词汇关系信息,具体包括:|B|个三元结构, (wordi,wordj,Eb),wordi,wordj由原始文档D中分词得到,Eb为单词之间的关系期望值。
一种计算机可读存储介质,其该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现如任一项所述的融入句法结构信息的主题挖掘方法。
一种融入句法结构信息的主题挖掘系统,其包括:
期望值计算模块:用于获取社交文本数据集,利用依存句法结构对社交文本数据集的二元词汇关系期望值进行计算;
主题挖掘模块:用于将二元词汇关系的期望值输入到二元词汇信息构建的主题挖掘模型中,所述主题挖掘模型采用隐含狄利克雷分布DP-BTM模型;对待挖掘文本的词语进行采样分析,来确定主题词语分布集合;
分析模块:用于根据主题挖掘模型,分析出具体的主题分布结果和主题下词语的分布结果。
本发明的优点及有益效果如下:
自己定义的公式有创新价值的是这个
Figure BDA0003401687590000045
这个公式把依存句法分析的结果加入到了传统的BTM模型,然后起的名字是 DP-BTM模型,难以想到的点子是,如何将句法结构信息(也就是由依存句法分析得到的信息学)利用起来放到采样模型中,上述的公式就是将Eb(根据句法结构信息计算的二元词汇间的关系期望值)加入到算法采样过程中,这样算法会根据这个期望值的大小,来改变采样的概率,
为何不容易想到的原因:传统的依存算法给出的结论是词汇之间有关系,是什么关系,然后这样的信息在BTM模型中无法应用,语义信息不是有或者没有的关系。本发明问题的出发点是如何将语义信息融入到BTM模型,有哪些信息可以用于计算词汇间关系语义值,然后如何想一种策略把信息转为值。我想到的是根据依存句法分析工具得到句子中词汇间的关系信息,然后剔除掉我不能用的信息,后者说在构建句法结构信息树时会形成闭环的信息,然后通过构建的这颗树中节点之间存在的关系,(两个节点在不同的树下所处的关系不同)例如亲子关系,兄弟关系等,统计不同树下的这些关系,生成一个不不同关系出现的概率分布,然后计算期望值,然后把这个期望值作为当前关系的关系系数用于采样中。然后在在采样中改变一下公式,这样关系值高的关系在采样时就更容易被采中。这样带来的结果就是BTM模型结果的可解释性提升了,主题的分离度更高了
附图说明
图1是本发明提供优选实施例算法构建的整个流程。
图2是构建一颗句法结构信息树的过程。
图3是获取二元词汇关联关系期望值的流程图。
图4是句子经过依存分析后句法结构信息。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
本发明主题提供了一种融合句法结构信息的短文本主题挖掘方法。采用图3 的流程获取短文本的二元词汇关系期望值,利用图1的模型框架将句法结构信息加入到主题挖掘的过程当中,解决了短文本数据稀疏造成的主题挖掘困难的同时,提升了模型中二元词汇之间的语义联系。
本发明的一种融入句法结构信息的主题挖掘的方法包括以下步骤:
S1:利用依存句法分析工具获得句子中出现的依存关系。
S11一个短文本di中包含多个句子S,以句子为单位进行分割,对句子进行分词操作获得单词集合W,为单词进行词性标注,并使用依存算法工具获得单词之间存在的句法结构信息。句法结构信息中包含有多个由中心词words、从属词wordd和关系r组成的三元组合,筛选剔除掉其中words、wordd均是同一词的组合,剔除后的关系如附图4所示。同时若words、wordd中出现停用词同样剔除掉该组合。
S12将节点中在句法结构信息中仅有做为中心词出现的单词节点挂载到 Root节点下,构建如图2所示将“巴士”这个节点挂载到了Root节点。生成句法结构信息树。
S13统计句法结构信息树中出现的二元关系。例如附图2中所示,“巴士”和“出现”在这句话中的句法结构信息为动宾关系,在树形结构关系中为亲子关系,“忽然”和“巴士”之间的关系是兄弟关系,无实际语法修饰关系,“街上”和“很多”之间的关系是叔侄关系,无具体的语法关系。同时在统计关系时去除掉和根节点Root的二元关系。得到树中每个二元词汇的如下信息
Figure BDA0003401687590000061
Figure BDA0003401687590000062
Figure BDA0003401687590000063
其分别表示为wordi和wordj即二元词汇b在文档di的句子si中出现亲子关系,兄弟关系,叔侄关系和无特殊关系的次数。
二元词汇关系信息;该信息中包括:|B|个二元词关系的期望值和L个词语;其中上述二元关系期望值包含两个单词和一个关系期望值,期望值由句法结构信息树包含的二元关系计算所得,其词语是由待挖掘的短文本中出现的单词构成的,句法结构信息树由依存句法工具分析实现,|B|、L为正整数;当得到待主题挖掘的短文本时,计算其中出现的二元词汇关系期望值;调用基于上述二元词汇信息构建的主题挖掘模型,对待挖掘主题文本集合进行主题挖掘,输出O 个主题词语分布集合,O为正整数;其中上述主题挖掘模型是根据|B|个二元词汇关系期望值,L个词语数据,对待挖掘文本的词语进行采样分析,来确定O 个主题词语分布集合。
在一种实现方式中,上述短文本D处理后的单词是经过筛选的,其中剔除了停用词以及标点符号。其单词间的二元关系包含为句法结构信息树中除根节点 Root外的任意两个节点之间的关系。其中二元词汇关系期望值由句法结构信息树中存在的不同的二元词汇关系统计计算得来。
在一种实现方式中,上述句法结构信息树的由来为(是对的),对文档di分句后得到句子集合S,对集合S中的句子分别进行依存句法分析得到句法结构信息,句法结构信息中包含多个三元组合,其三元组和包括中心词words、从属词 worde和关系r。筛选剔除掉其中words、worde均是同一词的三元组合,同时若 words、worde中出现停用词同样剔除掉该组合。将剔除后的仅存在中心词地位的单词挂载到根节点Root上构建句法结构信息树。句法结构信息树是一颗树,其节点代表单词,其中节点之间出现的特定关系包含无特殊关系、叔侄关系、兄弟关系和亲子关系。其不同的关系对刻画句子主题的共享度不同。针对这四种关系计算二元词汇之间的关系期望值。
S14在分别统计树中出现的二元关系之后,以短文本di为单位,将其包含的所有句子sj的句法结构信息树中统计的二元关系进行整合统计,例如其亲子关系在文档di出现的次数
Figure BDA0003401687590000071
计算公式如下
Figure BDA0003401687590000072
其余关系计算和该式一致。
S15计算二元词汇b在文档di中的期望值,pk为b所涉及的单词words和 worde单词之间关系k出现在文档di下的概率。
Figure BDA0003401687590000081
其中
Figure BDA0003401687590000082
为步骤S13中叙述的四种关系在文档di出现次数的总和。当k依次取 s,b,u,n时l依次取3,2,1,0,即亲子关系,兄弟关系,叔侄关系和无特殊关系对应的权重分配为(1+γ)3,(1+γ)2,(1+γ)1,(1+γ)0
其在文档di下二元词汇b的关系期望值为
Figure BDA0003401687590000083
S16重复S11-S15步骤对所有文档d中的二元词汇b关系进行期望值计算。
S16根据S16的结果最后wordi和wordj在短文本数据集中D的期望值为
Figure BDA0003401687590000084
S2根据期望值进行求解采样
S21根据公式如下公式进行采样求解为二元词汇b进行主题分配
Figure BDA0003401687590000085
其中,P是主题为z时的后验概率分布,z是经过采样后b=(wordi,wordj) 所被分配的主题,wordiwordj是建模过程中采样的单词,
Figure BDA0003401687590000086
是假设文本当中没有b时的表示,其X是文档集合D用二元词汇b表示的集合,B是文档中出现的 b的集合,α和β是狄利克雷分布的超参数,γ是用于计算二元关系期望值的配比权重,Eb是二元词汇组合b的关系期望值,
Figure BDA0003401687590000087
是将主题z分配给文集X时词汇bj的采样次数,nb|z是将主题z分配给文集X时词汇b的采样次数。M是整个X中二元词汇出现的计数。
S22根据公式
Figure BDA0003401687590000091
Figure BDA0003401687590000092
对短文本数据级D主题的多项式分布参数θz和主题词的多项式分布参数
Figure BDA0003401687590000093
进行求解。
S3:根据参数θz
Figure BDA0003401687590000094
对文集D给出具体的O个主题分布和主题下词语的分布。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD) 或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (9)

1.一种融入句法结构信息的主题挖掘方法,其特征在于,包括以下步骤:
获取社交文本数据集,利用依存句法结构对社交文本数据集的二元词汇关系期望值进行计算;
将二元词汇关系的期望值输入到二元词汇信息构建的主题挖掘模型中,所述主题挖掘模型采用隐含狄利克雷分布DP-BTM模型;对待挖掘文本的词语进行采样分析,来确定主题词语分布集合;
给出具体的主题分布结果和主题下词语的分布结果。
2.根据权利要求1所述的一种融入句法结构信息的主题挖掘方法,其特征在于,所述社交文本数据集的二元词汇关系信息具体包括:|B|个二元词关系的期望值和L个词语;其中上述二元关系期望值包含两个单词和一个关系期望值,期望值由句法结构信息树包含的二元关系计算所得,其词语是由待挖掘的短文本中出现的单词构成的,句法结构信息树由依存句法工具分析实现,|B|、L为正整数;当得到待主题挖掘的短文本时,计算其中出现的二元词汇关系期望值。
3.根据权利要求2所述的一种融入句法结构信息的主题挖掘方法,其特征在于,所述利用依存句法分析工具获得句子中出现的依存关系,具体包括:
S11、一个短文本di中包含多个句子S,以句子为单位进行分割,对句子进行分词操作获得单词集合W,为单词进行词性标注,并使用依存算法工具获得单词之间存在的句法结构信息;句法结构信息中包含有多个由中心词words、从属词wordd和关系r组成的三元组合,筛选剔除掉其中words、wordd均是同一词的组合;
S12将节点中在句法结构信息中仅有做为中心词出现的单词节点挂载到Root节点下,生成句法结构信息树;
S13统计句法结构信息树中出现的二元关系,分别为:亲子关系,兄弟关系,叔侄关系和无特殊关系;
S14在分别统计树中出现的二元关系之后,以短文本di为单位,将其包含的所有句子sj的句法结构信息树中统计的二元关系进行整合统计;
S15计算二元词汇b在文档di中的期望值;
S16重复S11-S15步骤对所有文档d中的二元词汇b关系进行期望值计算;
S16根据S16的结果最后wordi和wordj在短文本数据集中D的期望值。
4.根据权利要求3所述的一种融入句法结构信息的主题挖掘方法,其特征在于,所述S15计算二元词汇b在文档di中的期望值,具体公式为:
pk为b所涉及的单词words和worde单词之间关系k出现在文档di下的概率,
Figure FDA0003401687580000021
其中
Figure FDA0003401687580000022
为步骤S13中叙述的四种二元关系在文档di出现次数的总和,当k依次取s,b,u,n时l依次取3,2,1,0,即亲子关系,兄弟关系,叔侄关系和无特殊关系对应的权重分配为(1+γ)3,(1+γ)2,(1+γ)1,(1+γ)0
其在文档di下二元词汇b的关系期望值为
Figure FDA0003401687580000023
5.根据权利要求4所述的一种融入句法结构信息的主题挖掘方法,其特征在于,所述述主题挖掘模型的采样公式为:
Figure FDA0003401687580000024
其中,P是主题为z时的后验概率分布,z是经过采样后二元词汇b=(wordi,wordj)所被分配的主题,wordi和wordi是建模过程中出现的单词,
Figure FDA0003401687580000025
是假设文本当中没有二元词汇b时的主题分布,其中X是文档集合D用二元词汇集合B表示的集合,B是文档中出现的b的集合,α和β是狄利克雷分布的超参数,γ是用于计算二元关系期望值的配比权重,Eb是二元词汇b的关系期望值,
Figure FDA0003401687580000026
是将主题Z分配给集合X时词汇wordj的采样次数,nb|z是将主题z分配给集合X时词汇wordj的采样次数,M是整个X中二元词汇出现的计数。
6.根据权利要求5所述的一种融入句法结构信息的主题挖掘方法,其特征在于,所述主题挖掘模型的主题的多项式分布参数θz和主题词的多项式分布参数
Figure FDA0003401687580000031
由nz,
Figure FDA0003401687580000032
计算所得,
Figure FDA0003401687580000033
Figure FDA0003401687580000034
Eb、K、
Figure FDA0003401687580000035
θz分别表示单词对b的期望值,主题的数量,主题z下的bitem的多项式分布,文集对应主题的多项式分布。
7.根据权利要求2所述的一种融入句法结构信息的主题挖掘方法,其特征在于,所述二元词汇关系信息,具体包括:|B|个三元结构,(wordi,wordj,Eb),wordi,wordj由原始文档D中分词得到,Eb为单词之间的关系期望值。
8.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现如权利要求1-7任一项所述的融入句法结构信息的主题挖掘方法。
9.一种融入句法结构信息的主题挖掘系统,其特征在于,包括:
期望值计算模块:用于获取社交文本数据集,利用依存句法结构对社交文本数据集的二元词汇关系期望值进行计算;
主题挖掘模块:用于将二元词汇关系的期望值输入到二元词汇信息构建的主题挖掘模型中,所述主题挖掘模型采用隐含狄利克雷分布DP-BTM模型;对待挖掘文本的词语进行采样分析,来确定主题词语分布集合;
分析模块:用于根据主题挖掘模型,分析出具体的主题分布结果和主题下词语的分布结果。
CN202111498143.6A 2021-12-09 2021-12-09 一种融入句法结构信息的主题挖掘方法、存储介质及系统 Pending CN114491013A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111498143.6A CN114491013A (zh) 2021-12-09 2021-12-09 一种融入句法结构信息的主题挖掘方法、存储介质及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111498143.6A CN114491013A (zh) 2021-12-09 2021-12-09 一种融入句法结构信息的主题挖掘方法、存储介质及系统

Publications (1)

Publication Number Publication Date
CN114491013A true CN114491013A (zh) 2022-05-13

Family

ID=81492940

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111498143.6A Pending CN114491013A (zh) 2021-12-09 2021-12-09 一种融入句法结构信息的主题挖掘方法、存储介质及系统

Country Status (1)

Country Link
CN (1) CN114491013A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105975453A (zh) * 2015-12-01 2016-09-28 乐视网信息技术(北京)股份有限公司 评论标签提取方法和装置
CN108268602A (zh) * 2017-12-21 2018-07-10 北京百度网讯科技有限公司 分析文本话题点的方法、装置、设备和计算机存储介质
US20180196796A1 (en) * 2017-01-12 2018-07-12 Microsoft Technology Licensing, Llc Systems and methods for a multiple topic chat bot
CN111027323A (zh) * 2019-12-05 2020-04-17 电子科技大学广东电子信息工程研究院 一种基于主题模型和语义分析的实体指称项识别方法
CN112328793A (zh) * 2020-11-09 2021-02-05 北京小米松果电子有限公司 评论文本数据的处理方法、装置及存储介质
CN112632215A (zh) * 2020-12-01 2021-04-09 重庆邮电大学 一种基于词对语义主题模型的社区发现方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105975453A (zh) * 2015-12-01 2016-09-28 乐视网信息技术(北京)股份有限公司 评论标签提取方法和装置
US20180196796A1 (en) * 2017-01-12 2018-07-12 Microsoft Technology Licensing, Llc Systems and methods for a multiple topic chat bot
CN108268602A (zh) * 2017-12-21 2018-07-10 北京百度网讯科技有限公司 分析文本话题点的方法、装置、设备和计算机存储介质
CN111027323A (zh) * 2019-12-05 2020-04-17 电子科技大学广东电子信息工程研究院 一种基于主题模型和语义分析的实体指称项识别方法
CN112328793A (zh) * 2020-11-09 2021-02-05 北京小米松果电子有限公司 评论文本数据的处理方法、装置及存储介质
CN112632215A (zh) * 2020-12-01 2021-04-09 重庆邮电大学 一种基于词对语义主题模型的社区发现方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
JIPENG QIANG等: "Short Text Topic Modeling Techniques, Applications, and Performance: A Survey", 《 IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING》, vol. 34, no. 3, 4 May 2020 (2020-05-04), pages 1427 - 1445 *
侍秋艳: "短文本语义扩展及情感极性分析研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 06, 15 June 2020 (2020-06-15), pages 138 - 1333 *
熊蜀峰等: "面向产品评论分析的短文本情感主题模型", 《自动化学报》, vol. 42, no. 08, 15 March 2016 (2016-03-15), pages 1227 - 1237 *
赵洪慷: "词关系信息的主题分析算法研究", 《重庆邮电大学硕士学位论文》, 26 April 2024 (2024-04-26), pages 1 - 63 *

Similar Documents

Publication Publication Date Title
US9613024B1 (en) System and methods for creating datasets representing words and objects
CN107229610B (zh) 一种情感数据的分析方法及装置
US9880998B1 (en) Producing datasets for representing terms and objects based on automated learning from text contents
Shi et al. Sentiment analysis of Chinese microblogging based on sentiment ontology: a case study of ‘7.23 Wenzhou Train Collision’
CN105589941A (zh) 网络文本的情感信息检测方法和装置
CN103207860A (zh) 舆情事件的实体关系抽取方法和装置
KR20200007713A (ko) 감성 분석에 의한 토픽 결정 방법 및 장치
US9262395B1 (en) System, methods, and data structure for quantitative assessment of symbolic associations
KR102418260B1 (ko) 고객 상담 기록 분석 방법
WO2023196554A1 (en) Systems and methods for generating codes and code books using cosine proximity
Alshahrani et al. Word mover's distance for affect detection
Salnikova et al. Sentiment analysis based on the BERT model: attitudes towards politicians using media data
CN114491013A (zh) 一种融入句法结构信息的主题挖掘方法、存储介质及系统
CN110413899B (zh) 服务器存储新闻的存储资源优化方法及系统
CN115455975A (zh) 基于多模型融合决策提取主题关键词的方法及装置
Gapanyuk et al. Architecture and Implementation of an Intelligent News Analysis System.
Sani et al. Sentiment Analysis of Hausa Language Tweet Using Machine Learning Approach
Narang et al. Twitter Sentiment Analysis on Citizenship Amendment Act in India
Prakash et al. Aspect Based Sentiment Analysis for Amazon Data Products using PAM
Babour et al. Tweet sentiment analytics with context sensitive tone-word lexicon
Swezey et al. Automatic detection of news articles of interest to regional communities
Brewer et al. Age-Suitability Prediction for Literature Using a Recurrent Neural Network Model
CN116431814B (zh) 信息提取方法、装置、电子设备及可读存储介质
He Using Natural Language Processing Techniques to Analyze the Impact of Covid-19 on Stock Market
Iskhakova et al. Analysis of textual content as a mechanism for ensuring safety of the socio-cyberphysical system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination