CN109829151B - 一种基于分层狄利克雷模型的文本分割方法 - Google Patents

一种基于分层狄利克雷模型的文本分割方法 Download PDF

Info

Publication number
CN109829151B
CN109829151B CN201811427181.0A CN201811427181A CN109829151B CN 109829151 B CN109829151 B CN 109829151B CN 201811427181 A CN201811427181 A CN 201811427181A CN 109829151 B CN109829151 B CN 109829151B
Authority
CN
China
Prior art keywords
text
segmentation
word
topic
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811427181.0A
Other languages
English (en)
Other versions
CN109829151A (zh
Inventor
陈建
王红凯
叶卫
龚小刚
王以良
唐锦江
郭亚琼
陈超
孙嘉赛
许敏
喻谦
吴哲翔
姜维
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Zhejiang Electric Power Co Ltd
Original Assignee
State Grid Zhejiang Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Zhejiang Electric Power Co Ltd filed Critical State Grid Zhejiang Electric Power Co Ltd
Priority to CN201811427181.0A priority Critical patent/CN109829151B/zh
Publication of CN109829151A publication Critical patent/CN109829151A/zh
Application granted granted Critical
Publication of CN109829151B publication Critical patent/CN109829151B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)

Abstract

本发明属于文本分割技术领域,尤其涉及一种基于分层狄利克雷模型的文本分割方法,包括以下步骤:S1,获取新闻语料库,对新闻语料库进行预处理,获得整个新闻语料库的分词集合,并对分词集合做词频统计;S2,将统计词频后的结果放入分层狄利克雷过程模型训练,保存训练好的分层狄利克雷过程模型;S3,通过训练好的分层狄利克雷过程模型获取待分割文本中每个词的主题向量,根据主题向量实现文本分割。通过使用本发明,可以实现以下效果:该方法使得文本分割不再依赖于主题个数的人工设置,通过分层狄利克雷过程模型自动生成主题向量,提高了文本分割的效率。

Description

一种基于分层狄利克雷模型的文本分割方法
技术领域
本发明属于文本分割技术领域,尤其涉及一种基于分层狄利克雷模型的文本分割方法。
背景技术
随着网络的快速发展,人们逐渐跨入全新的网络时代,各种电子文本信息更是以爆炸性的速度增长。各类海量信息在给社会带来便利的同时,同时也为文本处理与分析带来了巨大的挑战,比如如何从这海量信息中快速准确的获得有效信息等。文本分割则是以主题相关的原则对文本进行分割,使得各语义段落之间具有最小的相似度,各语义段落内具有最大相似度,据此来寻找不同主题的边界。
文本分割常用的方法有基于词汇聚集的方法、基于语言特征的方法和基于主题模型的方法。基于词汇聚集的方法忽略了词与词之间的关系,因而分割的准确性有限;基于语言特征的方法无法适用于所有的语料库,在特定的领域分割的效果较好。石晶等人提出了概率潜在语义分析模型和潜在狄利克雷模型的分割方法,Ridel等人将TextTiling和LDA模型相结合,通过对LDA模型每次采样得到的主题分布进行统计以确定最终的主题分布,提高了主题模型对文本表示的稳定性。上述这些方法都是基于主题模型的方法,该类方法能够反映出文本语义信息,因此提高了文本分割的准确性。然而基于LDA的TextTiling方法依赖于主题个数的人工设置。在实际应用中,主题个数的设置对文本分割效果的影响很大,如果主题个数设置过高会造成训练过拟合,设置过低会造成对文本的描述不够全面。
传统文本分割算法普遍依赖于主题个数的人工设置,对于大型语料库很难去估计其中的主题个数,容易造成过拟合或者对文本描述不全面。
发明内容
为解决上述问题,本发明提出一种基于分层狄利克雷模型的文本分割方法,使得文本分割不再依赖于主题个数的人工设置。
一种基于分层狄利克雷模型的文本分割方法,包括以下步骤:
S1,获取新闻语料库,对新闻语料库进行预处理,获得整个新闻语料库的分词集合,并对分词集合做词频统计;
S2,将统计词频后的结果放入分层狄利克雷过程模型训练,保存训练好的分层狄利克雷过程模型;
S3,通过训练好的分层狄利克雷过程模型获取待分割文本中每个词的主题向量,根据主题向量实现文本分割。
优选的,在所述步骤S2~S3之间还包括:构建新闻测试文档,通过训练好的分层狄利克雷过程模型对新闻测试文档文本分割,并使用错误率Pk和WindowDiff作为评价指标进行验证。
优选的,所述获取新闻语料库,对新闻语料库进行预处理,获得整个新闻语料库的分词集合,并对分词集合做词频统计包括以下步骤:
S11,利用BeautifulSoup库解析新闻语料库中的HTML文本,保留文本信息;
S12,利用ICTCLAS平台对文本信息进行词语切分,去除无用的介词、虚词、数词词语,提取关键的词语进行处理,在得到新闻语料库的分词集合后利用词袋doc2bow实现词频统计。
优选的,所述将统计词频后的结果放入分层狄利克雷过程模型训练,保存训练好的分层狄利克雷过程模型包括以下步骤:
S21,设新闻语料库中的每篇文本的主题都来源于基分布H,从基分布H中获取该新闻语料库的总体基分布G0~DP(γ,H),其中γ是聚集参数;
S22,构造每一篇文本的主题分布:Gj~DP(α0,G0),j=1,2,…,M,其中G0表示总体基分布,α0为聚集参数;
S23,以每一篇文本的主题分布为基础,构造分层狄利克雷模型:
θji|Gj~Gj,Xjiji~Fθji)
其中Fθji)表示在给定参数θji的情况下,变量Xji的分布;参数θji条件独立服从Gj分布,变量Xji条件独立服从F(θji)分布,Xji表示第j篇文本的第i个词。
优选的,所述通过训练好的分层狄利克雷过程模型获取待分割文本中每个词的主题向量,根据主题向量实现文本分割包括以下步骤:
S31,构建主题向量
对待分割文本进行预处理,得到待分割文本的分词集合并统计词频,将统计词频后的结果放入分层狄利克雷过程模型,分层狄利克雷过程模型在每次迭代推理过程中为每个词分配主题ID,设主题向量表示为:T=(topic1,topic2,…,topicn),其中topict为主题IDt在待分割文本中出现的频率;n表示分层狄利克雷过程模型自动生成的主题个数;
S32,主题向量的余弦相似度计算
以一个句子Sn作为待分割文本中的最小的基本单位,使用分层狄利克雷过程模型得到的主题向量作为句子的表示,得到句子e和f的主题向量Se=(x1,x2,…,xn),Sf=(y1,y2,…,yn),n表示分层狄利克雷过程模型自动生成的主题个数;在相邻句子间的每个位置p,计算相邻句子的相似度Cp
Figure BDA0001881898990000031
其中Se和Sf表示句子e和f的主题向量;
S33,实现文本分割
计算每个位置p的深度值Dp,通过查看左右两侧的最高相似度来测量最小深度值,判断公式:Dp=1/2(hl(p)-Cp+hr(p)-Cp),
其中,函数hl(p)返回序列间隙索引I左侧的最高相似度,hr(p)则返回右侧的最高相似度,基于深度分数搜索局部最大位置,对获得的最大值得分进行排序,如果输入N个段落,则将N个最高深度值作为判断语义段落边界的依据,否则如果深度值大于α-β/2,则预测出边界,其中α表示平均深度值,β表示在深度值的标准偏差。
优选的,所述错误率Pk的计算方法如下:
Pk=P(s)*P(miss)+P(false_alarm)(1-P(s))
其中P(s)表示距离为k的两个句子属于不同语义段落的概率;相反1-P(s)就表示距离为k的两个句子属于相同段落的概率;P(miss)表示算法分割结果缺少一个段落的概率;P(false_alarm)则表示算法分割结果添加一个段落的概率。
优选的,所述WindowDiff的计算方法如下:
Figure BDA0001881898990000041
其中Ref表示文档的真实分割;Hyp表示算法分割;函数B(i,j)表示整句Sentencei和整句Sentencej的边界数量;S_N表示文本中整句的数量;设k为真实分割中片段平均长度的一半。
通过使用本发明,可以实现以下效果:该方法使得文本分割不再依赖于主题个数的人工设置,通过分层狄利克雷过程模型自动生成主题向量,提高了文本分割的效率。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1是本发明实施例的整体流程示意图;
图2是本发明实施例中步骤S1的流程示意图;
图3是本发明实施例中步骤S2的流程示意图;
图4是本发明实施例中步骤S4的流程示意图。
具体实施方式
以下结合附图,对本发明的技术方案作进一步的描述,但本发明并不限于这些实施例。
本发明的主要思想是对待分割文本进行预处理,得到待分割文本的分词集合并统计词频,将统计词频后的结果放入分层狄利克雷过程模型,分层狄利克雷过程模型在每次迭代推理过程中为每个词分配主题ID,从而得到主题向量。该方法使得文本分割不再依赖于主题个数的人工设置,通过分层狄利克雷过程模型自动生成主题向量,提高了文本分割的效率。
如图1所示,本发明实施例提出一种基于分层狄利克雷模型的文本分割方法,包括以下步骤:
S1,获取新闻语料库,对新闻语料库进行预处理,获得整个新闻语料库的分词集合,并对分词集合做词频统计;
如图2所示,具体包括以下步骤:
S11,利用BeautifulSoup库解析新闻语料库中的HTML文本,保留文本信息;
新闻语料库中包含了很多脚本代码,利用Python的BeautifulSoup库解析HTML文本,保留有用的文本信息。
具体还包括:
去除链接地址:链接地址显然也需要在进一步分析前被去掉,可以使用正则表达式达到这个目的。
去除停用词:停用词是在每个句子中都很常见,但对分析没有意义的词。比如英语中的“is”、“but”、“shall”、“by”,汉语中的“的”、“是”、“但是”等。语料中的这些词可以通过匹配文本处理程序包中的停用词列表来去除。
词干化:指的是将单词的派生形式缩减为其词干的过程,已经有许多词干化的方法。词干化主要使用在英文中,如“programming”、“programmer”、“programmed”、“programmable”等词可以词干化为“program”,目的是将含义相同、形式不同的词归并,方便词频统计。
去除标点符号:标点符号显然对文本分析没有帮助,因此需要去除。
S12,利用中科院计算所的ICTCLAS平台对每一篇文本进行词语切分,去除那些出现频率很高但是对文本分割作用不大的介词、虚词、数词词语,提取出关键的名词、形容词等重要词语进行处理,在得到新闻语料库的分词集合后利用gensim的doc2bow实现词频统计。
S2,将统计词频后的结果放入分层狄利克雷过程模型训练,保存训练好的分层狄利克雷过程模型;
如图3所示,具体包括以下步骤:
S21,对整个新闻语料库,为了保证各个文本之间能共享主题,设每篇文本的主题都来源于基分布H,从H中获取该新闻语料库的总体基分布G0~DP(γ,H),其中γ是聚集参数;
S22,构造每一篇文本的主题分布:Gj~DP(α0,G0),j=1,2,…,M,公式中的G0就是S21过程中的主题分布,以G0为基分布,α0为聚集参数;
S23,以每一篇文本的主题分布为基础,构造分层狄利克雷模型:
θji|Gj~Gj,Xjiji~Fθji)
其中Fθji)表示在给定参数θji的情况下,变量Xji的分布;参数θji条件独立服从Gj分布,变量Xji条件独立服从F(θji)分布,Xji表示第j篇文本的第i个词。
S3,构建新闻测试文档,通过训练好的分层狄利克雷过程模型对新闻测试文档文本分割,并使用错误率Pk和WindowDiff(WD)作为评价指标进行验证。
其中,构建新闻测试文档的方法为:从新闻语料库中选取5000篇文档来制作测试语料库,每次从选取的新闻语料库中随机选10篇不同类别的文档,从每篇文档中提取4-10个凸显主题的句子形成段落,将这10个不同类别的段落重新组合成新的文档。重新组合的文档中每一个段落来自不同的类别,拼接的地方就是新文本的主题边界。
具体的,错误率Pk的计算方法如下:
Pk=P(s)*P(miss)+P(false_alarm)*(1-P(s))
其中P(s)表示距离为k的两个句子属于不同语义段落的概率;相反1-P(s)就表示距离为k的两个句子属于相同段落的概率,一般情况下P(s)取0.5;P(miss)表示算法分割结果缺少一个段落的概率;P(false_alarm)则表示算法分割结果添加一个段落的概率。
具体的,WindowDiff(WD)的计算方法如下:
Figure BDA0001881898990000081
其中Ref表示文档的真实分割;Hyp表示算法分割;函数B(i,j)表示整句Sentencei和整句Sentencej的边界数量;S_N表示文本中整句的数量;设k为真实分割中片段平均长度的一半。
使用错误率Pk和WindowDiff(WD)作为评价指标进行验证,当错误率Pk大于其设定阈值或者WindowDiff(WD)大于其设定阈值,则需要对分层狄利克雷过程模型进行重新训练,当错误率Pk小于其设定阈值且WindowDiff(WD)小于其设定阈值,则验证通过。
S4,通过训练好的分层狄利克雷过程模型获取待分割文本中每个词的主题向量,根据主题向量实现文本分割。
如图4所示,包括以下步骤:
S41,构建主题向量
对待分割文本进行预处理,得到待分割文本的分词集合并统计词频,将统计词频后的结果放入分层狄利克雷过程模型,分层狄利克雷过程模型在每次迭代推理过程中为每个词分配主题ID,设主题向量表示为:T=(topic1,topic2,…,topicn),其中topict为主题IDt在待分割文本中出现的频率;n表示分层狄利克雷过程模型自动生成的主题个数;
S42,主题向量的余弦相似度计算
以一个句子Sn作为待分割文本中的最小的基本单位,使用分层狄利克雷过程模型得到的主题向量作为句子的表示,得到句子e和f的主题向量Se=(x1,x2,…,xn),Sf=(y1,y2,…,yn),n表示分层狄利克雷过程模型自动生成的主题个数;在相邻句子间的每个位置p,计算相邻句子的相似度Cp
Figure BDA0001881898990000091
其中Se和Sf表示句子e和f的主题向量;
S43,实现文本分割
计算每个位置p的深度值Dp,通过查看左右两侧的最高相似度来测量最小深度值,判断公式:Dp=1/2(hl(p)-Cp+hr(p)-Cp),
其中,函数hl(p)返回序列间隙索引I左侧的最高相似度,hr(p)则返回右侧的最高相似度,基于深度分数搜索局部最大位置,对获得的最大值得分进行排序,如果输入N个段落,则将N个最高深度值作为判断语义段落边界的依据,否则如果深度值大于α-β/2,则预测出边界,其中α表示平均深度值,β表示在深度值的标准偏差。
本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (6)

1.一种基于分层狄利克雷模型的文本分割方法,其特征在于,包括以下步骤:
S1,获取新闻语料库,对新闻语料库进行预处理,获得整个新闻语料库的分词集合,并对分词集合做词频统计;
S2,将统计词频后的结果放入分层狄利克雷过程模型训练,保存训练好的分层狄利克雷过程模型;
S3,通过训练好的分层狄利克雷过程模型获取待分割文本中每个词的主题向量,根据主题向量实现文本分割,包括:
S31,构建主题向量
对待分割文本进行预处理,得到待分割文本的分词集合并统计词频,将统计词频后的结果放入分层狄利克雷过程模型,分层狄利克雷过程模型在每次迭代推理过程中为每个词分配主题ID,设主题向量表示为:T(topic1,topic2,…,topicn),其中topict为主题IDt在待分割文本中出现的频率;n表示分层狄利克雷过程模型自动生成的主题个数;
S32,主题向量的余弦相似度计算
以一个句子Sn作为待分割文本中的最小的基本单位,使用分层狄利克雷过程模型得到的主题向量作为句子的表示,得到句子e和f的主题向量Se=(x1,x2,…,xn),Sf=(y1,y2,…,yn),n表示分层狄利克雷过程模型自动生成的主题个数;在相邻句子间的每个位置p,计算相邻句子的相似度Cp
其中Se和Sf表示句子e和f的主题向量;
S33,实现文本分割
计算每个位置p的深度值Dp,通过查看左右两侧的最高相似度来测量最小深度值,判断公式:Dp=1/2(hl(p)-Cp+hr(p)-Cp),
其中,函数hl(p)返回序列间隙索引I左侧的最高相似度,hr(p)则返回右侧的最高相似度,基于深度分数搜索局部最大位置,对获得的最大值得分进行排序,如果输入N个段落,则将N个最高深度值作为判断语义段落边界的依据,否则如果深度值大于α-β/2,则预测出边界,其中α表示平均深度值,β表示在深度值的标准偏差。
2.如权利要求1所述的基于分层狄利克雷模型的文本分割方法,其特征在于,在所述步骤S2~S3之间还包括:构建新闻测试文档,通过训练好的分层狄利克雷过程模型对新闻测试文档文本分割,并使用错误率Pk和WindowDiff作为评价指标进行验证。
3.如权利要求1所述的基于分层狄利克雷模型的文本分割方法,其特征在于,所述获取新闻语料库,对新闻语料库进行预处理,获得整个新闻语料库的分词集合,并对分词集合做词频统计包括以下步骤:
S11,利用BeautifulSoup库解析新闻语料库中的HTML文本,保留文本信息;
S12,利用ICTCLAS平台对文本信息进行词语切分,去除无用的介词、虚词、数词词语,提取关键的词语进行处理,在得到新闻语料库的分词集合后利用词袋doc2bow实现词频统计。
4.如权利要求1所述的基于分层狄利克雷模型的文本分割方法,其特征在于,所述将统计词频后的结果放入分层狄利克雷过程模型训练,保存训练好的分层狄利克雷过程模型包括以下步骤:
S21,设新闻语料库中的每篇文本的主题都来源于基分布H,从基分布H中获取该新闻语料库的总体基分布G0~DPγ,H),其中γ是聚集参数;
S22,构造每一篇文本的主题分布:Gj~DPα0,G0),j=1,2,…,M,其中G0表示总体基分布,α0为聚集参数;
S23,以每一篇文本的主题分布为基础,构造分层狄利克雷模型:
θji|Gj~Gj,Xjiji~Fθji)
其中Fθji)表示在给定参数θji的情况下,变量Xji的分布;参数θji条件独立服从Gj分布,变量Xji条件独立服从F(θji)分布,Xji表示第j篇文本的第i个词。
5.如权利要求2所叙述的基于分层狄利克雷模型的文本分割方法,其特征在于,所述错误率Pk的计算方法如下:
Pk=P(s)*P(miss)+P(false_alarm)*1P(s))
其中P(s)表示距离为k的两个句子属于不同语义段落的概率;相反1P(s)就表示距离为k的两个句子属于相同段落的概率;P(miss)表示算法分割结果缺少一个段落的概率;P(false_alarm)则表示算法分割结果添加一个段落的概率。
6.如权利要求2所叙述的基于分层狄利克雷模型的文本分割方法,其特征在于,所述WindowDiff的计算方法如下:
其中Ref表示文档的真实分割;Hyp表示算法分割;函数B(i,j)表示整句Sentencei和整句Sentencej的边界数量;S_N表示文本中整句的数量;设k为真实分割中片段平均长度的一半。
CN201811427181.0A 2018-11-27 2018-11-27 一种基于分层狄利克雷模型的文本分割方法 Active CN109829151B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811427181.0A CN109829151B (zh) 2018-11-27 2018-11-27 一种基于分层狄利克雷模型的文本分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811427181.0A CN109829151B (zh) 2018-11-27 2018-11-27 一种基于分层狄利克雷模型的文本分割方法

Publications (2)

Publication Number Publication Date
CN109829151A CN109829151A (zh) 2019-05-31
CN109829151B true CN109829151B (zh) 2023-04-21

Family

ID=66859844

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811427181.0A Active CN109829151B (zh) 2018-11-27 2018-11-27 一种基于分层狄利克雷模型的文本分割方法

Country Status (1)

Country Link
CN (1) CN109829151B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110427959A (zh) * 2019-06-14 2019-11-08 合肥工业大学 投诉文本的分类方法、系统和存储介质
CN110378136A (zh) * 2019-07-10 2019-10-25 华东师范大学 一种文本安全分割方法
CN111199150B (zh) * 2019-12-30 2024-04-16 科大讯飞股份有限公司 文本分割方法、相关设备及可读存储介质
CN111813935B (zh) * 2020-06-22 2024-04-30 贵州大学 一种基于层次狄利克雷多项分配模型的多源文本聚类方法
CN113673255B (zh) * 2021-08-25 2023-06-30 北京市律典通科技有限公司 文本功能区域拆分方法、装置、计算机设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740354A (zh) * 2016-01-26 2016-07-06 中国人民解放军国防科学技术大学 自适应潜在狄利克雷模型选择的方法及装置
CN107943824A (zh) * 2017-10-17 2018-04-20 广东广业开元科技有限公司 一种基于lda的大数据新闻分类方法、系统及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101710333B (zh) * 2009-11-26 2012-07-04 西北工业大学 基于遗传算法的网络文本分割方法
CN103870447A (zh) * 2014-03-11 2014-06-18 北京优捷信达信息科技有限公司 一种基于隐含狄利克雷模型的关键词抽取方法
CN105677769B (zh) * 2015-12-29 2018-01-05 广州神马移动信息科技有限公司 一种基于潜在狄利克雷分配(lda)模型的关键词推荐方法和系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740354A (zh) * 2016-01-26 2016-07-06 中国人民解放军国防科学技术大学 自适应潜在狄利克雷模型选择的方法及装置
CN107943824A (zh) * 2017-10-17 2018-04-20 广东广业开元科技有限公司 一种基于lda的大数据新闻分类方法、系统及装置

Also Published As

Publication number Publication date
CN109829151A (zh) 2019-05-31

Similar Documents

Publication Publication Date Title
CN109829151B (zh) 一种基于分层狄利克雷模型的文本分割方法
US11301637B2 (en) Methods, devices, and systems for constructing intelligent knowledge base
CN108121700B (zh) 一种关键词提取方法、装置及电子设备
WO2019184217A1 (zh) 热点事件分类方法、装置及存储介质
CN109815487B (zh) 文本质检方法、电子装置、计算机设备及存储介质
CN109299280B (zh) 短文本聚类分析方法、装置和终端设备
JP6335898B2 (ja) 製品認識に基づく情報分類
CN115630640B (zh) 一种智能写作方法、装置、设备及介质
CN106445915B (zh) 一种新词发现方法及装置
CN110083832B (zh) 文章转载关系的识别方法、装置、设备及可读存储介质
CN107688630B (zh) 一种基于语义的弱监督微博多情感词典扩充方法
CN113032528B (zh) 案件分析方法、装置、设备及存储介质
CN109902290B (zh) 一种基于文本信息的术语提取方法、系统和设备
CN110909531A (zh) 信息安全的甄别方法、装置、设备及存储介质
CN104850617A (zh) 短文本处理方法及装置
CN111177375A (zh) 一种电子文档分类方法及装置
Pratiwi et al. Implementation of rumor detection on twitter using the svm classification method
CN115470313A (zh) 信息检索及模型训练方法、装置、设备和存储介质
CN111444713B (zh) 新闻事件内实体关系抽取方法及装置
CN110019763B (zh) 文本过滤方法、系统、设备及计算机可读存储介质
CN110929022A (zh) 一种文本摘要生成方法及系统
CN111639189B (zh) 一种基于文本内容特征的文本图构建方法
CN112163415A (zh) 针对反馈内容的用户意图识别方法、装置及电子设备
CN110069772B (zh) 预测问答内容的评分的装置、方法及存储介质
WO2019085118A1 (zh) 基于主题模型的关联词分析方法、电子装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant