CN115630160A - 一种基于半监督共现图模型的争议焦点聚类方法及系统 - Google Patents

一种基于半监督共现图模型的争议焦点聚类方法及系统 Download PDF

Info

Publication number
CN115630160A
CN115630160A CN202211568275.6A CN202211568275A CN115630160A CN 115630160 A CN115630160 A CN 115630160A CN 202211568275 A CN202211568275 A CN 202211568275A CN 115630160 A CN115630160 A CN 115630160A
Authority
CN
China
Prior art keywords
dispute focus
word
words
supervised
semi
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211568275.6A
Other languages
English (en)
Other versions
CN115630160B (zh
Inventor
李鑫
谷依韩
翁洋
杨鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202211568275.6A priority Critical patent/CN115630160B/zh
Publication of CN115630160A publication Critical patent/CN115630160A/zh
Application granted granted Critical
Publication of CN115630160B publication Critical patent/CN115630160B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于半监督共现图模型的争议焦点聚类方法及系统,获取第一数据集,所述第一数据集为争议焦点短文本;对所述第一数据集进行预处理,获得第二数据集,并基于所述第二数据集,构建半监督共现图模型;按照词频由高到低的方法,从所述半监督共现图模型中提取主题词群;根据争议焦点的类别,对所述主题词群进行类别分配。本发明的有益效果为通过采用半监督共现图模型的方法对争议焦点的文本数据进行处理,提避免了文本数据出现的稀疏性以及高维性,提高了对争议焦点处理的准确性。

Description

一种基于半监督共现图模型的争议焦点聚类方法及系统
技术领域
本发明涉及裁判文书分类和检索技术领域,具体而言,涉及一种基于半监督共现图模型的争议焦点聚类方法及系统。
背景技术
裁判文书的公开,既为人民群众预测裁判结果、建立合理预期提供了可能性,又为人民群众朴素地判断结果公正与否提供了路径。于审判人员而言,在“案多人少”的背景下借鉴已决类似案件的裁判规则、裁判尺度,是提高案件审判效率的重要手段,也是降低职业风险的路径之一。不论是人民群众还是审判人员,从海量的公开案件中找到与当前案件类似的已决历史案件,是分析、借鉴、参考类似案例的基础。
在互联网上公布裁判文书的举措,使得人民群众能轻易地搜索案件,但是如何在如此海量的文书中获得类案搜索结果,是一个重要且基础的问题。可以通过层级、裁判时间、案件类型、案由等结构化化信息进行案件检索,但这些信息要么与案件实体特征关联性不强,要么所指向的案件数量过多,超出人力可阅读的数量范畴,无法实现结果准确、数量可控的类案检索,与类案检索的目标相去较远。
争议焦点是纠纷各方冲突的核心,举证质证、辩论、裁判说理无不以此为核心,是作为判断、检索类案的维度之一。争议焦点主要存在于民事案件裁判文书中,呈现出显著的类型化特征。相似的争议焦点对应的案件一般具有更高的相似度,至少在争议焦点指向的事实、法律适用上具有较高的相似度,在检索过程中选择待决案件所属的争议焦点类别,可以大大减小案件范围,实现更快速准确的类案检索。
因此,在常规的技术中,通常运用机器学习的方法来识别表达形式不同、但法律层面上语义内容相似的同质化的争议焦点组,将裁判文书的检索结构进一步细化,以此作为基于争议焦点的类案检索的基础是非常重要的;但是在采用这种方法对争议焦点进行处理的过程中,将争议焦点作为文本数据,在将文本数据向量化,不仅容易出现稀疏性与高维性的现象,且降低了传统聚类算法在文本数据上的准确度。
有鉴于此,特提出本申请。
发明内容
本发明所要解决的技术问题是现有技术中,采用传统机器学习方法对争议焦点处理造成争议焦点文本的稀疏性以及高维性,目的在于提供一种基于半监督共现图模型的争议焦点聚类方法及系统,能够提高在对争议焦点处理的过程中,避免出现争议焦点短文本的稀疏性以及高维性。
本发明通过下述技术方案实现:
一种基于半监督共现图模型的争议焦点聚类方法,方法步骤包括:
获取第一数据集,所述第一数据集为争议焦点短文本;
对所述第一数据集进行预处理,获得第二数据集,并基于所述第二数据集,构建半监督共现图模型;
按照词频由高到低的方法,从所述半监督共现图模型中提取主题词群;
根据争议焦点的类别,对所述主题词群进行类别分配。
传统的在对争议焦点进行分组的时候,通常采用的是通过机器学习的方法识别表达形式不同、但法律层面上语义内容相似的同质化的争议焦点组,将裁判文书的检索结构进一步细化,但是在采用这种方法对争议焦点短文本进行处理的时候,通常在处理的过程中,容易出现稀疏性与高维性,降低了对文本数据处理的准确度;本发明提供了一种基于半监督共现图模型的争议焦点聚类方法,通过采用半监督共现图模型的方法对争议焦点的文本数据进行处理,避免了文本数据出现的稀疏性以及高维性,提高了对争议焦点处理的准确性。
优选地,对所述第一数据进行预处理的子步骤包括:
去除所述第一数据集中的标点符号、数字以及特殊字符,获得第一子数据集;
将所述第一子数据集进行分词处理,获得第二子数据集;
采用停用词表识别所述第二子数据集中的停用词,将所述第二子数据集中的停用词进行删除,获得第二数据集。
优选地,基于所述第二数据集,构建半监督共现图模型的具体子步骤包括:
提取所述第二数据集中,争议焦点词的频数以及词与词之间的共现频数;
基于所述频数以及共现频数,构建所述半监督共现图模型。
优选地,所述主题词群的提取方法包括:
按照词频由高到低的方法,识别所述半监督共现图模型中的种子词,所述种子词为一个主题词群中出现频率最高的词;
将与所述种子词紧密相连的词作为种子词的附属词,将种子词与其附属词构建为一个主题词群;
在所述半监督共现图模型中,对剩余的词重复上述步骤,直到所述半监督共现图模型中的词识别完毕,获得主题词群。
优选地,所述主题词群提取还包括判断所述主题词群是否需要细分,具体操作步骤包括:
选择任意一个主题词群,判断该主题词群内的种子词出现的频数是否大于参数ω,若是,则该种子词是该主题词群这个类别的代表词,不需要进行细分;
否则,则根据在所述主题词群中,种子词与附属词的平均频数将该种子词在所在的主题词群中进行划分。
优选地,对所述第二数据集中的领域特定停用词进行识别,具体识别计算式为:
Figure 576277DEST_PATH_IMAGE001
Figure 877946DEST_PATH_IMAGE002
为示性函数,即当
Figure 504099DEST_PATH_IMAGE003
时为1,否则为0;
Figure 891218DEST_PATH_IMAGE004
为标记数据中
Figure 792178DEST_PATH_IMAGE005
中词w的频数,α是衡量词w在标记数据
Figure 682774DEST_PATH_IMAGE005
是否为一个常见词的参数,β是衡量词w在所有类别标记数据是否为常见词汇的参数,γ是衡量词w在所有类别的标记数据中频率差距是否过大的参数。
优选地,对所述主题词群进行类别分配的具体操作步骤包括:
获取争议焦点的类别,基于所述争议焦点的类别,提取在所述主题词群中,与所述争议焦点的类别重合词数最多的主题词群;
判断该主题词群的个数,判断该争议焦点的主题词群。
优选地,判断该主题词群的个数,判断该争议焦点的主题词群的具体子步骤包括:
若该主题词群为一个,则该主题词为该争议焦点的主题词群;
若该主题词群为多个,则将多个主题词群中,与争议焦点重合词数最少的主题词群作为该争议焦点的主题词群。
优选地,所述争议焦点短文本具体为非通用法律类争议焦点短文本以及事实类争议焦点短文本。
本发明还提供了一种基于半监督共现图模型的争议焦点聚类系统,包括数据获取模块、模型构建模块、主题词提取模块以及类别分配模块,
所述数据获取模块,用于获取第一数据集,所述第一数据集为争议焦点短文本;
所述模型构建模块,用于对所述第一数据集进行预处理,获得第二数据集,并基于所述第二数据集,构建半监督共现图模型;
所述主题词提取模块,用于按照词频由高到低的方法,从所述半监督共现图模型中提取主题词群;
所述类别分配模块,用于根据争议焦点的类别,对所述主题词群进行类别分配。
本发明与现有技术相比,具有如下的优点和有益效果:
本发明实施例提供的一种基于半监督共现图模型的争议焦点聚类方法及系统,通过采用半监督共现图模型的方法对争议焦点的文本数据进行处理,提避免了文本数据出现的稀疏性以及高维性,提高了对争议焦点处理的准确性。
附图说明
为了更清楚地说明本发明示例性实施方式的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为聚类方法示意图;
图2为聚类流程示意图;
图3为模型示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
在以下描述中,为了提供对本发明的透彻理解阐述了大量特定细节。然而,对于本领域普通技术人员显而易见的是:不必采用这些特定细节来实行本发明。在其他实施例中,为了避免混淆本本发明,未具体描述公知的结构、电路、材料或方法。
在整个说明书中,对“一个实施例”、“实施例”、“一个示例”或“示例”的提及意味着:结合该实施例或示例描述的特定特征、结构或特性被包含在本发明至少一个实施例中。因此,在整个说明书的各个地方出现的短语“一个实施例”、“实施例”、“一个示例”或“示例”不一定都指同一实施例或示例。此外,可以以任何适当的组合和、或子组合将特定的特征、结构或特性组合在一个或多个实施例或示例中。此外,本领域普通技术人员应当理解,在此提供的示图都是为了说明的目的,并且示图不一定是按比例绘制的。这里使用的术语“和/或”包括一个或多个相关列出的项目的任何和所有组合。
实施例一
本实施例公开了一种基于半监督共现图模型的争议焦点聚类方法,本实施例主要是针对现有技术中,采用机器学习方法处理争议焦点短文本出现的稀疏性以及高维性,降低了对争议焦点分类的准确性,本实施例通过采用半监督共现图模型的方法对争议焦点的文本数据进行处理,提避免了文本数据出现的稀疏性以及高维性,提高了对争议焦点处理的准确性,具体的流程如图1、图2所示,方法步骤包括:
S1:获取第一数据集,所述第一数据集为争议焦点短文本;
在步骤S1中,本实施例的争议焦点短文本具体为非通用法律类争议焦点短文本以及事实类争议焦点短文本,因为在非通用法律类争议焦点短文本以及事实类争议焦点短文本中,不同案由涉及的非通用法律类争议焦点和事实类争议焦点组各有不同,难以提前进行整理。其中,在相同三级案由下的四级案由与该三级案由的事实类争议焦点组可能存在重复,进行类案检索的价值较大。而非通用法律类争议焦点,则具有较大的借鉴意义。
S2:对所述第一数据集进行预处理,获得第二数据集,并基于所述第二数据集,构建半监督共现图模型;
对所述第一数据进行预处理的子步骤包括:
去除所述第一数据集中的标点符号、数字以及特殊字符,获得第一子数据集;这类信息对于争议焦点聚类,换句话说,对于识别争议焦点之间的相似性的贡献较小,且带来了较大的误差与噪声影响,删除此类信息与保留相对比裨益更大;
将所述第一子数据集进行分词处理,获得第二子数据集;争议焦点是一句描述争议双方冲突核心的句子,然而与许多的自然语言处理方法类似,本实施例中的方法也将数据表示为词集的形式;
采用停用词表识别所述第二子数据集中的停用词,将所述第二子数据集中的停用词进行删除,获得第二数据集;分词之后的词集中还有一些对于识别争议焦点类别没有作用或者作用很小,出现频率较高的停用词,停用词所带来的语义信息远远大于其所含的噪声,为了避免这种影响,需将其删除。
基于所述第二数据集,构建半监督共现图模型的具体子步骤包括:
提取所述第二数据集中,争议焦点词的频数以及词与词之间的共现频数;
基于所述频数以及共现频数,构建所述半监督共现图模型。
在半监督共现图模型的构建过程中,构建的最终模型的表达式为G=(V,E),图中的节点v∈V代表一个词,点的权重f(v)为对应的词在语料库D中出现的频数,两个节点w,v之间的边e∈E则是代表对应的两个词w,v在D中所有的争议焦点中的共现联系,其权重f(w,v)为词w,v在D中所有争议焦点的共现频数之和,两个词每同时在一个争议焦点中出现一次,即为共现一次,其中构建的半监督共现图模型,主要是为了捕获争议焦点中词的重要性与词之间的关联程度,以用来找寻争议焦点中可能的主题,具体模型的示意图如图3所示,词“破裂”和词“夫妻”则为种子词,在该图中,其中框代表节点,其中框内的数字为词的频数信息,节点与节点之间的数字代表对应的词之间的共现频数,不同虚线框内的两个区域为识别出的两个不同的主题词群。
在对短文本处理的过程中,除了通常运用的停用词表对相关的停用词删除外,在针对某个类别文献的时候,会出现该类别相关的停用词,叫做领域特定停用词,领域特定停用词的存在,会对争议焦点短文本数据的处理带来影响,降低其处理的准确性,因此,在对第二数据集处理的时候,除了对停用词进行处理外,还需要对领域特定停用词进行删除,具体操作如下:
对所述第二数据集中的领域特定停用词进行识别,具体识别计算式为:
Figure 558457DEST_PATH_IMAGE001
Figure 698451DEST_PATH_IMAGE002
为示性函数,即当
Figure 871943DEST_PATH_IMAGE003
时为1,否则为0;
Figure 148204DEST_PATH_IMAGE004
为标记数据中
Figure 116160DEST_PATH_IMAGE005
中词w的频数,α是衡量词w在标记数据
Figure 743450DEST_PATH_IMAGE005
是否为一个常见词的参数,β是衡量词w在所有类别标记数据是否为常见词汇的参数,γ是衡量词w在所有类别的标记数据中频率差距是否过大的参数;若词w满足该准则,则将词w认为停用词,并将其在图对应的节点与边删除。
在对所有停用词进行处理的过程中,本实施例采用的是标记的方法对停用词进行处理,假设全部的争议焦点数据,即语料库为
Figure 455055DEST_PATH_IMAGE006
,含有n个争议焦点数据,其中带有类别信息的标记数据为
Figure 428564DEST_PATH_IMAGE007
,即为停用词类别的数据信息,其中每个
Figure 833001DEST_PATH_IMAGE005
为同一个类别的全部标记数据组成,且有
Figure 416429DEST_PATH_IMAGE008
,争议焦点d中含有的词为
Figure 744773DEST_PATH_IMAGE009
S3:按照词频由高到低的方法,从所述半监督共现图模型中提取主题词群;
在步骤S3中,是将词频最高的点先识别为种子词同时与种子词的紧密相连的词可以认为是种子词的附属词,种子词与附属词共同构成一个类别的主题词群,具体提取方法包括:
按照词频由高到低的方法,识别所述半监督共现图模型中的种子词,所述种子词为一个主题词群中出现频率最高的词;
将与所述种子词紧密相连的词作为种子词的附属词,将种子词与其附属词构建为一个主题词群;
在所述半监督共现图模型中,对剩余的词重复上述步骤,直到所述半监督共现图模型中的词识别完毕,获得主题词群。
具体判别词v为种子词w的附属词的方法为准则2:
Figure 730047DEST_PATH_IMAGE010
以图模型中频数最高的词作为种子词,并根据上述准则找到种子词的附属词共同作为一个主题词群,这便有了第一个主题词群。
随后,将抽取出的主题词群中的词标记为种子词非备选词,在图模型中没有标记为种子词非备选词的节点中找到频数最高的词作为种子词,在根据该准则寻找附属词,重复上述过程,找到所有的主题表示词群
Figure 570964DEST_PATH_IMAGE011
从不同类别的争议焦点例子:“夫妻感情是否破裂”与“夫妻感情是否破裂,是否符合法定的解除婚姻关系的条件”中可以看出,不同类别可能会共享高频词,这些词在不同类别的争议焦点中频繁出现,的确能够代表不同类别,在算法中容易将这些不同的类别识别为同一类。为避免这种现象,本实施例结合了部分放学的先验知识,根据少量标记数据来半监督地判定得到的主题词群是否还需要进行划分,具体操作步骤包括:
选择任意一个主题词群,判断该主题词群内的种子词出现的频数是否大于参数ω,若是,则该种子词是该主题词群这个类别的代表词,不需要进行细分;
否则,则根据在所述主题词群中,种子词与附属词的平均频数将该种子词在所在的主题词群中进行划分。
考虑主题词群
Figure 907267DEST_PATH_IMAGE012
的种子词
Figure 960674DEST_PATH_IMAGE013
在这些标记数据类别中的的频数,若在某个类中种子词平均频数大于一个参数ω,则认为该种子词应该是标记数据中这个类别的代表词,如果不止一个类别如此,则根据种子词与附属词在这些类别中的平均频数而将该种子词所在的主题表示词再进行划分,不妨设:
Figure 580880DEST_PATH_IMAGE014
,其中
Figure 61540DEST_PATH_IMAGE015
Figure 681877DEST_PATH_IMAGE016
分别为标记数据
Figure 70133DEST_PATH_IMAGE017
中的争议焦点数量与
Figure 764420DEST_PATH_IMAGE017
中词
Figure 760189DEST_PATH_IMAGE013
的频数。若
Figure 805505DEST_PATH_IMAGE018
,那么令
Figure 731873DEST_PATH_IMAGE019
,则所有的
Figure 795513DEST_PATH_IMAGE020
Figure 883554DEST_PATH_IMAGE021
构成
Figure 681746DEST_PATH_IMAGE012
的一个有重叠的划分,并且把该划分作为新的主题表示词群代替
Figure 208542DEST_PATH_IMAGE012
,得到最后的主题表示词。这时每个主题表示词群可以看作一个类别的主题,出于种子词的频数的考虑,种子词频数靠后的主题表示词可以进行增删,灵活调整类别的个数,并将最后得到的所有主题词群结果记为
Figure 893733DEST_PATH_IMAGE011
S4:根据争议焦点的类别,对所述主题词群进行类别分配。
在步骤S4中,先求出与一个争议焦点重合词数最多的主题词群,如果这样的词群仅有一个,那么就把这个词群当作该争议焦点的主题词,若重合词数量最多的词群不止一个,那么再考虑词群中词的个数,把词数最少的词群作为该争议焦点的主题词。
对所述主题词群进行类别分配的具体操作步骤包括:
获取争议焦点的类别,基于所述争议焦点的类别,提取在所述主题词群中,与所述争议焦点的类别重合词数最多的主题词群;
判断该主题词群的个数,判断该争议焦点的主题词群。
判断该主题词群的个数,判断该争议焦点的主题词群的具体子步骤包括:
若该主题词群为一个,则该主题词为该争议焦点的主题词群;
若该主题词群为多个,则将多个主题词群中,与争议焦点重合词数最少的主题词群作为该争议焦点的主题词群;具体判断的方法为:
Figure 152676DEST_PATH_IMAGE022
,其中
Figure 172584DEST_PATH_IMAGE023
表示主题词群
Figure 440755DEST_PATH_IMAGE024
中词的数量,
Figure 806883DEST_PATH_IMAGE025
表示争议焦点d与主题词群
Figure 236727DEST_PATH_IMAGE024
中重合的词的数量。
本实施例公开的一种基于半监督共现图模型的争议焦点聚类方法,具有较好的解释性,较快的运算速度,易直观调整类别数量,解决了短文本聚类中的高维性与稀疏性;算法整合了先验知识,进行了特定案由下的停用词识别,主题词群的细分,更加充分利用已有信息;以直观明了的方式来确定种子词与附属词,并大致能对较为重要的类别进行优先提取;类别分配根据主题词群进行,更加方便后续的使用与维护。
实施例二
本实施例公开了一种基于半监督共现图模型的争议焦点聚类系统,本实施例是为了实现如实施例一中的聚类方法,包括数据获取模块、模型构建模块、主题词提取模块以及类别分配模块,
所述数据获取模块,用于获取第一数据集,所述第一数据集为争议焦点短文本;
所述模型构建模块,用于对所述第一数据集进行预处理,获得第二数据集,并基于所述第二数据集,构建半监督共现图模型;
所述主题词提取模块,用于按照词频由高到低的方法,从所述半监督共现图模型中提取主题词群;
所述类别分配模块,用于根据争议焦点的类别,对所述主题词群进行类别分配。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于半监督共现图模型的争议焦点聚类方法,其特征在于,方法步骤包括:
获取第一数据集,所述第一数据集为争议焦点短文本;
对所述第一数据集进行预处理,获得第二数据集,并基于所述第二数据集,构建半监督共现图模型;
按照词频由高到低的方法,从所述半监督共现图模型中提取主题词群;
根据争议焦点的类别,对所述主题词群进行类别分配。
2.根据权利要求1所述的一种基于半监督共现图模型的争议焦点聚类方法,其特征在于,对所述第一数据进行预处理的子步骤包括:
去除所述第一数据集中的标点符号、数字以及特殊字符,获得第一子数据集;
将所述第一子数据集进行分词处理,获得第二子数据集;
采用停用词表识别所述第二子数据集中的停用词,将所述第二子数据集中的停用词进行删除,获得第二数据集。
3.根据权利要求2所述的一种基于半监督共现图模型的争议焦点聚类方法,其特征在于,基于所述第二数据集,构建半监督共现图模型的具体子步骤包括:
提取所述第二数据集中,争议焦点词的频数以及词与词之间的共现频数;
基于所述频数以及共现频数,构建所述半监督共现图模型。
4.根据权利要求2所述的一种基于半监督共现图模型的争议焦点聚类方法,其特征在于,所述主题词群的提取方法包括:
按照词频由高到低的方法,识别所述半监督共现图模型中的种子词,所述种子词为一个主题词群中出现频率最高的词;
将与所述种子词紧密相连的词作为种子词的附属词,将种子词与其附属词构建为一个主题词群;
在所述半监督共现图模型中,对剩余的词重复上述步骤,直到所述半监督共现图模型中的词识别完毕,获得主题词群。
5.根据权利要求4所述的一种基于半监督共现图模型的争议焦点聚类方法,其特征在于,所述主题词群提取还包括判断所述主题词群是否需要细分,具体操作步骤包括:
选择任意一个主题词群,判断该主题词群内的种子词出现的频数是否大于参数ω,若是,则该种子词是该主题词群这个类别的代表词,不需要进行细分;
否则,则根据在所述主题词群中,种子词与附属词的平均频数将该种子词在所在的主题词群中进行划分。
6.根据权利要求5所述的一种基于半监督共现图模型的争议焦点聚类方法,其特征在于,对所述第二数据集中的领域特定停用词进行识别,具体识别计算式为:
Figure 985997DEST_PATH_IMAGE001
Figure 323438DEST_PATH_IMAGE002
为示性函数,即当
Figure 701329DEST_PATH_IMAGE003
时为1,否则为0;
Figure 82501DEST_PATH_IMAGE004
为标记数据中
Figure 342581DEST_PATH_IMAGE005
中词w的频数,α是衡量词w在标记数据
Figure 155816DEST_PATH_IMAGE005
是否为一个常见词的参数,β是衡量词w在所有类别标记数据是否为常见词汇的参数,γ是衡量词w在所有类别的标记数据中频率差距是否过大的参数。
7.根据权利要求1所述的一种基于半监督共现图模型的争议焦点聚类方法,其特征在于,对所述主题词群进行类别分配的具体操作步骤包括:
获取争议焦点的类别,基于所述争议焦点的类别,提取在所述主题词群中,与所述争议焦点的类别重合词数最多的主题词群;
判断该主题词群的个数,判断该争议焦点的主题词群。
8.根据权利要求7所述的一种基于半监督共现图模型的争议焦点聚类方法,其特征在于,判断该主题词群的个数,判断该争议焦点的主题词群的具体子步骤包括:
若该主题词群为一个,则该主题词为该争议焦点的主题词群;
若该主题词群为多个,则将多个主题词群中,与争议焦点重合词数最少的主题词群作为该争议焦点的主题词群。
9.根据权利要求1~8任一所述的一种基于半监督共现图模型的争议焦点聚类方法,其特征在于,所述争议焦点短文本具体为非通用法律类争议焦点短文本以及事实类争议焦点短文本。
10.一种基于半监督共现图模型的争议焦点聚类系统,其特征在于,包括数据获取模块、模型构建模块、主题词提取模块以及类别分配模块,
所述数据获取模块,用于获取第一数据集,所述第一数据集为争议焦点短文本;
所述模型构建模块,用于对所述第一数据集进行预处理,获得第二数据集,并基于所述第二数据集,构建半监督共现图模型;
所述主题词提取模块,用于按照词频由高到低的方法,从所述半监督共现图模型中提取主题词群;
所述类别分配模块,用于根据争议焦点的类别,对所述主题词群进行类别分配。
CN202211568275.6A 2022-12-08 2022-12-08 一种基于半监督共现图模型的争议焦点聚类方法及系统 Active CN115630160B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211568275.6A CN115630160B (zh) 2022-12-08 2022-12-08 一种基于半监督共现图模型的争议焦点聚类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211568275.6A CN115630160B (zh) 2022-12-08 2022-12-08 一种基于半监督共现图模型的争议焦点聚类方法及系统

Publications (2)

Publication Number Publication Date
CN115630160A true CN115630160A (zh) 2023-01-20
CN115630160B CN115630160B (zh) 2023-07-07

Family

ID=84910076

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211568275.6A Active CN115630160B (zh) 2022-12-08 2022-12-08 一种基于半监督共现图模型的争议焦点聚类方法及系统

Country Status (1)

Country Link
CN (1) CN115630160B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040064438A1 (en) * 2002-09-30 2004-04-01 Kostoff Ronald N. Method for data and text mining and literature-based discovery
US20110103682A1 (en) * 2009-10-29 2011-05-05 Xerox Corporation Multi-modality classification for one-class classification in social networks
CN103399901A (zh) * 2013-07-25 2013-11-20 三星电子(中国)研发中心 一种关键词抽取方法
CN103455552A (zh) * 2013-08-01 2013-12-18 百度在线网络技术(北京)有限公司 基于兴趣词的兴趣点挖掘方法及装置
CN105608130A (zh) * 2015-12-16 2016-05-25 小米科技有限责任公司 获得情感词知识库的方法、装置及终端
CN109241276A (zh) * 2018-07-11 2019-01-18 河海大学 文本中词语分类方法、言语创造性评价方法和系统
CN110209721A (zh) * 2019-06-04 2019-09-06 南方科技大学 判决文书调取方法、装置、服务器及存储介质
CN111090731A (zh) * 2019-12-20 2020-05-01 山大地纬软件股份有限公司 基于主题聚类的电力舆情摘要提取优化方法及系统
WO2020131004A1 (en) * 2017-12-29 2020-06-25 Nokia Technologies Oy Domain-independent automated processing of free-form text
CN112287102A (zh) * 2019-08-29 2021-01-29 北京京东尚科信息技术有限公司 数据挖掘方法和装置
CN113449108A (zh) * 2021-06-30 2021-09-28 南京理工大学 一种基于层级化聚类的金融新闻流突发检测方法
CN114662477A (zh) * 2022-03-10 2022-06-24 平安科技(深圳)有限公司 基于中医对话的停用词表生成方法、装置及存储介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040064438A1 (en) * 2002-09-30 2004-04-01 Kostoff Ronald N. Method for data and text mining and literature-based discovery
US20110103682A1 (en) * 2009-10-29 2011-05-05 Xerox Corporation Multi-modality classification for one-class classification in social networks
CN103399901A (zh) * 2013-07-25 2013-11-20 三星电子(中国)研发中心 一种关键词抽取方法
CN103455552A (zh) * 2013-08-01 2013-12-18 百度在线网络技术(北京)有限公司 基于兴趣词的兴趣点挖掘方法及装置
CN105608130A (zh) * 2015-12-16 2016-05-25 小米科技有限责任公司 获得情感词知识库的方法、装置及终端
WO2020131004A1 (en) * 2017-12-29 2020-06-25 Nokia Technologies Oy Domain-independent automated processing of free-form text
CN109241276A (zh) * 2018-07-11 2019-01-18 河海大学 文本中词语分类方法、言语创造性评价方法和系统
CN110209721A (zh) * 2019-06-04 2019-09-06 南方科技大学 判决文书调取方法、装置、服务器及存储介质
CN112287102A (zh) * 2019-08-29 2021-01-29 北京京东尚科信息技术有限公司 数据挖掘方法和装置
CN111090731A (zh) * 2019-12-20 2020-05-01 山大地纬软件股份有限公司 基于主题聚类的电力舆情摘要提取优化方法及系统
CN113449108A (zh) * 2021-06-30 2021-09-28 南京理工大学 一种基于层级化聚类的金融新闻流突发检测方法
CN114662477A (zh) * 2022-03-10 2022-06-24 平安科技(深圳)有限公司 基于中医对话的停用词表生成方法、装置及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
马治涛: "文本分类停用词处理和特征选择技术研究", pages 138 - 1487 *

Also Published As

Publication number Publication date
CN115630160B (zh) 2023-07-07

Similar Documents

Publication Publication Date Title
CN107609121B (zh) 基于LDA和word2vec算法的新闻文本分类方法
WO2017167067A1 (zh) 网页文本分类的方法和装置,网页文本识别的方法和装置
CN107992633A (zh) 基于关键词特征的电子文档自动分类方法及系统
CN109885675B (zh) 基于改进lda的文本子话题发现方法
CN108920482B (zh) 基于词汇链特征扩展和lda模型的微博短文本分类方法
CN111191051B (zh) 一种基于中文分词技术的应急知识图谱的构建方法及系统
CN113962293A (zh) 一种基于LightGBM分类与表示学习的姓名消歧方法和系统
CN110705247A (zh) 基于χ2-C的文本相似度计算方法
CN111008530A (zh) 一种基于文档分词的复杂语义识别方法
CN107463715A (zh) 基于信息增益的英文社交媒体账号分类方法
CN113033183A (zh) 一种基于统计量与相似性的网络新词发现方法及系统
CN110110087A (zh) 一种基于二分类器的用于法律文本分类的特征工程方法
CN112434164A (zh) 一种兼顾话题发现和情感分析的网络舆情分析方法及系统
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
CN110245234A (zh) 一种基于本体和语义相似度的多源数据样本关联方法
Bokaei et al. Improved deep persian named entity recognition
CN107908749A (zh) 一种基于搜索引擎的人物检索系统及方法
CN108804524B (zh) 基于层次化分类体系的情感判别和重要性划分方法
CN111597423A (zh) 一种文本分类模型可解释性方法的性能评价方法及装置
CN108763487B (zh) 一种基于Mean Shift的融合词性和句子信息的词表示方法
CN115630160A (zh) 一种基于半监督共现图模型的争议焦点聚类方法及系统
CN109344402B (zh) 一种新术语自动发现识别方法
CN113934910A (zh) 一种自动优化、更新的主题库构建方法,及热点事件实时更新方法
CN113342949A (zh) 智库专家与待研究课题的匹配方法及系统
CN113688233A (zh) 一种用于知识图谱语义搜索的文本理解的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant