CN111026866B - 一种面向领域的文本信息抽取聚类方法、设备和存储介质 - Google Patents

一种面向领域的文本信息抽取聚类方法、设备和存储介质 Download PDF

Info

Publication number
CN111026866B
CN111026866B CN201911019149.3A CN201911019149A CN111026866B CN 111026866 B CN111026866 B CN 111026866B CN 201911019149 A CN201911019149 A CN 201911019149A CN 111026866 B CN111026866 B CN 111026866B
Authority
CN
China
Prior art keywords
text
text information
topic
phrase
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911019149.3A
Other languages
English (en)
Other versions
CN111026866A (zh
Inventor
白洁
孔庆超
王婧宜
彭鑫
罗引
王磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongke Wenge Technology Co ltd
Original Assignee
Beijing Zhongke Wenge Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongke Wenge Technology Co ltd filed Critical Beijing Zhongke Wenge Technology Co ltd
Priority to CN201911019149.3A priority Critical patent/CN111026866B/zh
Publication of CN111026866A publication Critical patent/CN111026866A/zh
Application granted granted Critical
Publication of CN111026866B publication Critical patent/CN111026866B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种面向领域的文本信息抽取聚类方法、设备和存储介质。该方法包括:获取文本信息集合;所述文本信息集合包括:目标领域内的多个文本信息和目标领域外的多个文本信息;将所述文本信息集合输入预先训练的抽取聚类模型;通过所述抽取聚类模型对所述文本信息集合执行抽取和聚类处理,得到所述目标领域内每个主题对应的代表性信息。本发明将抽取和聚类融合在一起,使得抽取和聚类相互支撑,在抽取聚类过程中,人工干预少且抽取和聚类高效。

Description

一种面向领域的文本信息抽取聚类方法、设备和存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种面向领域的文本信息抽取聚类方法、设备和存储介质。
背景技术
数据抽取,旨在从海量数据中抽取出有用数据。数据聚类,旨在根据数据的内在性质将数据分成一些聚合类,每一聚合类中的元素尽可能具有相同的特性。目前,数据抽取和数据聚类作为两个相互独立的任务,现有技术通常将数据抽取和数据聚类分别进行问题研究并且割裂开来单独进行应用,因此,数据抽取和数据聚类无法系统化地整合和集成。然而,在现实应用当中,例如:在话题分析领域中,抽取与聚类常常是一个系统化的工作,单独的抽取或单独的聚类通常难以支撑应用。
因此,如何系统性地整合抽取与聚类,使抽取和聚类彼此支撑,完整展现信息讨论的全貌,是本领域亟待解决的一个难点问题。
发明内容
本发明的主要目的在于提供一种面向领域的文本信息抽取聚类方法、设备和存储介质,以解决抽取和聚类相互独立,不能彼此支撑的问题。
针对上述技术问题,本发明是通过以下技术方案来解决的:
本发明提供了一种面向领域的文本信息抽取聚类方法,包括:获取文本信息集合;所述文本信息集合包括:目标领域内的多个文本信息和目标领域外的多个文本信息;将所述文本信息集合输入预先训练的抽取聚类模型;通过所述抽取聚类模型对所述文本信息集合执行抽取和聚类处理,得到所述目标领域内每个主题对应的代表性信息。
其中,所述代表性信息,包括:代表性短语和代表性短句。
其中,通过所述抽取聚类模型对所述文本信息集合执行抽取和聚类处理,包括:针对所述文本信息集合中的每个文本信息进行分词处理,得到所述文本信息对应的多个分词;根据所述文本信息集合中的每个文本信息对应的多个分词,生成所述文本信息对应的多个候选短语;将目标领域内的各个文本信息分别对应的候选短语输入预先训练的主题模型,通过所述主题模型确定目标领域内的每个文本信息所属的主题以及目标领域内的每个文本信息对应的每个候选短语所属的主题;针对目标领域内的每个文本信息,通过预先训练的弱监督分类器,在所述文本信息对应的多个候选短语中,提取出所述文本信息对应的关键短语;根据目标领域内的每个文本信息对应的每个候选短语所属的主题以及目标领域内的每个文本信息对应的关键短语,得到目标领域内的每个文本信息对应的每个关键短语所属的主题;利用预设的话题层级自动构建TCM方法,整合所述目标领域内的每个文本信息所属的主题以及所述目标领域内的每个文本信息对应的每个关键短语所属的主题,得到所述目标领域内文本信息集合对应的无重复的主题;确定每个无重复的主题对应的代表性短语和代表性短句。
其中,根据所述文本信息集合中的每个文本信息对应的多个分词,生成所述文本信息对应的多个候选短语,包括:针对所述文本信息集合中的每个文本信息对应的多个分词,通过预设的语言模型N-Gram方法,生成所述文本信息对应的多个候选短语。
其中,所述主题模型为文档神经自回归分析估计DocNade模型或者文档主题生成LDA模型。
其中,根据所述文本信息集合中每个文本信息对应的每个关键短语所属的主题,确定每个无重复的主题对应的代表性短语和代表性短句,包括:整合每个无重复的主题下的关键短语,得到每个无重复的主题下无重复的关键短语;在每个无重复的主题下无重复的关键短语中,选择信息量最大的关键短语,作为所述无重复的主题对应的代表性短语;在所述文本信息集合中查询包含所述无重复的主题对应的代表性短语的短句,在包含同一个代表性短语的短句中,选择信息量最大或者最小的短句作为所述无重复的主题对应的代表性短句。
其中,所述弱监督分类器为二分类的分类器;其中,训练所述分类器,包括:设置样本信息集合;所述样本信息集合包括:目标领域内的多个文本信息和目标领域外的多个文本信息;针对所述样本信息集合中的每个文本信息进行分词处理,得到所述文本信息对应的多个分词;利用所述样本信息集合中的每个文本信息对应的多个分词,生成所述文本信息对应的多个样本候选短语;将每个样本候选短语标注为正例样本或者负例样本;其中,所述正例样本是指关键短语,负例样本是指其他候选短语;针对每个所述样本候选短语,根据所述样本候选短语在样本文本信息集合中的出现频率和出现所述样本候选短语的文本信息的数量,构建所述样本候选短语的主题特征;分别将每个所述样本候选短语的主题特征输入所述分类器,获取所述分类器的输出结果;如果所述输出结果与输入的所述样本候选短语的标注相同,则确定所述分类器收敛,反之,则继续训练所述分类器。
其中,所述主题特征,包括:在目标领域外的文本信息中,所述样本候选短语出现的频率;在目标领域外的文本信息中,出现所述样本候选短语的文本信息数量;在目标领域内的文本信息中,所述样本候选短语出现的频率;在目标领域内的文本信息中,出现所述样本候选短语的文本信息数量。
本发明还提供了一种面向领域的文本信息抽取聚类设备,所述面向领域的抽取聚类设备包括处理器、存储器;所述处理器用于执行所述存储器中存储的面向领域的文本信息抽取聚类程序,以实现上述的面向领域的文本信息抽取聚类方法。
本发明又提供了一种存储介质,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述的面向领域的文本信息抽取聚类方法。
本发明有益效果如下:
本发明利用预先训练得到的抽取聚类模型对文本信息集合执行抽取和聚类处理,得到目标领域下各个主题对应的代表性信息,从而可以为用户可以直观地、清晰地展示目标领域下各个主题的概况。本发明可以为该目标领域的用户提供信息参考渠道,以便目标领域的用户及时、全面的掌握目标领域的信息。本发明将抽取和聚类融合在一起,使得抽取和聚类相互支撑,在抽取聚类过程中,人工干预少且抽取和聚类高效。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明一实施例的面向领域的文本信息抽取聚类方法的流程图;
图2是根据本发明一实施例的抽取聚类模型执行的步骤流程图;
图3是根据本发明一实施例的主题合并的示意图;
图4是根据本发明另实施例的主题合并的示意图;
图5是根据本发明又实施例的主题合并的示意图;
图6是根据本发明再实施例的主题合并的示意图;
图7是根据本发明一实施例的确定代表性信息的步骤流程图;
图8是根据本发明一实施例的训练分类器的步骤流程图;
图9是根据本发明一实施例的面向领域的文本信息抽取聚类设备的结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,以下结合附图及具体实施例,对本发明作进一步地详细说明。
根据本发明的实施例,提供了一种面向领域的文本信息抽取聚类方法。如图1所示,为根据本发明一实施例的面向领域的文本信息抽取聚类方法的流程图。
步骤S110,获取文本信息集合。
在本实施例中,文本信息集合,包括:目标领域内的多个文本信息和目标领域外的多个文本信息。其中,目标领域内的多个文本信息可以形成目标领域内文本信息集合,目标领域外(即:非目标领域)的多个文本信息可以形成目标领域外文本信息集合。
目标领域,例如是:商业、医疗、教育、公共管理等领域。
文本信息,是指包括用户观点的文本信息。
在本实施例中,文本信息为大规模文本信息,即用户数量超过预设数量阈值的用户针对同一事件或者事物发表的文本信息。大规模文本信息可以是:社交媒体平台的发帖、论坛数据、博客数据、新闻评论等。例如:在论坛中,针对同一个问题不同用户共发布了15000条文本信息。
具体而言,文本信息集合主要分为目标领域内的文本信息和非目标领域的文本信息两类。目标领域内的文本信息指与该目标领域相关的文本内容。目标领域内的文本信息的类型包含但不限于:专业文献、技术文档、相关新闻、用户发表的评论内容等。非目标领域的文本信息指通用的或一般类型文本。非目标领域的文本信息可能包含或不包含目标领域相关内容。
在获取文本信息集合之前,还包括:收集文本信息集合中的文本信息。收集文本信息的方式,包含但不限于:通过网络爬虫技术从互联网中爬取文本信息,或者在已有数据中获取文本信息,或者通过与合作单位共享文本信息从而获得文本信息。
在收集文本信息时,目标领域内的文本信息和非目标领域的文本信息的文本类型一致或者接近。文本类型例如是:论坛类、微博类、新闻类、娱乐类,文化类等。
步骤S120,将所述文本信息集合输入预先训练的抽取聚类模型。
在本实施例中,抽取聚类模型,用于对文本信息集合中的目标领域内的文本信息和非目标领域的文本信息执行抽取和聚类处理,输出目标领域内每个主题对应的代表性信息。进一步地,所述代表性信息,包括:代表性短语和代表性短句。
具体而言,抽取聚类模型,采用自然语言处理和机器学习的方法,对文本信息集合中的目标领域的核心观点(目标领域关键短语)进行抽取,并根据核心观点的主题相似性,对核心观点执行聚类处理,进而得到目标领域的代表性信息。
步骤S130,通过所述抽取聚类模型对所述文本信息集合执行抽取和聚类处理,得到所述目标领域内每个主题对应的代表性信息。
代表性信息,是指文本信息集合的主题信息摘要。该主题信息摘要可以直观、清晰地了解每个主题下讨论的内容和用户感兴趣的内容。
本实施例预先构建并训练抽取聚类模型,该抽取聚类模型可以服务于商业、医疗、教育、公共管理等领域。本实施例利用预先训练得到的抽取聚类模型对文本信息集合执行抽取和聚类处理,得到目标领域下各个主题对应的代表性信息,从而可以为用户可以直观地、清晰地展示目标领域下各个主题的概况。本实施例可以为该目标领域的用户提供信息参考渠道,以便目标领域的用户及时、全面的掌握目标领域的信息。
下面对通过抽取聚类模型对文本信息集合执行抽取和聚类处理的步骤进行详细地描述。如图2所示,为根据本发明一实施例的抽取聚类模型执行的步骤流程图。
步骤S210,针对文本信息集合中的每个文本信息进行分词处理,得到所述文本信息对应的多个分词。
利用预设分词工具,针对文本信息集合中的每个文本信息进行分词处理,得到每个文本信息对应的分词列表。在文本信息对应的分词列表中包括该文本信息对应的多个分词。
在本实施例中,针对文本信息集合中的每个文本信息进行分词处理,包括:对文本信息进行数据清洗和语义片段划分,将文本信息划分出的多个语义片段输入分词工具,可以得到该文本信息对应的多个分词。
数据清洗,是指去除文本信息中的无关内容,例如:HTML(Hyper Text MarkupLanguage,超文本标记语言)文本中的结构标志、广告、超链接等。
语义片段划分,是指识别文本信息中的标点符号,将文本信息根据逗号、句号、感叹号等标点符号切分为相对独立的多个语义片段,并去除文本信息中的其他无关符号。
步骤S220,根据文本信息集合中的每个文本信息对应的多个分词,生成该文本信息对应的多个候选短语。
候选短语,是将文本信息对应的多个分词进行组合得到的文本片段。
在本实施例中,每个文本信息对应一个候选短语集合。针对文本信息集合中的每个文本信息对应的多个分词,通过预设的N-Gram(语言模型)方法,生成该文本信息对应的多个候选短语。进一步地,在文本信息对应的多个分词中,由每N个分词组成一个候选短语,进而形成该文本信息对应的候选短语集合。
例如:对一个文本信息进行分词处理后,再进行2-Gram的候选短语划分:文本信息为“雾霾是否会影响呼吸系统正常功能”,分词结果为“雾霾/是否/会/影响/呼吸/系统/正常/功能”,其中,“/”表示分词位置,通过2-Gram方法,可以组合出以下候选短语:“雾霾是否”、“是否会”、“会影响”、“影响呼吸”、“呼吸系统”、“系统正常”、“正常功能”,形成该文本信息对应的候选短语集合。
在候选短语集合中,可能包括关键短语和其他候选短语。其中,关键短语为目标领域相关的候选短语(目标领域内候选短语)。例如:“影响呼吸”、“呼吸系统”为医疗领域的关键短语。其他候选短语包括:目标领域不相关的候选短语和其他非短语的片段。例如:“正常功能”为医疗领域的不相关候选短语,“雾霾是否”、“是否会”、“会影响”、“系统正常”为其他非短语的片段。
当然,在实际应用过程中,可以考虑通过2-Gram、3-Gram和4-Gram方法,共同生成每个文本信息对应的候选短语集合。
步骤S230,将目标领域内的各个文本信息分别对应的候选短语输入预先训练的主题模型,通过所述主题模型确定目标领域内的每个文本信息所属的主题以及目标领域内的每个文本信息对应的每个候选短语所属的主题。
主题模型,用于确定目标领域内文本信息集合中每个文本信息所属的主题以及每个文本信息对应的每个候选短语所属的主题。针对目标领域内的每个文本信息,将该文本信息对应的候选短语输入主题模型,获取主题模型输出的该文本信息所属的主题以及每个候选短语所属的主题。
在本实施例中,主题模型可以为DocNade(Document Neural AutoregressiveDistribution Estimator,文档神经自回归分布估计)模型或者LDA(Latent DirichletAllocation,文档主题生成)模型。当然,主题模型的类型不限于此,还可以有其他模型代替。
进一步地,DocNade是一种基于受限玻尔兹曼机神经网络的无监督主题建模方法。DocNade结合了受限玻尔兹曼机结构和词的层级化表示方法,能在保证主题建模效果的基础上大大提升模型训练速度。
针对主题模型的训练,可以设置样本信息集,该样本信息集中包括多个目标领域内文本信息及其候选短语集合。将每个文本信息对应多个候选短语集合输入主题模型,确定主题模型的输出的结果是否已经无变动,若无变动,则认为主题模型收敛,否则调整主题模型中的参数,并且对主题模型继续进行训练,直到主题模型收敛为止。
步骤S240,针对目标领域内的每个文本信息,通过预先训练的弱监督分类器,在所述文本信息对应的多个候选短语中,提取出所述文本信息对应的关键短语。
在本实施例中,弱监督分类器为二分类的分类器。其中,对于如何训练所述分类器将在后面进行描述,在此不做赘述。
目标领域内的每个文本信息对应的候选短语中,可能包括目标领域内的候选短语和其他候选短语。弱监督分类器,用于识别候选短语是目标领域内的候选短语(关键短语),或是其他候选短语。
针对信息文本集合中的每个文本信息而言,将该文本信息对应的多个候选短语输入预选训练的弱监督分类器,获取该弱监督分类器输出的分类结果。该分类结果包括:该文本信息对应的多个候选短语中的关键短语。
步骤S250,根据目标领域内的每个文本信息对应的每个候选短语所属的主题以及目标领域内的每个文本信息对应的关键短语,得到目标领域内的每个文本信息对应的每个关键短语所属的主题。
在确定各个候选短语所属的主题之后,可以在各个候选短语所属的主题中筛选出各个关键短语所属的主题。
步骤S260,利用预设的TCM(topic hierarchy construction method,主题层级构建)方法,整合所述目标领域内的每个文本信息所属的主题以及所述目标领域内的每个文本信息对应的每个关键短语所属的主题,得到所述文本信息集合对应的无重复的主题。
目标领域内文本信息集合对应的主题,包括:所述目标领域内的每个文本信息所属的主题以及所述目标领域内的每个文本信息对应的每个关键短语所属的主题。
TCM方法整合目标领域内文本信息集合对应的主题,是通过分析各个主题之间的相似性(树间主题相似度),迭代进行相似主题合并,得到主题层级结构(话题树)。具体如下:
在目标领域内文本信息集合对应的主题中,确定处于同一层级的主题,针对同一层级的主题,计算主题两两之间的相似度,将主题a和主题b的相似度Pa,b与预设的第一阈值和第二阈值进行比较。第一阈值是主题a的树内主题相似度γ×Ia,第二阈值为主题b的树内主题相似度γ×Ib,γ为0~1之间的系数。
其中,主题a和主题b表示同一层级任意两个主题,在首次计算时,主题模型输出的各个主题都作为同一层级的主题。
如果相似度Pa,b大于第一阈值并且大于第二阈值,则表示主题a和主题b接近,将主题a的子主题和主题b的子主题放在一起,并为各个子主题赋予一个共同的根节点c;如图3所示,Tree(a)表示主题a,Tree(b)表示主题b,Tree(a,1)表示主题a的第一子主题,Tree(a,2)表示主题a的第二子主题,Tree(b,1)表示主题b的第一子主题,Tree(b,2)表示主题b的第二子主题,Tree(b,3)表示主题b的第三子主题。
如果相似度Pa,b小于等于第一阈值并且小于等于第二阈值,则表示主题a和主题b主题相对独立,将主题a和主题b作为两个子树,并赋予一个公共的根节点c;如图4所示。
如果相似度Pa,b大于第一阈值并且小于等于第二阈值,则表示相似度Pa,b和Ia较为接近,且明显小于Ib,说明主题b有较高的树内主题相似度,且主题b与主题a的子主题较为接近,将主题b新增为主题a的子节点,即主题a的第三子主题,与主题a的第一子主题和第二子主题属于同一个层级;如图5所示。
如果相似度Pa,b小于等于第一阈值并且大于第二阈值,则表示相似度Pa,b和Ib较为接近,且明显小于Ia,说明主题a有较高的树内主题相似度,且主题a与主题b的子主题较为接近,将主题a新增为主题b的子节点,即主题b的第四子主题,与主题b的第一子主题、第二子主题和第三子主题属于同一个层级;如图6所示。
在设置有主题数量阈值的情况下,在计算话题树的过程中,如果话题树中的节点数量达到该主题数量阈值,则停止计算话题树。该话题树中的各个节点为文本信息集合对应的无重复的主题。
步骤S270,确定每个无重复的主题对应的代表性短语和代表性短句。
本实施例将抽取和聚类融合在一起,使得抽取和聚类相互支撑,在抽取聚类过程中,人工干预少且抽取和聚类高效。
下面对如何得到代表性信息的步骤进行进一步地描述。如图7所示,为根据本发明一实施例的确定代表性信息的步骤流程图。
步骤S710,整合每个无重复的主题下的关键短语,得到每个无重复的主题下无重复的关键短语。
整合每个无重复的主题下的关键短语的目的在于,使得各个关键短语之间没有重复或包含关系。
具体的,将属于同一无重复的主题的多个关键短语按照字数由多至少的顺序进行排序。从最后一个关键短语开始向前类推,如果在后的关键短语包含于在前面的关键短语中,则将在后的关键短语从排序中删除;反之,则继续保留该在后的关键短语。通过该方式,最终可以得到每个无重复的主题下无重复的关键短语。
步骤S720,在每个无重复的主题下无重复的关键短语中,选择信息量最大的关键短语,作为所述无重复的主题对应的代表性短语。
代表性短语可以反映对应的无重复的主题所讨论的主要内容。
由于短语的字数与其蕴含的信息量成正比,所以在属于同一无重复的主题的多个无重复的关键短语中,选择字数最多的关键短语,作为该无重复的主题对应的代表性短语。关键短语的个数可以为多个,进一步地,在属于同一无重复的主题的多个无重复的关键短语中,选择前N个关键短语作为该无重复的主题对应的代表性短语。N为大于1的正整数。
步骤S730,在所述文本信息集合中查询包含所述无重复的主题对应的代表性短语的短句,在包含同一个代表性短语的短句中,选择信息量最大或者最小的短句作为所述无重复的主题对应的代表性短句。
代表性短句可以反映对应的无重复的主题下用户感兴趣的内容。
针对属于同一无重复的主题的代表性短语,在文本信息集合中的各个文本信息中分别搜索每个代表性短语,在包含任一代表性短语的文本信息中,获取包含该代表性短语的短句;如果多个短句包含同一个代表性短语,则选择字数最多或者字数最少的短句作为该无重复的主题对应的代表性短句。
为了提高搜索速度,可以预先为关键短语构建倒排索引。
下面对训练分类器的步骤进行进一步地描述。在本实施例中分类器的训练采用SVM(Support Vector Machine,支持向量机)的方法,分类器为二分类的分类器。
如图8所示,为根据本发明一实施例的训练分类器的步骤流程图。
步骤S810,设置样本文本信息集合;所述样本文本信息集合包括:目标领域内的多个文本信息和目标领域外的多个文本信息。
步骤S820,针对每个文本信息进行分词处理,得到所述文本信息对应的多个分词。
步骤S830,利用每个文本信息对应的多个分词,生成所述文本信息对应的多个样本候选短语。
步骤S840,将每个样本候选短语标注为正例样本或者负例样本。
正例样本是指目标领域内候选短语,即:关键短语。
负例样本是指其他候选短语,即目标领域不相关的候选短语和其他非短语片段。
在样本候选短语集合中,手动筛选目标领域相关的候选短语作为正例样本,筛选其他候选短语作为负例样本。
例如:“呼吸系统”可以作为医疗领域相关的候选短语;“雾霾是否”不属于短语。
步骤S850,根据每个所述样本候选短语在样本文本信息集合中的出现频率和出现的文本信息的数量,构建所述样本候选短语的主题特征。
针对样本文本信息集合中的目标领域外的文本信息和目标领域外的文本信息,所述主题特征为四维向量,包括:
在目标领域外的文本信息中,样本候选短语出现的频率GTF;
在目标领域外的文本信息中,出现样本候选短语的文本信息数量GDF;
在目标领域内的文本信息中,样本候选短语出现的频率LTF;
在目标领域内的文本信息中,出现样本候选短语的文本信息数量LDF。
Figure BDA0002246623860000121
GDFw=|{d:d∈DG,w∈d}|;
Figure BDA0002246623860000122
LDFw=|{d:d∈DL,w∈d}|;
其中,样本文本信息包括:非目标领域的文本信息和目标领域内的文本信息;样本文本信息集合中的文本信息为d;非目标领域的文本信息组成的子集合为DG,目标领域内的文本信息组成的子集合为DL,样本候选短语为w,w在文本信息d中的出现频率为nd,w
在本实施例中,为保证训练效果,正例样本和负例样本应保证数量相当,且一共不少于100条。
步骤S860,将每个样本候选短语的主题特征输入所述分类器,获取所述分类器的输出结果;如果所述输出结果与输入的所述样本候选短语的标注相同,则确定所述分类器收敛,反之,则继续训练所述分类器。
在分类器训练完成之后,可以利用训练完成的分类器,对候选短语进行分类,分类器的输入为文本信息对应的候选短语集合,输出为分类器判断为正例样本的候选短语,即关键短语。
下面提供一种面向领域的文本信息抽取聚类设备。如图9所示,为根据本发明一实施例的面向领域的抽取聚类设备的结构图。
在本实施例中,所述面向领域的文本信息抽取聚类设备,包括但不限于:处理器910、存储器920。所述处理器910用于执行存储器920中存储的面向领域的文本信息抽取聚类程序,以实现上述的面向领域的文本信息抽取聚类方法。
下面提供了一种存储介质。这里的存储介质存储有一个或者多个程序。其中,存储介质可以包括易失性存储器,例如随机存取存储器;存储器也可以包括非易失性存储器,例如只读存储器、快闪存储器、硬盘或固态硬盘;存储器还可以包括上述种类的存储器的组合。当存储介质中一个或者多个程序可被一个或者多个处理器执行,以实现上述的面向领域的文本信息抽取聚类方法。
以上所述仅为本发明的实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (8)

1.一种面向领域的文本信息抽取聚类方法,其特征在于,包括:
获取文本信息集合;所述文本信息集合包括:目标领域内的多个文本信息和目标领域外的多个文本信息;
将所述文本信息集合输入预先训练的抽取聚类模型;
通过所述抽取聚类模型对所述文本信息集合执行抽取和聚类处理,得到所述目标领域内每个主题对应的代表性信息;
所述代表性信息,包括:代表性短语和代表性短句;
通过所述抽取聚类模型对所述文本信息集合执行抽取和聚类处理,包括:
针对所述文本信息集合中的每个文本信息进行分词处理,得到所述文本信息对应的多个分词;
根据所述文本信息集合中的每个文本信息对应的多个分词,生成所述文本信息对应的多个候选短语;
将目标领域内的各个文本信息分别对应的候选短语输入预先训练的主题模型,通过所述主题模型确定目标领域内的每个文本信息所属的主题以及目标领域内的每个文本信息对应的每个候选短语所属的主题;
针对目标领域内的每个文本信息,通过预先训练的弱监督分类器,在所述文本信息对应的多个候选短语中,提取出所述文本信息对应的关键短语;
根据目标领域内的每个文本信息对应的每个候选短语所属的主题以及目标领域内的每个文本信息对应的关键短语,得到目标领域内的每个文本信息对应的每个关键短语所属的主题;
利用预设的话题层级自动构建TCM方法,整合所述目标领域内的每个文本信息所属的主题以及所述目标领域内的每个文本信息对应的每个关键短语所属的主题,得到所述目标领域内文本信息集合对应的无重复的主题;
确定每个无重复的主题对应的代表性短语和代表性短句。
2.根据权利要求1所述的方法,其特征在于,根据所述文本信息集合中的每个文本信息对应的多个分词,生成所述文本信息对应的多个候选短语,包括:
针对所述文本信息集合中的每个文本信息对应的多个分词,通过预设的语言模型N-Gram方法,生成所述文本信息对应的多个候选短语。
3.根据权利要求1所述的方法,其特征在于,所述主题模型为文档神经自回归分析估计DocNade模型或者文档主题生成LDA模型。
4.根据权利要求1所述的方法,其特征在于,确定每个无重复的主题对应的代表性短语和代表性短句,包括:
整合每个无重复的主题下的关键短语,得到每个无重复的主题下无重复的关键短语;
在每个无重复的主题下无重复的关键短语中,选择信息量最大的关键短语,作为所述无重复的主题对应的代表性短语;
在所述文本信息集合中查询包含所述无重复的主题对应的代表性短语的短句,在包含同一个代表性短语的短句中,选择信息量最大或者最小的短句作为所述无重复的主题对应的代表性短句。
5.根据权利要求1所述的方法,其特征在于,
所述弱监督分类器为二分类的分类器;其中,训练所述分类器,包括:
设置样本信息集合;所述样本信息集合包括:目标领域内的多个文本信息和目标领域外的多个文本信息;
针对所述样本信息集合中的每个文本信息进行分词处理,得到所述文本信息对应的多个分词;
利用所述样本信息集合中的每个文本信息对应的多个分词,生成所述文本信息对应的多个样本候选短语;
将每个样本候选短语标注为正例样本或者负例样本;其中,所述正例样本是指关键短语,负例样本是指其他候选短语;
针对每个所述样本候选短语,根据所述样本候选短语在样本文本信息集合中的出现频率和出现所述样本候选短语的文本信息的数量,构建所述样本候选短语的主题特征;
分别将每个所述样本候选短语的主题特征输入所述分类器,获取所述分类器的输出结果;如果所述输出结果与输入的所述样本候选短语的标注相同,则确定所述分类器收敛,反之,则继续训练所述分类器。
6.根据权利要求5所述的方法,其特征在于,所述主题特征,包括:
在目标领域外的文本信息中,所述样本候选短语出现的频率;
在目标领域外的文本信息中,出现所述样本候选短语的文本信息数量;
在目标领域内的文本信息中,所述样本候选短语出现的频率;
在目标领域内的文本信息中,出现所述样本候选短语的文本信息数量。
7.一种面向领域的文本信息抽取聚类设备,其特征在于,所述面向领域的抽取聚类设备包括处理器、存储器;所述处理器用于执行所述存储器中存储的面向领域的文本信息抽取聚类程序,以实现权利要求1~6中任一项所述的面向领域的文本信息抽取聚类方法。
8.一种存储介质,其特征在于,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现权利要求1~6中任一项所述的面向领域的文本信息抽取聚类方法。
CN201911019149.3A 2019-10-24 2019-10-24 一种面向领域的文本信息抽取聚类方法、设备和存储介质 Active CN111026866B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911019149.3A CN111026866B (zh) 2019-10-24 2019-10-24 一种面向领域的文本信息抽取聚类方法、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911019149.3A CN111026866B (zh) 2019-10-24 2019-10-24 一种面向领域的文本信息抽取聚类方法、设备和存储介质

Publications (2)

Publication Number Publication Date
CN111026866A CN111026866A (zh) 2020-04-17
CN111026866B true CN111026866B (zh) 2020-10-23

Family

ID=70200458

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911019149.3A Active CN111026866B (zh) 2019-10-24 2019-10-24 一种面向领域的文本信息抽取聚类方法、设备和存储介质

Country Status (1)

Country Link
CN (1) CN111026866B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112434212B (zh) * 2020-09-18 2021-11-23 昆明理工大学 基于神经自回归分布估计的涉案新闻主题模型构建方法及装置
CN112069322B (zh) * 2020-11-11 2021-03-02 北京智慧星光信息技术有限公司 文本多标签分析方法、装置、电子设备及存储介质
CN112364641A (zh) * 2020-11-12 2021-02-12 北京中科闻歌科技股份有限公司 一种面向文本审核的中文对抗样本生成方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120066222A1 (en) * 2010-09-14 2012-03-15 Nguyen Tam T Web architecture for green design and construction
CN103593418B (zh) * 2013-10-30 2017-03-29 中国科学院计算技术研究所 一种面向大数据的分布式主题发现方法及系统
CN103870447A (zh) * 2014-03-11 2014-06-18 北京优捷信达信息科技有限公司 一种基于隐含狄利克雷模型的关键词抽取方法
CN108052593B (zh) * 2017-12-12 2020-09-22 山东科技大学 一种基于主题词向量和网络结构的主题关键词提取方法
CN108959453B (zh) * 2018-06-14 2021-08-27 中南民族大学 基于文本聚类的信息提取方法、装置及可读存储介质

Also Published As

Publication number Publication date
CN111026866A (zh) 2020-04-17

Similar Documents

Publication Publication Date Title
Wu et al. Tracing fake-news footprints: Characterizing social media messages by how they propagate
Neelakandan et al. A gradient boosted decision tree-based sentiment classification of twitter data
Madhoushi et al. Sentiment analysis techniques in recent works
CN109670039B (zh) 基于三部图和聚类分析的半监督电商评论情感分析方法
CN111026866B (zh) 一种面向领域的文本信息抽取聚类方法、设备和存储介质
Bin Abdur Rakib et al. Using the reddit corpus for cyberbully detection
Hettiarachchi et al. Embed2Detect: temporally clustered embedded words for event detection in social media
CN109214454B (zh) 一种面向微博的情感社区分类方法
CN113962293B (zh) 一种基于LightGBM分类与表示学习的姓名消歧方法和系统
Bora Summarizing public opinions in tweets
CN110750648A (zh) 一种基于深度学习和特征融合的文本情感分类方法
Dritsas et al. An apache spark implementation for graph-based hashtag sentiment classification on twitter
Banu et al. Trending Topic Analysis using novel sub topic detection model
Fernandes et al. Analysis of product Twitter data though opinion mining
Alabdullatif et al. Classification of Arabic Twitter users: a study based on user behaviour and interests
Aziz et al. Social network analytics: natural disaster analysis through twitter
Ugheoke et al. Detecting the gender of a tweet sender
CN111680505B (zh) 一种Markdown特征感知的无监督关键词提取方法
Zhao et al. A system to manage and mine microblogging data
Alorini et al. Machine learning enabled sentiment index estimation using social media big data
Sofean et al. Analyzing trending technological areas of patents
Van de Guchte et al. Near real-time detection of misinformation on online social networks
CN109977414B (zh) 一种互联网金融平台用户评论主题分析系统及方法
Kaewpitakkun et al. Incorporating an implicit and explicit similarity network for user-level sentiment classification of microblogging
Stojanovski et al. Emotion identification in twitter messages for smart city applications

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant