CN115983251A - 一种基于句用分析的文本主题提取系统及方法 - Google Patents
一种基于句用分析的文本主题提取系统及方法 Download PDFInfo
- Publication number
- CN115983251A CN115983251A CN202310120443.3A CN202310120443A CN115983251A CN 115983251 A CN115983251 A CN 115983251A CN 202310120443 A CN202310120443 A CN 202310120443A CN 115983251 A CN115983251 A CN 115983251A
- Authority
- CN
- China
- Prior art keywords
- text
- word
- sample
- preset
- theme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 81
- 238000000605 extraction Methods 0.000 title claims abstract description 26
- 238000000034 method Methods 0.000 title abstract description 28
- 238000002372 labelling Methods 0.000 claims abstract description 26
- 238000007781 pre-processing Methods 0.000 claims abstract description 13
- 238000012545 processing Methods 0.000 claims description 71
- 230000011218 segmentation Effects 0.000 claims description 52
- 238000012549 training Methods 0.000 claims description 21
- 239000013598 vector Substances 0.000 claims description 19
- 238000010276 construction Methods 0.000 claims description 12
- 238000012360 testing method Methods 0.000 claims description 12
- 238000012795 verification Methods 0.000 claims description 12
- 238000012216 screening Methods 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 230000010354 integration Effects 0.000 claims description 4
- 238000000638 solvent extraction Methods 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 6
- 238000013473 artificial intelligence Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Machine Translation (AREA)
Abstract
本发明提供了一种基于句用分析的文本主题提取系统及方法,涉及自然语言处理技术领域,通过对待处理文本进行预处理并按照划分特征对预处理文本进行划分,获取划分结果内出现频率达到预设次数的词语作为高频词语集合;获取样本文本内出现频率达到预设次数的词语作为样本高频词语集合,将高频词语集合和样本高频词语集合中重复词语删除获得文本主题词语集合,将文本主题词语集合输入文本主题分析模型输出预处理文本的文本主题。解决现有技术存在文本标注作业的准确度和效率较低的技术问题。达到提高文本主题确定的准确性,从而辅助标注作业人员参考进行文本标注,提高文本标注效率和标注有效性的技术效果。
Description
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种基于句用分析的文本主题提取系统及方法。
背景技术
现阶段为实现人工智能能够真实理解文本所包含的内容以及隐含的情绪意图,往往基于标注好的训练数据进行机器学习和模型训练以提高人工智能对于文本含义理解的准确度。
进行人工智能学习训练的标注数据往往基于人工标注人员进行文本标注处理生成,而作为人工智能训练重要组成部分的数据标注工作,当前仍是一种重复枯燥的密集型劳动。文本由句子组成,通过分析句子的作用,即为句用,结合多个句子的句用,即可分析获得文本的主题,提升数据标注的工作准确性和效率。
现有技术中存在无法基于句用进行文本主题的确定,文本主题确定浪费标注作业时间且所获文本主题偏离文本实际主题的风险,导致文本标注作业的准确度和效率较低的技术问题。
发明内容
本申请提供了一种基于句用分析的文本主题提取系统及方法,用于针对解决现有技术中存在无法基于句用进行文本主题的确定,文本主题确定浪费标注作业时间且所获文本主题偏离文本实际主题的风险,导致文本标注作业的准确度和效率较低的技术问题。
鉴于上述问题,本申请提供了一种基于句用分析的文本主题提取系统及方法。
本申请的第一个方面,提供了一种基于句用分析的文本主题提取系统,所述系统包括:文本处理执行模块,用于对待处理文本进行预处理,获得预处理文本,其中,所述待处理文本为待进行文本主题提取的文本;文本划分执行模块,用于按照预设划分特征,对所述预处理文本进行划分,获得划分结果;划分结果筛选模块,用于在所述划分结果内,获取所述划分结果内出现频率达到预设次数的词语,获得高频词语集合;样本词语采集模块,用于随机选择获得多个样本文本,获取所述多个样本文本内出现频率达到预设次数的词语,获得多个样本高频词语集合;重复词语整合模块,用于获取所述高频词语集合和所述多个样本高频词语集合内的多个重复词语,并删除所述高频词语集合内的所述多个重复词语,获得多个文本主题词语集合;分析模型构建模块,用于构建文本主题分析模型;文本主题生成模块,用于将所述多个文本主题词语集合输入所述文本主题分析模型内,获得所述预处理文本的文本主题,并提供给文本标注作业人员。
本申请的第二个方面,提供了一种基于句用分析的文本主题提取方法,所述方法包括:对待处理文本进行预处理,获得预处理文本,其中,所述待处理文本为待进行文本主题提取的文本;按照预设划分特征,对所述预处理文本进行划分,获得划分结果;在所述划分结果内,获取所述划分结果内出现频率达到预设次数的词语,获得高频词语集合;随机选择获得多个样本文本,获取所述多个样本文本内出现频率达到预设次数的词语,获得多个样本高频词语集合;获取所述高频词语集合和所述多个样本高频词语集合内的多个重复词语,并删除所述高频词语集合内的所述多个重复词语,获得多个文本主题词语集合;构建文本主题分析模型;将所述多个文本主题词语集合输入所述文本主题分析模型内,获得所述预处理文本的文本主题,并提供给文本标注作业人员。
本申请中提供的一个或多个技术方案,至少具有如下技术效果或优点:
本申请实施例提供的方法通过对待处理文本进行预处理,获得预处理文本,避免基于存在语义缺陷的文本用于进行文本主题确定,导致发生文本主题确定的偏离现象,按照预设划分特征,对所述预处理文本进行划分,获得划分结果;在所述划分结果内,获取所述划分结果内出现频率达到预设次数的词语,获得高频词语集合,为后续进行文本主题确定提供参考词汇;随机选择获得多个样本文本,获取所述多个样本文本内出现频率达到预设次数的词语,获得多个样本高频词语集合;获取所述高频词语集合和所述多个样本高频词语集合内的多个重复词语,并删除所述高频词语集合内的所述多个重复词语,获得多个文本主题词语集合,从而避免文本规范性用词干扰文本主题相关词进行文本主题的确定;构建文本主题分析模型;将所述多个文本主题词语集合输入所述文本主题分析模型内,获得所述预处理文本的文本主题,并提供给文本标注作业人员。达到了提高文本主题确定的准确性,从而辅助标注作业人员参考进行文本标注,提高文本标注效率和标注有效性的技术效果。
附图说明
图1为本申请提供的一种基于句用分析的文本主题提取方法流程示意图;
图2为本申请提供的一种基于句用分析的文本主题提取方法中获得高频词语集合的流程示意图;
图3为本申请提供的一种基于句用分析的文本主题提取方法中获得多个样本高频词语集合的流程示意图;
图4为本申请提供的一种基于句用分析的文本主题提取系统的结构示意图。
附图标记说明:文本处理执行模块11,文本划分执行模块12,划分结果筛选模块13,样本词语采集模块14,重复词语整合模块15,分析模型构建模块16,文本主题生成模块17。
具体实施方式
本申请提供了一种基于句用分析的文本主题提取系统及方法,用于针对解决现有技术中存在无法基于句用进行文本主题的确定,进行文本主题确定浪费标注作业时间且所获文本主题偏离文本实际主题的风险,导致文本标注作业的准确度和效率较低的技术问题。
针对上述技术问题,本申请提供的技术方案总体思路如下:
对文本进行错别字替换和无实意词去除的预处理,对预处理文本进行文本语段划分,获得文本语段中出现频率较高的词语并基于比对多个样本语段中的高频出现词进行比对筛除规范性用词,获得与文本主题相关性较高的词汇基于构建的文本主题分析模型进行文本主题确定。实现了高文本主题确定的准确性,从而辅助标注作业人员参考进行文本标注,提高文本标注效率和标注有效性的目的。
实施例一
如图1所示,本申请提供了一种基于句用分析的文本主题提取方法,所述方法包括:
S100:对待处理文本进行预处理,获得预处理文本,其中,所述待处理文本为待进行文本主题提取的文本;
进一步的,所述对待处理文本进行预处理,本申请提供的方法步骤S100还包括:
S110:对所述待处理文本进行错别词语处理;
S120:对所述待处理文本进行去除停用词处理;
S130:根据错别词语处理和停用词处理的结果,获得所述预处理文本。
具体而言,在本实施例中,所述待处理文本为待进行文本主题提取的文本信息,文本主题能够反映所述待处理文本意欲表达的观点思想,也可参考进行待处理文本的文章类型划分,从而辅助文本标注人员或文本标注智能设备提高文本标注效率。
为避免文本语段错别字造成的文本歧义导致获得文本主题偏差以及避免无实际意义的停用词穿插在所述待处理文本中,导致获取待处理文本的文本主题获取效率较低的现象,本实施例在对所述待处理文本进行文本主题提取操作前,对所述待处理文本进行预处理。
通过联系上下文语义识别确定所述待处理文本中的错别词语,基于识别出的错别词语基于上下文语义进行正确词语替换处理,消除所述待处理文本的错别词语,获得错别词语处理文本。基于停用词表生成筛除指令,遍历错别词语处理文本,获得错别词语处理文本中存在的停用词,对错别词语处理文本中的停用词执行去除处理,获得没有错别字且不存在停用词的所述预处理文本。
本实施例通过对待处理文本执行错别字替换修正以及停用词去除,达到了避免错别字引起所获待处理文本的文本主题偏离待处理文本的实际文本主题以及提高待处理文本进行文本主题提取的提取效率的技术效果。
S200:按照预设划分特征,对所述预处理文本进行划分,获得划分结果;
进一步的,所述按照预设划分特征,对所述预处理文本进行划分,本申请提供的方法步骤S200还包括:
S210:按照预设标点符号划分特征作为所述预设划分特征;
S220:采用所述预设标点符号划分特征对所述预处理文本进行划分,获得所述划分结果,所述划分结果内包括多个语句。
具体而言,在本实施例中,以句末点号构建所述预设标点符号划分特征,所述预设标点符号划分特征为基于句末点号进行语句完整性和语义一致性分析的特征性标点符号集合。示例性的,句号、感叹号、问号等表示语句完整性的结束行标点符号可用于表示单一语句具有语句完整性和语义一致性的结束。
在本实施例中,按照所述预设标点符号划分特征遍历所述预处理文本,获得所述预处理文本中存在的预设标点符号即句末点号,以句末点号将所述预处理文本划分为多个具有完整语义表达的语句段落,获得包括多个语句的所述划分结果,每个语句即包括各自的句用信息。
本实施例通过基于句末点号构建预设标点符号划分特征对筛去停用词且无错别字的预处理文本进行语段分割,达到了获得具有语句完整性和语义一致性的多个语句,便于后续进行文本主题的准确分析和确定的技术效果,避免“断章取义”造成语句主题偏离实际含义。
S300:在所述划分结果内,获取所述划分结果内出现频率达到预设次数的词语,获得高频词语集合;
进一步的,如图2所示,在所述划分结果内,获取所述划分结果内出现频率达到预设次数的词语,本申请提供的方法步骤S300还包括:
S310:构建预设词典;
S320:基于所述预设词典,对所述划分结果内的所述多个语句进行分词处理,获得多个分词处理结果;
S330:根据所述多个分词处理结果,构建预设词袋;
S340:基于所述预设词袋,对所述多个分词处理结果进行One-Hot法向量化表示,获得多个语句向量;
S350:根据所述多个语句向量和所述预设词袋,获取所述多个分词处理结果内出现频率达到预设次数的词语,获得所述高频词语集合。
具体而言,所述预设词典为涵盖多种具有实意的单字或多字词语的字词集合,基于所述预设词典,对所述划分结果内的所述多个语句进行分词处理,获得每一语句中包含多个单字或多字词的多个分词处理结果。
所述预设词袋为基于训练语料获得的词汇表,在本实施例中,以对所述划分结果进行分词处理获得的多个单字词和多字词作为训练语料,合并相同训练语料获得无重复的单字词和多字词构建所述预设词袋。
所述One-Hot法表示数值的计算规则为,词语序列中出现的词语其数值定义为1,词语序列中未出现的词语其数值定义为0,在本实施例中,基于所述预设词袋,对所述多个分词处理结果进行One-Hot法向量化表示,获得多个语句向量,所述多个语句向量反映了在所述预处理文本的多个语句中所有实意词语的出现频率。
基于标注工作人员的人工经验或历史文本标注数据获得文本词汇出现频率与文本主题的关联关系,生成文本词汇出现频率与文本主题具有关联性的词语出现频率阈值,基于频率阈值进行频率向量化表达,获得所述预设次数,例如设置为5次。
当基于One-Hot法向量化表示计算获得在多个语句中词语出现频率高于所述预设次数,表示该词语与文本主题存在关联性。根据所述多个语句向量和所述预设词袋,获取所述多个分词处理结果内出现频率达到预设次数的词语,获得所述高频词语集合,高频词语集合内包括了划分结果内多个句子内的高频词语,可反映每个句子的句用含义。
本实施例通过构建预设词典对语句划分结果进行分词处理,并基于处理结果构建词袋,进一步基于词袋进行分词处理结果中每个词语出现频率的计算,以确定在预处理文本中出现频率达到与文本主题具有关联关系的高频词语,达到了为后续进行文本主题确定缩小数据处理范围,提高文本主题获取准确度和可信度的技术效果。
S400:随机选择获得多个样本文本,获取所述多个样本文本内出现频率达到预设次数的词语,获得多个样本高频词语集合;
进一步的,如图3所示,随机选择获得多个样本文本,获取所述多个样本文本内出现频率达到预设次数的词语,本申请提供的方法步骤S400还包括:
S410:随机选取多个样本文本,并对所述多个样本文本进行预处理、划分和分词处理,获得多个样本分词处理结果集合;
S420:基于所述预设词袋,对所述多个样本分词处理结果集合内的样本分词处理结果进行One-Hot法向量化表示,获得多个语句向量集合;
S430:根据所述多个语句向量集合和所述预设词袋,获取所述多个样本分词处理结果集合内出现频率达到预设次数的词语,获得所述多个样本高频词语集合。
具体而言,在本实施例中,所述样本文本为文体和信息量不限的任意文本,采用与所述待处理文本在步骤S100~S300相同的处理方法,对随机选取的多个所述样本文本进行替换错别字以及去除停用词的预处理,基于语句完整性和语义一致性的划分以及基于语句划分结果进行分词处理,获得多个样本分词处理结果集合。
基于所述预设词袋,对所述多个样本分词处理结果集合内的样本分词处理结果进行One-Hot法向量化表示,获得多个语句向量集合;根据所述多个语句向量集合和所述预设词袋,获取所述多个样本分词处理结果集合内出现频率达到预设次数的词语,获得所述多个样本高频词语集合。
本实施例通过对随机获取的多个样本文本采取与待处理文本相同的处理方式进行预处理、划分和分词处理,并基于处理结果构建词袋,基于词袋进行多个样本文本中每个词语出现频率的计算,确定在多个样本文本中出现频率达到与样本文本主题具有关联关系的高频词语,达到了为后续缩小待处理文本的高频词语范围提供参考基准的技术效果。
S500:获取所述高频词语集合和所述多个样本高频词语集合内的多个重复词语,并删除所述高频词语集合内的所述多个重复词语,获得多个文本主题词语集合;
具体而言,应理解的,由于不同类型的文本具有的不同的书写规范、布局排版以及格式要求,因而文本中往往存在有在文本中与文本主题无关但具有一定出现频率的词汇,例如在新闻报道格式中常出现的“发生”、“据报道”、“发言”、报道落款组织名等词汇。
因而在本实施例中,将所述高频词语结合一一比对所述多个样本高频词语集合,获取所述高频词语集合和所述多个样本高频词语集合内的多个重复词语,对所述高频词语集合内的所述多个重复词语执行删除操作,获得多个文本主题词语集合,所述多个文本主题词语集合为进一步缩小文本主题相关性词语分析确定范围的优化词语集合。
S600:构建文本主题分析模型;
进一步的,所述构建文本主题分析模型,本申请提供的方法步骤S600还包括:
S610:采集获取多个样本主题词语集合;
S620:采用多个样本文本主题对所述多个样本主题词语集合进行标记,获得多个文本主题标识信息;
S630:采用所述多个样本主题词语集合和所述多个文本主题标识信息作为构建数据,构建所述文本主题分析模型。
进一步的,所述采用所述多个样本主题词语集合和所述多个文本主题标识信息作为构建数据,构建所述文本主题分析模型,本申请提供的方法步骤S630还包括:
S631:对所述多个样本主题词语集合和所述多个文本主题标识信息进行数据标识和划分,获得训练集、验证集和测试集;
S632:基于BP神经网络,构建所述文本主题分析模型;
S633:采用所述训练集、验证集和测试集对所述文本主题分析模型进行监督训练、验证和测试,直到所述文本主题分析模型的准确率符合预设要求,获得所述文本主题分析模型。
具体而言,本实施例通过构建文本主题分析模型,实现基于文本主题词语生成与文本主题,实现对文本主题的精准确定,以辅助人工标注或智能标注机器人提高文本标注效率。
优选的,本实施例基于BP神经网络构建所述文本主题分析模型,为提高所述文本主题分析模型输出准确度,基于大数据采集获取多个样本主题词语集合,采用多个样本文本主题对应对所述多个样本主题词语集合进行标记,获得多个文本主题标识信息。
将所述多个样本文本主题以及对应的多个样本主题词语集合进行数据标识和划分,获得训练集、验证集以及测试集,基于所述训练集、验证集和测试集对所述文本主题分析模型进行监督训练、验证和测试,直到所述文本主题分析模型的准确率符合预设输出文本主题准确度要求,获得所述文本主题分析模型。
本实施例通过基于多个样本文本主题和多个样本主题词语集合构建并训练文本主题分析模型,达到了获得模型输出准确度满足文本主题输出准确度要求的文本主题分析模型,便于进行待处理文本的文本主题确定的技术效果。
S700:将所述多个文本主题词语集合输入所述文本主题分析模型内,获得所述预处理文本的文本主题,并提供给文本标注作业人员。
具体而言,在本实施例中,将所述多个文本主题词语集合输入所述文本主题分析模型内,基于所述文本主题分析模型进行预处理文本的分析处理,能够根据多个文本主体词语集合,分析多个句子的句用,进而最终获得所述文本主题分析模型输出的所述预处理文本的文本主题,用于提供给文本标注作业人员和/或文本标注人工智能辅助进行文本标注工作,降低文本标注工作的工作量和工作难度。
本实施例提供的方法通过对待处理文本进行预处理,获得预处理文本,避免基于存在语义缺陷的文本用于进行文本主题确定,导致发生文本主题确定的偏离现象,按照预设划分特征,对所述预处理文本进行划分,获得划分结果;在所述划分结果内,获取所述划分结果内出现频率达到预设次数的词语,获得高频词语集合,为后续进行文本主题确定提供参考词汇;随机选择获得多个样本文本,获取所述多个样本文本内出现频率达到预设次数的词语,获得多个样本高频词语集合;获取所述高频词语集合和所述多个样本高频词语集合内的多个重复词语,并删除所述高频词语集合内的所述多个重复词语,获得多个文本主题词语集合,从而避免文本规范性用词干扰文本主题相关词进行文本主题的确定;构建文本主题分析模型;将所述多个文本主题词语集合输入所述文本主题分析模型内,获得所述预处理文本的文本主题,并提供给文本标注作业人员。达到了提高文本主题确定的准确性,从而辅助标注作业人员参考进行文本标注,提高文本标注效率和标注有效性的技术效果。
实施例二
基于与前述实施例中一种基于句用分析的文本主题提取方法相同的发明构思,如图4所示,本申请提供了一种基于句用分析的文本主题提取系统,其中,所述系统包括:
文本处理执行模块11,用于对待处理文本进行预处理,获得预处理文本,其中,所述待处理文本为待进行文本主题提取的文本;
文本划分执行模块12,用于按照预设划分特征,对所述预处理文本进行划分,获得划分结果;
划分结果筛选模块13,用于在所述划分结果内,获取所述划分结果内出现频率达到预设次数的词语,获得高频词语集合;
样本词语采集模块14,用于随机选择获得多个样本文本,获取所述多个样本文本内出现频率达到预设次数的词语,获得多个样本高频词语集合;
重复词语整合模块15,用于获取所述高频词语集合和所述多个样本高频词语集合内的多个重复词语,并删除所述高频词语集合内的所述多个重复词语,获得多个文本主题词语集合;
分析模型构建模块16,用于构建文本主题分析模型;
文本主题生成模块17,用于将所述多个文本主题词语集合输入所述文本主题分析模型内,获得所述预处理文本的文本主题,并提供给文本标注作业人员。
进一步的,所述文本处理执行模块11还包括:
错别词语处理单元,用于对所述待处理文本进行错别词语处理;
停用词去除单元,用于对所述待处理文本进行去除停用词处理;
预处理文本生成单元,用于根据错别词语处理和停用词处理的结果,获得所述预处理文本。
进一步的,所述文本划分执行模块12还包括:
划分特征确定单元,用于按照预设标点符号划分特征作为所述预设划分特征;
划分结果获得单元,用于采用所述预设标点符号划分特征对所述预处理文本进行划分,获得所述划分结果,所述划分结果内包括多个语句。
进一步的,所述划分结果筛选模块13还包括:
预设词典构建单元,用于构建预设词典;
分词处理执行单元,用于基于所述预设词典,对所述划分结果内的所述多个语句进行分词处理,获得多个分词处理结果;
预设词袋构建单元,用于根据所述多个分词处理结果,构建预设词袋;
语句向量获得单元,用于基于所述预设词袋,对所述多个分词处理结果进行One-Hot法向量化表示,获得多个语句向量;
高频词语获得单元,用于根据所述多个语句向量和所述预设词袋,获取所述多个分词处理结果内出现频率达到预设次数的词语,获得所述高频词语集合。
进一步的,所述样本词语采集模块14还包括:
样本分词处理单元,用于随机选取多个样本文本,并对所述多个样本文本进行预处理、划分和分词处理,获得多个样本分词处理结果集合;
语句向量生成单元,用于基于所述预设词袋,对所述多个样本分词处理结果集合内的样本分词处理结果进行One-Hot法向量化表示,获得多个语句向量集合;
高频词语筛选单元,用于根据所述多个语句向量集合和所述预设词袋,获取所述多个样本分词处理结果集合内出现频率达到预设次数的词语,获得所述多个样本高频词语集合。
进一步的,所述分析模型构建模块16还包括:
样本信息采集单元,用于采集获取多个样本主题词语集合;
样本信息标记单元,用于采用多个样本文本主题对所述多个样本主题词语集合进行标记,获得多个文本主题标识信息;
模型构建执行单元,用于采用所述多个样本主题词语集合和所述多个文本主题标识信息作为构建数据,构建所述文本主题分析模型。
进一步的,所述模型构建执行单元还包括:
模型数据处理单元,用于对所述多个样本主题词语集合和所述多个文本主题标识信息进行数据标识和划分,获得训练集、验证集和测试集;
模型构建操作单元,用于基于BP神经网络,构建所述文本主题分析模型;
分析模型训练单元,用于采用所述训练集、验证集和测试集对所述文本主题分析模型进行监督训练、验证和测试,直到所述文本主题分析模型的准确率符合预设要求,获得所述文本主题分析模型。
综上所述的任意一项方法或者步骤可作为计算机指令或程序存储在各种不限类型的计算机存储器中,通过各种不限类型的计算机处理器识别计算机指令或程序,进而实现上述任一项方法或者步骤。
基于本发明的上述具体实施例,本技术领域的技术人员在不脱离本发明原理的前提下,对本发明所作的任何改进和修饰,皆应落入本发明的专利保护范围。
Claims (8)
1.一种基于句用分析的文本主题提取系统,其特征在于,所述系统包括:
文本处理执行模块,用于对待处理文本进行预处理,获得预处理文本,其中,所述待处理文本为待进行文本主题提取的文本;
文本划分执行模块,用于按照预设划分特征,对所述预处理文本进行划分,获得划分结果;
划分结果筛选模块,用于在所述划分结果内,获取所述划分结果内出现频率达到预设次数的词语,获得高频词语集合;
样本词语采集模块,用于随机选择获得多个样本文本,获取所述多个样本文本内出现频率达到预设次数的词语,获得多个样本高频词语集合;
重复词语整合模块,用于获取所述高频词语集合和所述多个样本高频词语集合内的多个重复词语,并删除所述高频词语集合内的所述多个重复词语,获得多个文本主题词语集合;
分析模型构建模块,用于构建文本主题分析模型;
文本主题生成模块,用于将所述多个文本主题词语集合输入所述文本主题分析模型内,获得所述预处理文本的文本主题,并提供给文本标注作业人员。
2.根据权利要求1所述的系统,其特征在于,所述对待处理文本进行预处理,包括:
错别词语处理单元,用于对所述待处理文本进行错别词语处理;
停用词去除单元,用于对所述待处理文本进行去除停用词处理;
预处理文本生成单元,用于根据错别词语处理和停用词处理的结果,获得所述预处理文本。
3.根据权利要求1所述的系统,其特征在于,所述按照预设划分特征,对所述预处理文本进行划分,包括:
划分特征确定单元,用于按照预设标点符号划分特征作为所述预设划分特征;
划分结果获得单元,用于采用所述预设标点符号划分特征对所述预处理文本进行划分,获得所述划分结果,所述划分结果内包括多个语句。
4.根据权利要求3所述的系统,其特征在于,在所述划分结果内,获取所述划分结果内出现频率达到预设次数的词语,包括:
预设词典构建单元,用于构建预设词典;
分词处理执行单元,用于基于所述预设词典,对所述划分结果内的所述多个语句进行分词处理,获得多个分词处理结果;
预设词袋构建单元,用于根据所述多个分词处理结果,构建预设词袋;
语句向量获得单元,用于基于所述预设词袋,对所述多个分词处理结果进行One-Hot法向量化表示,获得多个语句向量;
高频词语获得单元,用于根据所述多个语句向量和所述预设词袋,获取所述多个分词处理结果内出现频率达到预设次数的词语,获得所述高频词语集合。
5.根据权利要求4所述的系统,其特征在于,随机选择获得多个样本文本,获取所述多个样本文本内出现频率达到预设次数的词语,包括:
样本分词处理单元,用于随机选取多个样本文本,并对所述多个样本文本进行预处理、划分和分词处理,获得多个样本分词处理结果集合;
语句向量生成单元,用于基于所述预设词袋,对所述多个样本分词处理结果集合内的样本分词处理结果进行One-Hot法向量化表示,获得多个语句向量集合;
高频词语筛选单元,用于根据所述多个语句向量集合和所述预设词袋,获取所述多个样本分词处理结果集合内出现频率达到预设次数的词语,获得所述多个样本高频词语集合。
6.根据权利要求1所述的系统,其特征在于,所述构建文本主题分析模型,包括:
样本信息采集单元,用于采集获取多个样本主题词语集合;
样本信息标记单元,用于采用多个样本文本主题对所述多个样本主题词语集合进行标记,获得多个文本主题标识信息;
模型构建执行单元,用于采用所述多个样本主题词语集合和所述多个文本主题标识信息作为构建数据,构建所述文本主题分析模型。
7.根据权利要求6所述的系统,其特征在于,所述采用所述多个样本主题词语集合和所述多个文本主题标识信息作为构建数据,构建所述文本主题分析模型,包括:
模型数据处理单元,用于对所述多个样本主题词语集合和所述多个文本主题标识信息进行数据标识和划分,获得训练集、验证集和测试集;
模型构建操作单元,用于基于BP神经网络,构建所述文本主题分析模型;
分析模型训练单元,用于采用所述训练集、验证集和测试集对所述文本主题分析模型进行监督训练、验证和测试,直到所述文本主题分析模型的准确率符合预设要求,获得所述文本主题分析模型。
8.一种基于句用分析的文本主题提取方法,其特征在于,所述方法包括:
对待处理文本进行预处理,获得预处理文本,其中,所述待处理文本为待进行文本主题提取的文本;
按照预设划分特征,对所述预处理文本进行划分,获得划分结果;
在所述划分结果内,获取所述划分结果内出现频率达到预设次数的词语,获得高频词语集合;
随机选择获得多个样本文本,获取所述多个样本文本内出现频率达到预设次数的词语,获得多个样本高频词语集合;
获取所述高频词语集合和所述多个样本高频词语集合内的多个重复词语,并删除所述高频词语集合内的所述多个重复词语,获得多个文本主题词语集合;
构建文本主题分析模型;
将所述多个文本主题词语集合输入所述文本主题分析模型内,获得所述预处理文本的文本主题,并提供给文本标注作业人员。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310120443.3A CN115983251B (zh) | 2023-02-16 | 2023-02-16 | 一种基于句用分析的文本主题提取系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310120443.3A CN115983251B (zh) | 2023-02-16 | 2023-02-16 | 一种基于句用分析的文本主题提取系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115983251A true CN115983251A (zh) | 2023-04-18 |
CN115983251B CN115983251B (zh) | 2023-06-09 |
Family
ID=85976277
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310120443.3A Active CN115983251B (zh) | 2023-02-16 | 2023-02-16 | 一种基于句用分析的文本主题提取系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115983251B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117555983A (zh) * | 2023-04-19 | 2024-02-13 | 北京盛科沃科技发展有限公司 | 一种基于机器学习的辅助定密方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108763213A (zh) * | 2018-05-25 | 2018-11-06 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 主题特征文本关键词提取方法 |
CN110851714A (zh) * | 2019-11-07 | 2020-02-28 | 安徽大学 | 基于异构主题模型和词嵌入模型的文本推荐方法和系统 |
CN111125355A (zh) * | 2018-10-31 | 2020-05-08 | 北京国双科技有限公司 | 一种信息处理方法及相关设备 |
CN111274798A (zh) * | 2020-01-06 | 2020-06-12 | 北京大米科技有限公司 | 一种文本主题词确定方法、装置、存储介质及终端 |
CN112906403A (zh) * | 2021-04-25 | 2021-06-04 | 中国平安人寿保险股份有限公司 | 语义分析模型训练方法、装置、终端设备及存储介质 |
-
2023
- 2023-02-16 CN CN202310120443.3A patent/CN115983251B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108763213A (zh) * | 2018-05-25 | 2018-11-06 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 主题特征文本关键词提取方法 |
CN111125355A (zh) * | 2018-10-31 | 2020-05-08 | 北京国双科技有限公司 | 一种信息处理方法及相关设备 |
CN110851714A (zh) * | 2019-11-07 | 2020-02-28 | 安徽大学 | 基于异构主题模型和词嵌入模型的文本推荐方法和系统 |
CN111274798A (zh) * | 2020-01-06 | 2020-06-12 | 北京大米科技有限公司 | 一种文本主题词确定方法、装置、存储介质及终端 |
CN112906403A (zh) * | 2021-04-25 | 2021-06-04 | 中国平安人寿保险股份有限公司 | 语义分析模型训练方法、装置、终端设备及存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117555983A (zh) * | 2023-04-19 | 2024-02-13 | 北京盛科沃科技发展有限公司 | 一种基于机器学习的辅助定密方法及系统 |
CN117555983B (zh) * | 2023-04-19 | 2024-07-12 | 北京盛科沃科技发展有限公司 | 一种基于机器学习的辅助定密方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN115983251B (zh) | 2023-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109726293B (zh) | 一种因果事件图谱构建方法、系统、装置及存储介质 | |
CN110347603B (zh) | 一种人工智能的自动化软件测试系统及方法 | |
CN110096570B (zh) | 一种应用于智能客服机器人的意图识别方法及装置 | |
US20240201984A1 (en) | Deep learning-based java program internal annotation generation method and syste | |
CN113254574A (zh) | 一种机关公文辅助生成方法、装置以及系统 | |
CN106372053B (zh) | 句法分析的方法和装置 | |
CN111143531A (zh) | 一种问答对构建方法、系统、装置及计算机可读存储介质 | |
CN111985236A (zh) | 基于多维联动的可视化分析方法 | |
CN111145903A (zh) | 获取眩晕症问诊文本的方法、装置、电子设备及问诊系统 | |
CN114239588A (zh) | 文章处理方法、装置、电子设备及介质 | |
CN115983251A (zh) | 一种基于句用分析的文本主题提取系统及方法 | |
CN110674722B (zh) | 一种试卷拆分方法及其系统 | |
CN111191413B (zh) | 一种基于图排序模型的事件核心内容自动标记方法、装置及系统 | |
CN111180025A (zh) | 表示病历文本向量的方法、装置及问诊系统 | |
Xue et al. | Improved correction detection in revised ESL sentences | |
Jui et al. | A machine learning-based segmentation approach for measuring similarity between sign languages | |
CN110472231A (zh) | 一种识别法律文书案由的方法和装置 | |
CN117592470A (zh) | 大语言模型驱动的低成本公报数据抽取方法 | |
CN112579444A (zh) | 基于文本认知的自动分析建模方法、系统、装置及介质 | |
US8666987B2 (en) | Apparatus and method for processing documents to extract expressions and descriptions | |
CN111368547A (zh) | 基于语义解析的实体识别方法、装置、设备和存储介质 | |
CN115438655A (zh) | 人物性别识别方法、装置、电子设备及存储介质 | |
Zilio et al. | Named entity recognition applied to Portuguese texts from the XVIII century | |
CN114661684A (zh) | 基于条件随机场的日志报错信息处理方法及装置 | |
CN110674871B (zh) | 面向翻译译文的自动评分方法及自动评分系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: A Text Topic Extraction System and Method Based on Sentence Usage Analysis Granted publication date: 20230609 Pledgee: Nanjing Bank Co.,Ltd. Nanjing Financial City Branch Pledgor: Jiangsu United Industrial Limited by Share Ltd. Registration number: Y2024980012709 |