CN116702775B - 文本处理方法、文本处理装置及计算机可读存储介质 - Google Patents

文本处理方法、文本处理装置及计算机可读存储介质 Download PDF

Info

Publication number
CN116702775B
CN116702775B CN202310982365.8A CN202310982365A CN116702775B CN 116702775 B CN116702775 B CN 116702775B CN 202310982365 A CN202310982365 A CN 202310982365A CN 116702775 B CN116702775 B CN 116702775B
Authority
CN
China
Prior art keywords
text
topic
keyword
keyword group
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310982365.8A
Other languages
English (en)
Other versions
CN116702775A (zh
Inventor
张惠玲
黄思敏
叶嘉健
沈吉祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Zhicheng Software Technology Service Co ltd
Shenzhen Smart City Technology Development Group Co ltd
Original Assignee
Shenzhen Zhicheng Software Technology Service Co ltd
Shenzhen Smart City Technology Development Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Zhicheng Software Technology Service Co ltd, Shenzhen Smart City Technology Development Group Co ltd filed Critical Shenzhen Zhicheng Software Technology Service Co ltd
Priority to CN202310982365.8A priority Critical patent/CN116702775B/zh
Publication of CN116702775A publication Critical patent/CN116702775A/zh
Application granted granted Critical
Publication of CN116702775B publication Critical patent/CN116702775B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了文本处理方法、文本处理装置及计算机可读存储介质,其中,所述文本处理方法包括以下步骤:根据待标注文本对应关键词组所属的领域,爬取所述关键词组对应的特征数据;基于所述关键词组以及预处理后的所述特征数据,进行LDA主题建模,得到所述待标注文本的标签体系;对所述标签体系进行校验,当校验结果为校验成功时,根据所述标签体系以及Mybert模型为所述待标注文本添加对应的主题标签。本发明通过爬虫爬取大量数据进行LDA主题建模学习,基于无监督学习算法构建标签体系,再根据具体标签体系以及需求,通过Mybert模型自动为文本打上相应的标签,解决了基于人工标注的方式导致标签挖掘效率低的问题。

Description

文本处理方法、文本处理装置及计算机可读存储介质
技术领域
本发明涉及数据表示领域,尤其涉及文本处理方法、文本处理装置及计算机可读存储介质。
背景技术
为体现文章的特征,通常需要挖掘文章相应的主题标签,以便基于挖掘出的主题标签对文章进行分类管理、查询或推送。例如文章中出现城管、市容等内容时,可以为其打上“城市、行政、街道管理以及城乡”等标签。
在相关的文本的标注方法中,通常在已构建好的标签体系的基础上,基于人工标注的方式进行的对目标文本进行标注。然而,当标签体系的标签无法表征当前的文本时,需要人工花费较多时间检索相关的数据,并在标签体系中添加新的标签。而在需要对大量的文章挖掘相应的主题标签时,当前的基于人工标注的方式存在标注周期长的缺陷,导致文本的标签挖掘效率较低。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种文本处理方法、文本处理装置及计算机可读存储介质,解决现有技术中文本的标签挖掘效率低的问题。
为实现上述目的,本发明提供一种文本处理方法,所述文本处理方法包括以下步骤:
根据待标注文本对应关键词组所属的领域,爬取所述关键词组对应的特征数据;
基于所述关键词组以及预处理后的所述特征数据,进行LDA主题建模,得到所述待标注文本的标签体系;
对所述标签体系进行校验,当校验结果为校验成功时,根据所述标签体系以及Mybert模型为所述待标注文本添加对应的主题标签。
可选地,所述基于所述关键词组以及预处理后的所述特征数据,进行LDA主题建模,得到所述待标注文本的标签体系的步骤之前,还包括:
获取所述待标注文本所属的领域对应的分词词典,以及通用词权重词典;
根据所述分词词典确定所述特征数据的分词划分节点,并基于所述分词划分节点对所述特征数据进行分词处理;以及
计算分词后的所述特征数据中特征关键词组的词频以及逆文本频率指数,并基于所述词频以及所述逆文本频率指数,确定所述特征数据的特征关键字的权重占比;以及
根据所述通用词权重词典的通用词权重规则,降低所述特征数据的通用词的权重占比,得到所述预处理后的所述特征数据。
可选地,所述基于所述关键词组以及预处理后的所述特征数据,进行LDA主题建模,得到所述待标注文本的标签体系的步骤包括:
将所述关键词组及其对应的预处理后的所述特征数据,输入到LDA主题模型中,得到所述关键词组的各个关键词的主题数,其中,所述主题数小于或等于主题数阈值;
若所述关键词组存在第一关键词对应的主题数为多个时,依次从各个所述主题对应的关键字中,根据所述关键字的权重值选取N个所述关键字;
根据所述关键字的权重值,计算所述各个所述主题对应的累计权重,并将所述累计权重最大的主题作为所述第一关键词对应的所述主题标签;
根据所述关键词组的各个关键词对应的所述主题标签,构建所述标签体系。
可选地,所述将所述关键词组及其对应的预处理后的所述特征数据,输入到LDA主题模型中,得到所述关键词组的各个关键词的主题数,其中,所述主题数小于或等于主题数阈值的步骤包括:
将所述关键词组及其对应的所述预处理后的所述特征数据,输入到所述LDA主题模型中,得到所述预处理后的所述特征数据的困惑度:
根据所述困惑度的极小值和/或极小区间确定所述主题数。
可选地,所述对所述标签体系进行校验,当校验结果为校验成功时,根据所述标签体系以及Mybert模型为所述待标注文本添加对应的主题标签的步骤之前,还包括:
通过bert模型以及pytorch多标签分类模型,训练得到所述Mybert模型;
所述对所述标签体系进行校验,当校验结果为校验成功时,根据所述标签体系以及Mybert模型为所述待标注文本添加对应的主题标签的步骤包括:
基于预设校验规则对各个所述关键词,以及各个所述关键词对应的所述主题标签进行校验;
当所述校验结果为校验成功时,将所述标签体系对应的标签,以及所述待标注文本作为所述Mybert模型的输入参数,得到带有所述主题标签的所述待标注文本。
可选地,所述基于所述关键词组以及预处理后的所述特征数据,进行LDA主题建模,得到所述待标注文本的标签体系的步骤之后,还包括:
基于预设校验规则对各个所述关键词,以及各个所述关键词对应的所述主题标签进行校验;
在校验结果为校验失败时,对LDA模型进行微调后,跳转执行所述爬取所述关键词组对应的特征数据的步骤。
可选地,所述根据待标注文本对应关键词组所属的领域,爬取所述关键词组对应的特征数据的步骤之前,还包括:
检测到预设标签体系中的主题标签无法表述所述关键词组的第二关键词时,确定所述关键词组所属的领域;或者
检测到所述预设标签体系中的主题标签能够表述所述关键词组的特征时,根据Mybert模型以及预设标签体系的预设标签为待标注文本添加对应的主题标签。
可选地,所述基于所述关键词组以及预处理后的所述特征数据,进行LDA主题建模,得到所述待标注文本的标签体系的步骤之前,还包括:
基于自然语言处理工具和/或自然语言处理模型生成所述关键词组的所述特征数据。
此外,为实现上述目的,本发明还提供一种文本处理装置,所述文本处理装置包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的文本处理程序,所述文本处理程序被所述处理器执行时实现如上所述的文本处理方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有文本处理程序,所述文本处理程序被处理器执行时实现如上所述的文本处理方法的步骤。
本发明实施例提供了文本处理方法、文本处理装置及计算机可读存储介质,先根据待标注文本对应关键词组所属的领域,爬取所述关键词组对应的特征数据,随后基于所述关键词组以及预处理后的所述特征数据,进行LDA主题建模,得到所述待标注文本的标签体系,接着对所述标签体系进行校验,当校验结果为校验成功时,根据所述标签体系以及Mybert模型为所述待标注文本添加对应的主题标签。可以看出,通过爬虫爬取大量关键词组所属领域内的特征数据,随后将处理后的特征数据用于LDA主题建模学习,基于此扩充了主题建模的样本源,使得模型处理后的结果更精准,而基于无监督学习算法LDA算法自上而下构建标签体系,随后通过自下而上的方式,将当前标签体系内容以及待标注文本罗列到Mybert模型中,基于Mybert模型自动为待标注文本打上相应的标签,实现全流程闭环处理,解决当前构建标签体系后基于人工标注的方式导致标签挖掘效率低的问题,提高了标签挖掘的效率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明文本处理方法的第一实施例的流程示意图;
图2为本发明文本处理方法的第二实施例的流程示意图;
图3为本发明文本处理方法的第三实施例的流程示意图;
图4是本发明文本处理方法的各个实施例的终端硬件结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在相关的文本的标注方法中,通常在已构建好的标签体系的基础上,基于人工标注的方式进行的对目标文本进行标注。然而,当标签体系的标签无法表征当前的文本时,需要人工花费较多时间检索相关的数据,并在标签体系中添加新的标签。而在需要对大量的文章挖掘相应的主题标签时,当前的基于人工标注的方式存在标注周期长的缺陷,导致文本的标签挖掘效率较低。
为解决上述缺陷,本发明实施例提出一种文本处理方法,其主要解决方案包括以下步骤:
根据待标注文本对应关键词组所属的领域,爬取所述关键词组对应的特征数据;
基于所述关键词组以及预处理后的所述特征数据,进行LDA主题建模,得到所述待标注文本的标签体系;
对所述标签体系进行校验,当校验结果为校验成功时,根据所述标签体系以及Mybert模型为所述待标注文本添加对应的主题标签。
本发明通过爬虫爬取大量关键词组所属领域内的特征数据,进行LDA主题建模学习,扩充了主题建模的样本源,模型处理后的结果更精准,而基于无监督学习算法LDA算法自上而下构建标签体系,随后通过自下而上的方式,将当前标签体系内容以及待标注文本罗列到Mybert模型中,基于Mybert模型自动为待标注文本打上相应的标签,实现全流程闭环处理,解决当前构建标签体系后基于人工标注的方式导致标签挖掘效率低的问题,提高了标签挖掘的效率。
为了更好地理解上述技术方案,下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整地传达给本领域的技术人员。
请参照图1,图1为本发明文本处理方法的第一实施例的流程示意图。
本实施例的方案可用于对政务领域,也即对政务领域内的文本添加相应的主题标签。
在本实施例中,文本处理方法包括以下步骤:
步骤S10,根据待标注文本对应关键词组所属的领域,爬取所述关键词组对应的特征数据;
在本实施例中,待标注文本短文本、长文本、多个字段的组合以及文章等内容。而关键词组指的是待标注文本的各个词组。所属的领域可以由用户预先设置,其中所属的领域包括政务、人文、体育、社会、历史以及经济等领域,基于待标注文本所属领域,可以快速爬取到相关的内容。例如待标注文本中的关键词组包括“股票、基金、涨跌”等关键词,可以确定当前待标注文本所属领域为经济领域。特征数据指的是关键词组中各个关键词对应的百科释义,或者是该关键词在学术论文的专有名词解释,还可是关键词的百科释义和学术论文的专有名词解释。
在标签挖掘过程中,对于专业性很强的领域,领域内知识要求很较高,即标签挖掘方法效果依赖领域专业知识,因此需要根据关键词组所属的领域,爬取关键词在该领域内对应的特征数据,进而提高标签挖掘的效果。
可选地,还可根据自然语言处理工具和/或自然语言处理模型(例如chatGPT)生成所述关键词组的所述特征数据。
进一步的,在本实施例中,需要对政务领域内的文本标注相应的主题标签时,由于当前通用的LDA(Latent Dirichlet Allocation,潜在狄克雷分布算法)无监督方法涉及的领域内的知识面较少,且并不会抓取新的特征,导致效果不佳。例如当前得到的标签与实际想要的标签差距过大。基于此,为提高LDA主题建模后得到的标签与待标注文本的关联度,需要通过爬虫方式爬取待标注文本的关键词组相应的特征数据。
示例性的,待标注文本为“城管和环卫”,对应的关键词组为“城管环卫”,所属领域为政务领域。基于此,通过爬虫方式爬取到的特征数据包括“城管是指负责本市城管监察行政执法的指导、统筹协调和组织调度工作。本市城管监察行政执法队伍的监督和考核工作。贯彻实施国家及本市有关城市管理方面的法律、法规及规章,治理和维护城市管理秩序。”以及“环卫指的是环境卫生,按国际著名公益组织君友会的解释是指人类身体活动周围的所有环境内,控制一切妨碍或影响健康的因素。环境卫生之范围非常复杂而广泛,其内容大致包括:饮水卫生、废污处理(包括污水处理、垃圾处理)、食品卫生、病媒管制、工业卫生、公害防治(包括空气污染防制、水污染防治、噪音管制等)、房屋卫生等”。
步骤S20,基于所述关键词组以及预处理后的所述特征数据,进行LDA主题建模,得到所述待标注文本的标签体系;
具体的,该步骤包括:
步骤S21,将所述关键词组及其对应的预处理后的所述特征数据,输入到LDA主题模型中,得到所述关键词组的各个关键词的主题数,其中,所述主题数小于或等于主题数阈值;
在本实施例中,将关键词组及其对应的特征数据输入到LDA主题模型后,可以得到特征数据的困惑度曲线,随后根据困惑度曲线的极小值和/或极小区间确定各个关键词对应的主题数。还可基于LDA模型的复杂度选择合适的K值(主题数阈值),K值可以设为30,也可基于实际应用场景动态。
步骤S22,若所述关键词组存在第一关键词对应的主题数为多个时,依次从各个所述主题对应的关键字中,根据所述关键字的权重值选取N个所述关键字;
在本实施例中,关键词组的各个关键词可以对应多个主题,也可对应一个主题。而每个主题都会有代表该主题含义的关键字,各个关键字的权重占比不同。N的数值可以是预先设定的,也可以是根据实际应用场景设定的。
这里以各个关键词对应一个主题为例进行说明:当关键词组中存在一个关键词对应的主题数为多个,此时基于每个主题对应的关键字权重大小,选取前N个权重值最大的关键字,保障当前可以得到不同维度的标签结果,同时便于计算各个主题的累计权重,并基于累计权重选择对应最合适的一个主题标签。
步骤S23,根据所述关键字的权重值,计算所述各个所述主题对应的累计权重,并将所述累计权重最大的主题作为所述第一关键词对应的所述主题标签;
在获取到每个主题对应的N个关键字后,可基于N个关键字对应的权重值计算所述各个主题对应的累计权重,并将累所述计权重最大的主题作为第一关键词的主题标签。也即若各个关键词对应一个主题,则将累计权重最大的一个主题作为第一关键词的主题标签。
步骤S24,根据所述关键词组的各个关键词对应的所述主题标签,构建所述标签体系。
在关键词组的各个关键词均确定对应的主题标签后,基于该主题标签构建标签体系,其中,所述标签体系中包含各个主题以及各个主题下对应的存在关联的关键字。
示例性的,进行LDA主题建模的关键词组包括“城管”、“环卫”,基于此爬取到的特征数位为“城管是指负责本市城管监察行政执法的指导、统筹协调和组织调度工作。本市城管监察行政执法队伍的监督和考核工作。贯彻实施国家及本市有关城市管理方面的法律、法规及规章,治理和维护城市管理秩序”以及“环境卫生,按国际著名公益组织君友会的解释是指人类身体活动周围的所有环境内,控制一切妨碍或影响健康的因素。环境卫生之范围非常复杂而广泛,其内容大致包括:饮水卫生、废污处理(包括污水处理、垃圾处理)、食品卫生、病媒管制、工业卫生、公害防治(包括空气污染防制、水污染防治、噪音管制等)、房屋卫生等。环境卫生是应用细菌学、生物学、昆虫学、化学、物理学、卫生教育学、气象学及工程学等科学方法及手段,管制可能引起疾病之事物与条件。环境卫生是随着人类之社会生活而演变,而今之社会环境不断的受到人为的改变。因此,环境卫生的问题成为自然生态系统,转化为人类生态系统过程中的问题。由于人口之激增与集中都市,有关饮水卫生、废污处理、环境污染等问题,皆须用科学方法来规划、设计与管制,使环境能适于人类的生活,促进现代文明:保障全民有过着健康生活之标准,实现其健康长寿之天赋权利。”的内容,基于此,输出得到的城管对应的主题的关键字包括:“城市 管理 执法 部门 行政执法 城管 行政 英文 住房 综合 执法人员 公务员 城乡 执法局 街道 组织 监督 制度 国家 删除”,环卫对应的关键字包括:“监测 断面 点位 健康 河流 因子 类别 设施 删除 经度 流域水质 测点 水体 纬度 黑臭 条件 轨迹 计算 监测点”。
需要说明的是,上述关键字由LDA模型生成,上述数据仅用于解释说明,并非是方案的具体限定。
可选地,还可基于KMeans(k-means clustering algorithm,迭代求解的聚类分析算法)模型替代所述LDA模型,或将KMeans模型结合LDA模型的方式实现无监督的主题挖掘。
步骤S30,对所述标签体系进行校验,当校验结果为校验成功时,根据所述标签体系以及Mybert模型为所述待标注文本添加对应的主题标签。
在本实施例中,构建完标签体系后,需要对LDA主题模型输出的关键词(标签)进行校验管理,例如采用人工的方式对当前输出的标签进行有监督校验,也可根据预设的自动校验规则进行自动校验。当人工有监督校验方式校验通过时,可以点击校验成功控件,以及当自动校验规则输出的校验结果为校验成功时,说明当前构建的标签体系可应用于实际场景中,基于此,可以将标签体系对应的标签以及待标注文本作为Mybert(改进的双向编码模型)模型的输入参数,基于Mybert模型为所述待标注文本打上相应的标签,在打标签的过程中,无需人工参与。
可选地,接收到与所述领域相同的文本时,可以直接基于当前构建的标签体系以及Mybert模型为该文本添加对应的主题标签,实现构建标签体系后,对给定的任意指标内容均可以给其打上标签的全流程闭环。
可选地,在校验结果为校验失败时,对LDA模型进行微调后,跳转执行所述爬取所述关键词组对应的特征数据的步骤,其中微调可以是修改LDA模型的参数。
可选地,可以通过bert(Bidirectional Encoder Representation fromTransformers,基于变化器的双向编码表示)模型以及pytorch(开源的Python机器学习库)多标签分类模型,训练得到所述Mybert模型。还可在Mybert模型添加相应规则,保障待标注文本能够分配到相应的主题。其中,可将bert模型替换为Ernie(厄尼)模型。
在本实施例公开的技术方案中,根据待标注文本对应关键词所属的领域,通过爬虫爬取大量关键词组所属领域内的特征数据,并将预处理后的特征数据进行LDA主题建模学习,随后构建标签体系,基于此实现了自上而下的构建标签体系的过程,并通过改进后的Mybert模型以及当前的标签体系自动为待标注文本或其他相同领域文本打上相应的标签,实现基于指标智能构建体系框架的同时,对给定的任意指标内容可以给其打上标签的全流程闭环,基于此提高了文本标签挖掘的效率。
参照图2,在第二实施例中,基于第一实施例,步骤S20之前,还包括:
步骤S40,获取所述待标注文本所属的领域对应的分词词典,以及通用词权重词典;
在本实施例中,预处理后的特征数据指的是对爬取到的特征数据进行分词处理,特征数据中各个关键词权重占比。在专有名词进行切分时,为避免名词切分出错,需要基于专有名词所属的领域对应的分词词典专有名词进行切分,同时为避免通用词汇“这”、“的”以及“了”等影响,需要降低其在特征数据中对应的权重值。因此,在特征数据预处理过程中,需要获取所述待标注文本所属的领域对应的分词词典,以及通用词权重词典。其中,分词词典可以是用户基于待标注文本所处的领域配置的自定义词典,也可以是通过学习模型基于待标注文本所属领域构建的词典,通用词权重词典用于降低通用词汇的权重占比。
步骤S50,根据所述分词词典确定所述特征数据的分词划分节点,并基于所述分词划分节点对所述特征数据进行分词处理;以及
步骤S60,计算分词后的所述特征数据中特征关键词组的词频以及逆文本频率指数,并基于所述词频以及所述逆文本频率指数,确定所述特征数据的特征关键字的权重占比;以及
步骤S70,根据所述通用词权重词典的通用词权重规则,降低所述特征数据的通用词的权重占比,得到所述预处理后的所述特征数据。
在本实施例中,通过计算分词后的特征关键词组中各个词的词频以及逆文本频率指数确定其对应的特征关键字的权重占比,与此同时通过通用词权重词典降低通用词的权重占比,使得特征数据中各个词的占比更合理,进而保障对预处理后的特征数据进行LDA主题建模时,能够得到更为合理的主题标签。
在本实施例公开的技术方案中,通过获取待标注文本所述领域对应的分词词典以及通用词权重词典对当前的特征数据进行分词以及分词后数据的权重比值处理,使得用于LDA主题建模的特征数据更加符合实际需求,进而在进行LDA主题建模时,能够得到更为合理的主题标签。
参照图3,在第三实施例中,基于第一实施例,步骤S10之前,还包括
步骤S80,检测到预设标签体系中的主题标签无法表述所述关键词组的第二关键词时,确定所述关键词组所属的领域。
具体的,在根据待标注文本对应关键词组所属的领域,爬取所述关键词组对应的特征数据之前,为避免数据重复爬取造成资源浪费,可以对预设标签体系中的主题标签进行检测。当检测到预设标签体系中的主题标签无法表述所述关键词组的关键词时,确定所述关键词组所属的领域。
示例性的,预设标签体系中的主题标签包括:水环境、固体废物、教育发展、应急人员、教育资源以及房地产市场等标签,每个标签都有用于表示该标签含义的内容,如水环境标签中包括“地下水、地表水、河流、湖泊以及海洋等”关键字。而待标注文本中对应的关键词组中包含“共享单车”的一词,而当前的水环境、固体废物等标签及其标签对应的关键字解释中均不包含“共享单车”的内容,也即当前的主题标签无法表述待标注文本的内容时,需要进一步确定“共享单车”所在关键词的词组中所属的领域。
可选地,还可通过关键词组中其他关键词确定关键词组的解释,如关键词组还包括投放量、增长量等,可以确定待标注文本所属领域为经济领域,而关键词组中还包括骑行、出行、游玩等词,可以确定待标注文本所属领域为人文领域。
可选地,在检测到所述预设标签体系中的主题标签能够表述所述关键词组的特征时,可以直接根据Mybert模型以及预设标签体系的预设标签为待标注文本添加对应的主题标签。
在本实施例公开的技术方案中,在数据爬取之前,能够对当前关键词组以及标签体系的主题标签进行校验,当预设标签体系中不存在能够表征当前关键词组的标签时,可以直接确定关键词组所属领域,进而基于该领域爬取相应的特征数据。当预设标签体系中存在能够表征当前关键词组的特征的标签时,直接基于当前预设标签体系以及Mybert模型为待标注文本打上相应的主题标签,进而可以避免数据的重复爬取造成资源浪费,同时提高了标签挖掘的效率。
参照图4,图4为本发明实施例方案涉及的硬件运行环境的终端结构示意图。
如图4所示,该终端可以包括:处理器1001,例如中央处理器(Central ProcessingUnit,CPU),通信总线1002、网络接口1003,存储器1004。其中,通信总线1002用于实现这些组件之间的连接通信。网络接口1003可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity,WI-FI)接口)。存储器1004可以是高速的RAM存储器(RandomAccess Memory,RAM),也可以是稳定的非易失性存储器(Non-Volatile Memory,NVM),例如磁盘存储器。存储器1004可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图4中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图4所示,作为一种计算机存储介质的存储器1004中可以包括操作系统、数据存储模块、网络通信模块以及文本处理程序。
在图4所示的终端中,网络接口1003主要用于连接后台服务器,与后台服务器进行数据通信;处理器1001可以调用存储器1004中存储的文本处理程序,并执行以下操作:
根据待标注文本对应关键词组所属的领域,爬取所述关键词组对应的特征数据;
基于所述关键词组以及预处理后的所述特征数据,进行LDA主题建模,得到所述待标注文本的标签体系;
对所述标签体系进行校验,当校验结果为校验成功时,根据所述标签体系以及Mybert模型为所述待标注文本添加对应的主题标签。
进一步地,处理器1001可以调用存储器1004中存储的文本处理程序,还执行以下操作:
获取所述待标注文本所属的领域对应的分词词典,以及通用词权重词典;
根据所述分词词典确定所述特征数据的分词划分节点,并基于所述分词划分节点对所述特征数据进行分词处理;以及
计算分词后的所述特征数据中特征关键词组的词频以及逆文本频率指数,并基于所述词频以及所述逆文本频率指数,确定所述特征数据的特征关键字的权重占比;以及
根据所述通用词权重词典的通用词权重规则,降低所述特征数据的通用词的权重占比,得到所述预处理后的所述特征数据。
进一步地,处理器1001可以调用存储器1004中存储的文本处理程序,还执行以下操作:
将所述关键词组及其对应的预处理后的所述特征数据,输入到LDA主题模型中,得到所述关键词组的各个关键词的主题数,其中,所述主题数小于或等于主题数阈值;
若所述关键词组存在第一关键词对应的主题数为多个时,依次从各个所述主题对应的关键字中,根据所述关键字的权重值选取N个所述关键字;
根据所述关键字的权重值,计算所述各个所述主题对应的累计权重,并将所述累计权重最大的主题作为所述第一关键词对应的所述主题标签;
根据所述关键词组的各个关键词对应的所述主题标签,构建所述标签体系。
进一步地,处理器1001可以调用存储器1004中存储的文本处理程序,还执行以下操作:
将所述关键词组及其对应的所述预处理后的所述特征数据,输入到所述LDA主题模型中,得到所述预处理后的所述特征数据的困惑度:
根据所述困惑度的极小值和/或极小区间确定所述主题数。
进一步地,处理器1001可以调用存储器1004中存储的文本处理程序,还执行以下操作:
通过bert模型以及pytorch多标签分类模型,训练得到所述Mybert模型;
所述对所述标签体系进行校验,当校验结果为校验成功时,根据所述标签体系以及Mybert模型为所述待标注文本添加对应的主题标签的步骤包括:
基于预设校验规则对各个所述关键词,以及各个所述关键词对应的所述主题标签进行校验;
当所述校验结果为校验成功时,将所述标签体系对应的标签,以及所述待标注文本作为所述Mybert模型的输入参数,得到带有所述主题标签的所述待标注文本。
进一步地,处理器1001可以调用存储器1004中存储的文本处理程序,还执行以下操作:
基于预设校验规则对各个所述关键词,以及各个所述关键词对应的所述主题标签进行校验;
在校验结果为校验失败时,对LDA模型进行微调后,跳转执行所述爬取所述关键词组对应的特征数据的步骤。
进一步地,处理器1001可以调用存储器1004中存储的文本处理程序,还执行以下操作:
检测到预设标签体系中的主题标签无法表述所述关键词组的第二关键词时,确定所述关键词组所属的领域;或者
检测到所述预设标签体系中的主题标签能够表述所述关键词组的特征时,根据Mybert模型以及预设标签体系的预设标签为待标注文本添加对应的主题标签。
进一步地,处理器1001可以调用存储器1004中存储的文本处理程序,还执行以下操作:
基于自然语言处理工具和/或自然语言处理模型生成所述关键词组的所述特征数据。
此外,本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令,计算机程序可以存储于一存储介质中,该存储介质为计算机可读存储介质。该程序指令被控制终端中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。
因此,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有文本处理程序,所述文本处理程序被处理器执行时实现如上实施例所述的文本处理方法的各个步骤。
需要说明的是,由于本申请实施例提供的存储介质,为实施本申请实施例的方法所采用的存储介质,故而基于本申请实施例所介绍的方法,本领域所属人员能够了解该存储介质的具体结构及变形,故而在此不再赘述。凡是本申请实施例的方法所采用的存储介质都属于本申请所欲保护的范围。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例,或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框,以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
应当注意的是,在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二,以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (8)

1.一种文本处理方法,其特征在于,所述文本处理方法包括:
检测到预设标签体系中的主题标签无法表述关键词组的第二关键词时,确定所述关键词组所属的领域;或者
检测到所述预设标签体系中的主题标签能够表述所述关键词组的特征时,根据Mybert模型以及预设标签体系的预设标签为待标注文本添加对应的主题标签;
根据待标注文本对应关键词组所属的领域,爬取所述关键词组对应的特征数据;
基于所述关键词组以及预处理后的所述特征数据,进行LDA主题建模,得到所述待标注文本的标签体系;
通过bert模型以及pytorch多标签分类模型,训练得到所述Mybert模型,其中,可在所述Mybert模型添加相应规则,保障所述待标注文本能够分配到相应的主题;
基于预设校验规则对各个所述关键词,以及各个所述关键词对应的所述主题标签进行校验;
当校验结果为校验成功时,将所述标签体系对应的标签,以及所述待标注文本作为所述Mybert模型的输入参数,得到带有所述主题标签的所述待标注文本。
2.如权利要求1所述的文本处理方法,其特征在于,所述基于所述关键词组以及预处理后的所述特征数据,进行LDA主题建模,得到所述待标注文本的标签体系的步骤之前,还包括:
获取所述待标注文本所属的领域对应的分词词典,以及通用词权重词典;
根据所述分词词典确定所述特征数据的分词划分节点,并基于所述分词划分节点对所述特征数据进行分词处理;以及
计算分词后的所述特征数据中特征关键词组的词频以及逆文本频率指数,并基于所述词频以及所述逆文本频率指数,确定所述特征数据的特征关键字的权重占比;以及
根据所述通用词权重词典的通用词权重规则,降低所述特征数据的通用词的权重占比,得到所述预处理后的所述特征数据。
3.如权利要求1所述的文本处理方法,其特征在于,所述基于所述关键词组以及预处理后的所述特征数据,进行LDA主题建模,得到所述待标注文本的标签体系的步骤包括:
将所述关键词组及其对应的预处理后的所述特征数据,输入到LDA主题模型中,得到所述关键词组的各个关键词的主题数,其中,所述主题数小于或等于主题数阈值;
若所述关键词组存在第一关键词对应的主题数为多个时,依次从各个所述主题对应的关键字中,根据所述关键字的权重值选取N个所述关键字;
根据所述关键字的权重值,计算所述各个所述主题对应的累计权重,并将所述累计权重最大的主题作为所述第一关键词对应的所述主题标签;
根据所述关键词组的各个关键词对应的所述主题标签,构建所述标签体系。
4.如权利要求3所述的文本处理方法,其特征在于,所述将所述关键词组及其对应的预处理后的所述特征数据,输入到LDA主题模型中,得到所述关键词组的各个关键词的主题数,其中,所述主题数小于或等于主题数阈值的步骤包括:
将所述关键词组及其对应的所述预处理后的所述特征数据,输入到所述LDA主题模型中,得到所述预处理后的所述特征数据的困惑度:
根据所述困惑度的极小值和/或极小区间确定所述主题数。
5.如权利要求1所述的文本处理方法,其特征在于,所述基于所述关键词组以及预处理后的所述特征数据,进行LDA主题建模,得到所述待标注文本的标签体系的步骤之后,还包括:
基于预设校验规则对各个所述关键词,以及各个所述关键词对应的所述主题标签进行校验;
在校验结果为校验失败时,对LDA模型进行微调后,跳转执行所述爬取所述关键词组对应的特征数据的步骤。
6.如权利要求1所述的文本处理方法,其特征在于,所述基于所述关键词组以及预处理后的所述特征数据,进行LDA主题建模,得到所述待标注文本的标签体系的步骤之前,还包括:
基于自然语言处理工具和/或自然语言处理模型生成所述关键词组的所述特征数据。
7.一种文本处理装置,其特征在于,所述文本处理装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的文本处理程序,所述文本处理程序被所述处理器执行时实现如权利要求1至6中任一项所述的文本处理方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有文本处理程序,所述文本处理程序被处理器执行时实现如权利要求1至6中任一项所述的文本处理方法的步骤。
CN202310982365.8A 2023-08-07 2023-08-07 文本处理方法、文本处理装置及计算机可读存储介质 Active CN116702775B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310982365.8A CN116702775B (zh) 2023-08-07 2023-08-07 文本处理方法、文本处理装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310982365.8A CN116702775B (zh) 2023-08-07 2023-08-07 文本处理方法、文本处理装置及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN116702775A CN116702775A (zh) 2023-09-05
CN116702775B true CN116702775B (zh) 2023-11-03

Family

ID=87831562

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310982365.8A Active CN116702775B (zh) 2023-08-07 2023-08-07 文本处理方法、文本处理装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN116702775B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108399228A (zh) * 2018-02-12 2018-08-14 平安科技(深圳)有限公司 文章分类方法、装置、计算机设备及存储介质
CN112084334A (zh) * 2020-09-04 2020-12-15 中国平安财产保险股份有限公司 语料的标签分类方法、装置、计算机设备及存储介质
CN113553429A (zh) * 2021-07-07 2021-10-26 北京计算机技术及应用研究所 一种规范化标签体系构建及文本自动标注方法
CN114021577A (zh) * 2021-11-02 2022-02-08 山东库睿科技有限公司 内容标签的生成方法、装置、电子设备及存储介质
CN115269842A (zh) * 2022-07-29 2022-11-01 宁波深擎信息科技有限公司 一种智能标签生成方法、装置、计算机设备和存储介质
CN115640376A (zh) * 2022-09-08 2023-01-24 北京天融信网络安全技术有限公司 文本标注方法、装置、电子设备和计算机可读存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11625537B2 (en) * 2020-02-24 2023-04-11 Fujitsu Limited Analysis of theme coverage of documents

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108399228A (zh) * 2018-02-12 2018-08-14 平安科技(深圳)有限公司 文章分类方法、装置、计算机设备及存储介质
CN112084334A (zh) * 2020-09-04 2020-12-15 中国平安财产保险股份有限公司 语料的标签分类方法、装置、计算机设备及存储介质
CN113553429A (zh) * 2021-07-07 2021-10-26 北京计算机技术及应用研究所 一种规范化标签体系构建及文本自动标注方法
CN114021577A (zh) * 2021-11-02 2022-02-08 山东库睿科技有限公司 内容标签的生成方法、装置、电子设备及存储介质
CN115269842A (zh) * 2022-07-29 2022-11-01 宁波深擎信息科技有限公司 一种智能标签生成方法、装置、计算机设备和存储介质
CN115640376A (zh) * 2022-09-08 2023-01-24 北京天融信网络安全技术有限公司 文本标注方法、装置、电子设备和计算机可读存储介质

Also Published As

Publication number Publication date
CN116702775A (zh) 2023-09-05

Similar Documents

Publication Publication Date Title
CN113672708B (zh) 语言模型训练方法、问答对生成方法、装置及设备
CN110287334A (zh) 一种基于实体识别和属性抽取模型的学校领域知识图谱构建方法
CN112036842B (zh) 一种科技服务智能匹配装置
CN112766507B (zh) 基于嵌入式和候选子图剪枝的复杂问题知识库问答方法
Pardos et al. Imputing KCs with representations of problem content and context
CN107436942A (zh) 基于社交媒体的词嵌入方法、系统、终端设备及存储介质
CN112163097A (zh) 一种军事知识图谱构建方法及系统
CN112052304A (zh) 课程标签确定方法、装置及电子设备
CN109582786A (zh) 一种基于自动编码的文本表示学习方法、系统及电子设备
CN115563297A (zh) 一种基于图神经网络的食品安全知识图谱构建与补全方法
CN112100398A (zh) 一种专利空白预测方法及系统
CN113204967A (zh) 简历命名实体识别方法及系统
CN115470232A (zh) 模型训练和数据查询方法、装置、电子设备和存储介质
CN107832290A (zh) 中文语义关系的识别方法及装置
CN114638222B (zh) 自然灾害数据的分类方法及其模型训练方法、装置
CN108090098A (zh) 一种文本处理方法及装置
CN116956816A (zh) 文本处理方法、模型训练方法、装置及电子设备
CN114492661B (zh) 文本数据分类方法和装置、计算机设备、存储介质
CN111930937A (zh) 基于bert的智慧政务文本多分类方法及系统
CN115186085A (zh) 回复内容处理方法以及媒体内容互动内容的交互方法
CN116702775B (zh) 文本处理方法、文本处理装置及计算机可读存储介质
CN117271776A (zh) 难度-知识点-解题思路的智能多标签标注方法及系统
CN114282542B (zh) 网络舆情监控方法及设备
Bai et al. Gated character-aware convolutional neural network for effective automated essay scoring
Li et al. Grade Prediction via Prior Grades and Text Mining on Course Descriptions: Course Outlines and Intended Learning Outcomes.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Text processing methods, text processing devices, and computer-readable storage media

Granted publication date: 20231103

Pledgee: Shanghai Pudong Development Bank Co.,Ltd. Shenzhen Branch

Pledgor: Shenzhen Smart City Technology Development Group Co.,Ltd.|Shenzhen Zhicheng Software Technology Service Co.,Ltd.

Registration number: Y2024980060527