CN116975298B - 一种基于nlp的现代化社会治理调度系统及方法 - Google Patents

一种基于nlp的现代化社会治理调度系统及方法 Download PDF

Info

Publication number
CN116975298B
CN116975298B CN202311227670.2A CN202311227670A CN116975298B CN 116975298 B CN116975298 B CN 116975298B CN 202311227670 A CN202311227670 A CN 202311227670A CN 116975298 B CN116975298 B CN 116975298B
Authority
CN
China
Prior art keywords
text
information
verification
labeling
font
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311227670.2A
Other languages
English (en)
Other versions
CN116975298A (zh
Inventor
李沛
韩思阳
黄磊
邓晓辉
杨正蓉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Smart Siming Data Co ltd
Original Assignee
Xiamen Smart Siming Data Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Smart Siming Data Co ltd filed Critical Xiamen Smart Siming Data Co ltd
Priority to CN202311227670.2A priority Critical patent/CN116975298B/zh
Publication of CN116975298A publication Critical patent/CN116975298A/zh
Application granted granted Critical
Publication of CN116975298B publication Critical patent/CN116975298B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Databases & Information Systems (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Character Discrimination (AREA)

Abstract

本申请自然语言处理技术领域,特别是涉及一种基于NLP的现代化社会治理调度系统及方法。方法包括:获取待解析的目标图像,基于特征提取算法处理目标图像,得到文本信息单元;应用预设的自然语言识别模型对文本信息单元进行标注处理,得到与文本信息单元对应的第一标注信息,基于文本信息单元以及第一标注信息构建验证文本集;将验证文本集生成验证文本词条,将验证文本词条发布至应用服务平台;响应于应用服务平台的验证交互信息,获取对验证文本词条的第二标注信息;根据向量距离,对验证文本集进行更新,应用更新后的验证文本集迭代自然语言识别模型。采用本方法能够提高自然语言识别模型的准确度。

Description

一种基于NLP的现代化社会治理调度系统及方法
技术领域
本申请涉及自然语言处理技术领域,特别是涉及一种基于NLP的现代化社会治理调度方法、系统、计算机设备、存储介质和计算机程序产品。
背景技术
NLP是自然语言处理(Natural Language Processing)的缩写,是人工智能领域中研究和应用的一个重要方向。NLP的目标是让计算机能够理解、处理和生成自然语言(人类日常使用的语言),使计算机能够与人类进行自然的语言交互。NLP涉及到对文本和语言的各个层面进行处理和分析,包括词法分析、句法分析、语义分析、语篇分析等。主要任务包括文本分类、命名实体识别、情感分析、机器翻译、问答系统、文本生成等。NLP的发展离不开自然语言的特点和挑战,如语义的多义性、语法的复杂性、上下文的理解等。NLP的研究和应用需要结合语言学、计算机科学、数学和统计学等多个学科的知识和方法。NLP存在非常广泛的应用,例如:机器翻译、信息提取、问答系统、文本分类、语音识别以及文本生成。
然而,目前的NLP在应用于数字政府服务系统时,存在如下的技术问题:
由于语言与文字的统一性,NLP技术在输出信息一侧的应用较为可靠稳定,但是,由于自然语言的个性化的特点,例如方言、个人字迹等,在获取、解析信息的语言输入端存在较大的局限性,导致语言输入端信息获取的准确度较低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够通过将数据处理后提供至应用服务平台,通过应用服务平台的验证环节对文本数据进行大量标注,从而提高验证文本集的准确度,最终提高自然语言识别模型的准确度的一种基于NLP的现代化社会治理调度方法、系统、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种基于NLP的现代化社会治理调度方法。所述方法包括:
获取待解析的目标图像,基于特征提取算法处理所述目标图像,得到文本信息单元;
应用预设的自然语言识别模型对所述文本信息单元进行标注处理,得到与所述文本信息单元对应的第一标注信息,基于所述文本信息单元以及所述第一标注信息构建验证文本集;
将所述验证文本集生成验证文本词条,将所述验证文本词条发布至应用服务平台;
响应于所述应用服务平台的验证交互信息,获取对所述验证文本词条的第二标注信息;
分别对所述第一标注信息与所述第二标注信息进行向量化处理,根据关联至同一所述文本信息单元的所述第一标注信息以及所述第二标注信息的向量距离,对所述验证文本集进行更新,应用更新后的所述验证文本集迭代所述自然语言识别模型。
可选的,所述根据关联至同一所述文本信息单元的所述第一标注信息以及所述第二标注信息的向量距离,对所述验证文本集进行更新,应用更新后的所述验证文本集迭代所述自然语言识别模型包括:
获取与目标文本信息单元相关联的多个所述第二标注信息;
分别获取与所述目标文本信息单元关联的所述第一标注信息与所述第二标注信息的多组所述向量距离;
当多组所述向量距离的均值小于或等于预设的匹配阈值时,判定所述第一标注信息无效,并对多组所述第二标注信息进行合并处理,得到融合标注信息,以所述融合标注信息更新所述验证文本集。
可选的,所述应用更新后的所述验证文本集迭代所述自然语言识别模型之后,还包括:
获取更新后的所述自然语言识别模型获取与所述文本信息单元对应的真实标签;
将所述真实标签与所述第一标注信息进行对照演化,提取出所述文本信息单元中的字形纠正样本对,所述字形纠正样本对包括提取自所述第一标注信息的误差字形样本,还包括提取自所述真实标签的规范字形样本,所述误差字形样本与所述规范字形样本一一对应;
基于所述字形纠正样本对构建字形纠正训练集,应用所述字形纠正训练集将预构建的神经网络模型训练至收敛,得到字形纠正模型,所述字形纠正模型用于对所述文本信息单元进行字形纠正。
可选的,所述基于所述字形纠正样本对构建字形纠正训练集,应用所述字形纠正训练集将预构建的神经网络模型训练至收敛,得到字形纠正模型,所述字形纠正模型用于对所述文本信息单元进行字形纠正包括:
根据预设的样本比例对所述字形纠正训练集进行分割,得到等分的N个互斥的字形纠正子集;
随机选取预设n个所述字形纠正子集作为验证集,以剩余的N-n个所述字形纠正子集作为训练集,对所述神经网络模型进行遍历训练,直至任意组合的n个所述字形纠正子集均被用于作为所述验证集。
可选的,所述应用预设的自然语言识别模型对所述文本信息单元进行标注处理,得到与所述文本信息单元对应的第一标注信息之前,还包括:
应用所述字形纠正模型对所述文本信息单元进行预处理,以使所述文本信息单元中的字形得到修正。
可选的,所述将所述验证文本集生成验证文本词条,将所述验证文本词条发布至应用服务平台之前,还包括:
基于预设的筛选逻辑对所述验证文本集进行过滤处理,所述过滤处理用于去除所述验证文本集中的目标文本信息单元,所述目标文本信息单元包括复杂度低于预设阈值的所述文本信息单元。
第二方面,本申请还提供了一种基于NLP的现代化社会治理调度系统。所述系统包括:
特征提取模块,用于获取待解析的目标图像,基于特征提取算法处理所述目标图像,得到文本信息单元;
初始标注模块,用于应用预设的自然语言识别模型对所述文本信息单元进行标注处理,得到与所述文本信息单元对应的第一标注信息,基于所述文本信息单元以及所述第一标注信息构建验证文本集;
验证文本发布模块,用于将所述验证文本集生成验证文本词条,将所述验证文本词条发布至应用服务平台;
验证标注模块,用于响应于所述应用服务平台的验证交互信息,获取对所述验证文本词条的第二标注信息;
识别模型迭代模块,用于分别对所述第一标注信息与所述第二标注信息进行向量化处理,根据关联至同一所述文本信息单元的所述第一标注信息以及所述第二标注信息的向量距离,对所述验证文本集进行更新,应用更新后的所述验证文本集迭代所述自然语言识别模型。
可选的,所述识别模型迭代模块包括:
第二标注信息模块,用于获取与目标文本信息单元相关联的多个所述第二标注信息;
向量距离模块,用于分别获取与所述目标文本信息单元关联的所述第一标注信息与所述第二标注信息的多组所述向量距离;
信息融合模块,用于当多组所述向量距离的均值小于或等于预设的匹配阈值时,判定所述第一标注信息无效,并对多组所述第二标注信息进行合并处理,得到融合标注信息,以所述融合标注信息更新所述验证文本集。
可选的,所述识别模型迭代模块之后,还包括:
真实标签模块,用于获取更新后的所述自然语言识别模型获取与所述文本信息单元对应的真实标签;
字形纠正样本对模块,用于将所述真实标签与所述第一标注信息进行对照演化,提取出所述文本信息单元中的字形纠正样本对,所述字形纠正样本对包括提取自所述第一标注信息的误差字形样本,还包括提取自所述真实标签的规范字形样本,所述误差字形样本与所述规范字形样本一一对应;
字形纠正模型模块,用于基于所述字形纠正样本对构建字形纠正训练集,应用所述字形纠正训练集将预构建的神经网络模型训练至收敛,得到字形纠正模型,所述字形纠正模型用于对所述文本信息单元进行字形纠正。
可选的,所述字形纠正模型模块包括:
训练集分割模块,用于根据预设的样本比例对所述字形纠正训练集进行分割,得到等分的N个互斥的字形纠正子集;
循环遍历模块,用于随机选取预设n个所述字形纠正子集作为验证集,以剩余的N-n个所述字形纠正子集作为训练集,对所述神经网络模型进行遍历训练,直至任意组合的n个所述字形纠正子集均被用于作为所述验证集。
可选的,所述初始标注模块之前,还包括:
数据预处理模块,用于应用所述字形纠正模型对所述文本信息单元进行预处理,以使所述文本信息单元中的字形得到修正。
可选的,所述验证文本发布模块之前,还包括:
数据过滤模块,用于基于预设的筛选逻辑对所述验证文本集进行过滤处理,所述过滤处理用于去除所述验证文本集中的目标文本信息单元,所述目标文本信息单元包括复杂度低于预设阈值的所述文本信息单元。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如第一方面中任意一项实施例所述的一种基于NLP的现代化社会治理调度方法中的步骤。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面中任意一项实施例所述的一种基于NLP的现代化社会治理调度方法中的步骤。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如第一方面中任意一项实施例所述的一种基于NLP的现代化社会治理调度方法中的步骤。
上述一种基于NLP的现代化社会治理调度方法、系统、计算机设备、存储介质和计算机程序产品,通过独权中的技术特征进行推导,能够达到对应背景技术中的技术问题的如下有益效果:
在与社会治理调度相关的数字政务服务系统中,在进行自然语言处理时可以首先获取待解析语义的目标图像,通过对目标图像的特征分割和处理得到目标图像中所包含的文本信息单元,此时的文本信息单元可以包括单一的文字,也可以是连接性较强的字段,随后可以应用初始的自然语言识别模型对文本信息单元进行识别,得到第一标注信息,此时的第一标注信息为原始模型对文本信息进行识别的结果。为了提高标注结果的准确度,服务器可以将文本信息单元构建为验证文本集,并将验证文本集中的文本信息单元进行随机组合,在组合中能够实现信息内容的破除,使得得到的验证文本词条不携带涉及用户隐私的信息。随后,可以将验证文本词条发布至应用服务平台,在外部用户进行人机验证时,手动对这些验证文本的含义进行标注,从而将字形奇怪特异的文本信息进行大量的、低成本的人工标注,最后可以将第二标注信息与第一标注信息进行结合,从而对自然语言识别模型进行更新,提高了自然语言识别模型训练集的监督信号的强度,最终提高模型的准确度。在实施中,以非泄露信息的方式实现了人工标注的样本的发布,从而获取了大量低成本、高可靠的标注数据,在提高了模型精确度的基础上,降低了自然语言识别模型的构建成本。
附图说明
图1为一个实施例中一种基于NLP的现代化社会治理调度方法的应用环境图;
图2为一个实施例中一种基于NLP的现代化社会治理调度方法的第一流程示意图;
图3为一个实施例中一种基于NLP的现代化社会治理调度系统的结构框图;
图4为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
基于此,本申请实施例提供的一种基于NLP的现代化社会治理调度方法,可以应用于如图1所示的应用环境中。其中,终端a通过网络与服务器b进行通信。数据存储系统可以存储服务器b需要处理的数据。数据存储系统可以集成在服务器b上,也可以放在云上或其他网络服务器上。其中,终端a可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器b可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种基于NLP的现代化社会治理调度方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤101:获取待解析的目标图像,基于特征提取算法处理所述目标图像,得到文本信息单元。
具体地,目标图像可以指携带文本信息的原始图像,例如手写形式的文本材料等。文本信息单元可以为由目标图像中分割出的携带单一文本字符的图像单元,文本信息单元可以携带由多个字符组成的字段。
步骤102:应用预设的自然语言识别模型对所述文本信息单元进行标注处理,得到与所述文本信息单元对应的第一标注信息,基于所述文本信息单元以及所述第一标注信息构建验证文本集。
具体地,第一标注信息可以为自然语言识别模型处理文本信息单元得到的数据,可以为文本信息单元在特定语言类型下匹配的字、词信息。
步骤103:将所述验证文本集生成验证文本词条,将所述验证文本词条发布至应用服务平台。
具体地,验证文本词条可以为由若干个文本信息单元组合得到的词条,验证文本词条在生成中可以为来源于不同的目标图像的文本信息单元组成,从而避免信息的泄露。
步骤104:响应于所述应用服务平台的验证交互信息,获取对所述验证文本词条的第二标注信息。
其中,验证交互信息可以指用户在交互中针对验证文本词条输入的验证信息,例如:用户在阅读验证文本词条后,识别出的验证文本词条对应的文字。
步骤105:分别对所述第一标注信息与所述第二标注信息进行向量化处理,根据关联至同一所述文本信息单元的所述第一标注信息以及所述第二标注信息的向量距离,对所述验证文本集进行更新,应用更新后的所述验证文本集迭代所述自然语言识别模型。
其中,向量距离可以为欧式距离或余弦距离等,能够用于表示两个对象之间的相关度。
上述一种基于NLP的现代化社会治理调度方法中,结合实施例中的技术特征进行合理推导,能够实现解决背景技术中所提出的技术问题的如下有益效果:
在与社会治理调度相关的数字政务服务系统中,在进行自然语言处理时可以首先获取待解析语义的目标图像,通过对目标图像的特征分割和处理得到目标图像中所包含的文本信息单元,此时的文本信息单元可以包括单一的文字,也可以是连接性较强的字段,随后可以应用初始的自然语言识别模型对文本信息单元进行识别,得到第一标注信息,此时的第一标注信息为原始模型对文本信息进行识别的结果。为了提高标注结果的准确度,服务器可以将文本信息单元构建为验证文本集,并将验证文本集中的文本信息单元进行随机组合,在组合中能够实现信息内容的破除,使得得到的验证文本词条不携带涉及用户隐私的信息。随后,可以将验证文本词条发布至应用服务平台,在外部用户进行人机验证时,手动对这些验证文本的含义进行标注,从而将字形奇怪特异的文本信息进行大量的、低成本的人工标注,最后可以将第二标注信息与第一标注信息进行结合,从而对自然语言识别模型进行更新,提高了自然语言识别模型训练集的监督信号的强度,最终提高模型的准确度。在实施中,以非泄露信息的方式实现了人工标注的样本的发布,从而获取了大量低成本、高可靠的标注数据,在提高了模型精确度的基础上,降低了自然语言识别模型的构建成本。
可选的,步骤105包括:
步骤201:获取与目标文本信息单元相关联的多个所述第二标注信息;
步骤202:分别获取与所述目标文本信息单元关联的所述第一标注信息与所述第二标注信息的多组所述向量距离;
步骤203:当多组所述向量距离的均值小于或等于预设的匹配阈值时,判定所述第一标注信息无效,并对多组所述第二标注信息进行合并处理,得到融合标注信息,以所述融合标注信息更新所述验证文本集。
可选的,步骤105之后,还包括:
步骤301:获取更新后的所述自然语言识别模型获取与所述文本信息单元对应的真实标签;
步骤302:将所述真实标签与所述第一标注信息进行对照演化,提取出所述文本信息单元中的字形纠正样本对,所述字形纠正样本对包括提取自所述第一标注信息的误差字形样本,还包括提取自所述真实标签的规范字形样本,所述误差字形样本与所述规范字形样本一一对应。
其中,误差字形样本可以为文字中存在弯曲等非规范的书写问题的部分。规范字形样本可以为与误差字形样本对应的,符合文字书写规范的笔画示例。
步骤303:基于所述字形纠正样本对构建字形纠正训练集,应用所述字形纠正训练集将预构建的神经网络模型训练至收敛,得到字形纠正模型,所述字形纠正模型用于对所述文本信息单元进行字形纠正。
可选的,步骤303包括:
步骤401:根据预设的样本比例对所述字形纠正训练集进行分割,得到等分的N个互斥的字形纠正子集;
步骤402:随机选取预设n个所述字形纠正子集作为验证集,以剩余的N-n个所述字形纠正子集作为训练集,对所述神经网络模型进行遍历训练,直至任意组合的n个所述字形纠正子集均被用于作为所述验证集。
可选的,步骤102之前,还包括:
步骤501:应用所述字形纠正模型对所述文本信息单元进行预处理,以使所述文本信息单元中的字形得到修正。
可选的,步骤103之前,还包括:
步骤601:基于预设的筛选逻辑对所述验证文本集进行过滤处理,所述过滤处理用于去除所述验证文本集中的目标文本信息单元,所述目标文本信息单元包括复杂度低于预设阈值的所述文本信息单元。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的一种基于NLP的现代化社会治理调度方法的一种基于NLP的现代化社会治理调度系统。该系统所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个一种基于NLP的现代化社会治理调度系统实施例中的具体限定可以参见上文中对于一种基于NLP的现代化社会治理调度方法的限定,在此不再赘述。
在一个实施例中,如图3所示,提供了一种基于NLP的现代化社会治理调度系统,包括:特征提取模块、初始标注模块、验证文本发布模块、验证标注模块和识别模型迭代模块,其中:
特征提取模块,用于获取待解析的目标图像,基于特征提取算法处理所述目标图像,得到文本信息单元;
初始标注模块,用于应用预设的自然语言识别模型对所述文本信息单元进行标注处理,得到与所述文本信息单元对应的第一标注信息,基于所述文本信息单元以及所述第一标注信息构建验证文本集;
验证文本发布模块,用于将所述验证文本集生成验证文本词条,将所述验证文本词条发布至应用服务平台;
验证标注模块,用于响应于所述应用服务平台的验证交互信息,获取对所述验证文本词条的第二标注信息;
识别模型迭代模块,用于分别对所述第一标注信息与所述第二标注信息进行向量化处理,根据关联至同一所述文本信息单元的所述第一标注信息以及所述第二标注信息的向量距离,对所述验证文本集进行更新,应用更新后的所述验证文本集迭代所述自然语言识别模型。
可选的,所述识别模型迭代模块包括:
第二标注信息模块,用于获取与目标文本信息单元相关联的多个所述第二标注信息;
向量距离模块,用于分别获取与所述目标文本信息单元关联的所述第一标注信息与所述第二标注信息的多组所述向量距离;
信息融合模块,用于当多组所述向量距离的均值小于或等于预设的匹配阈值时,判定所述第一标注信息无效,并对多组所述第二标注信息进行合并处理,得到融合标注信息,以所述融合标注信息更新所述验证文本集。
可选的,所述识别模型迭代模块之后,还包括:
真实标签模块,用于获取更新后的所述自然语言识别模型获取与所述文本信息单元对应的真实标签;
字形纠正样本对模块,用于将所述真实标签与所述第一标注信息进行对照演化,提取出所述文本信息单元中的字形纠正样本对,所述字形纠正样本对包括提取自所述第一标注信息的误差字形样本,还包括提取自所述真实标签的规范字形样本,所述误差字形样本与所述规范字形样本一一对应;
字形纠正模型模块,用于基于所述字形纠正样本对构建字形纠正训练集,应用所述字形纠正训练集将预构建的神经网络模型训练至收敛,得到字形纠正模型,所述字形纠正模型用于对所述文本信息单元进行字形纠正。
可选的,所述字形纠正模型模块包括:
训练集分割模块,用于根据预设的样本比例对所述字形纠正训练集进行分割,得到等分的N个互斥的字形纠正子集;
循环遍历模块,用于随机选取预设n个所述字形纠正子集作为验证集,以剩余的N-n个所述字形纠正子集作为训练集,对所述神经网络模型进行遍历训练,直至任意组合的n个所述字形纠正子集均被用于作为所述验证集。
可选的,所述初始标注模块之前,还包括:
数据预处理模块,用于应用所述字形纠正模型对所述文本信息单元进行预处理,以使所述文本信息单元中的字形得到修正。
可选的,所述验证文本发布模块之前,还包括:
数据过滤模块,用于基于预设的筛选逻辑对所述验证文本集进行过滤处理,所述过滤处理用于去除所述验证文本集中的目标文本信息单元,所述目标文本信息单元包括复杂度低于预设阈值的所述文本信息单元。
上述一种基于NLP的现代化社会治理调度系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图4所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于NLP的现代化社会治理调度方法。
本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (8)

1.一种基于NLP的现代化社会治理调度方法,其特征在于,所述方法包括:
获取待解析的目标图像,基于特征提取算法处理所述目标图像,得到文本信息单元;
应用预设的自然语言识别模型对所述文本信息单元进行标注处理,得到与所述文本信息单元对应的第一标注信息,基于所述文本信息单元以及所述第一标注信息构建验证文本集,所述第一标注信息为通过所述自然语言识别模型进行文本识别获取的机器标注信息;
将所述验证文本集生成验证文本词条,将所述验证文本词条发布至应用服务平台;
响应于所述应用服务平台的验证交互信息,获取对所述验证文本词条的第二标注信息,所述第二标注信息为所述应用服务平台的用户在验证交互的过程中输入的人工标注信息;
分别对所述第一标注信息与所述第二标注信息进行向量化处理,根据关联至同一所述文本信息单元的所述第一标注信息以及所述第二标注信息的向量距离,对所述验证文本集进行更新,应用更新后的所述验证文本集迭代所述自然语言识别模型;
所述根据关联至同一所述文本信息单元的所述第一标注信息以及所述第二标注信息的向量距离,对所述验证文本集进行更新,应用更新后的所述验证文本集迭代所述自然语言识别模型包括:
获取与目标文本信息单元相关联的多个所述第二标注信息;
分别获取与所述目标文本信息单元关联的所述第一标注信息与所述第二标注信息的多组所述向量距离;
当多组所述向量距离的均值小于或等于预设的匹配阈值时,判定所述第一标注信息无效,并对多组所述第二标注信息进行合并处理,得到融合标注信息,以所述融合标注信息更新所述验证文本集。
2.根据权利要求1所述的方法,其特征在于,所述应用更新后的所述验证文本集迭代所述自然语言识别模型之后,还包括:
获取更新后的所述自然语言识别模型获取与所述文本信息单元对应的真实标签;
将所述真实标签与所述第一标注信息进行对照演化,提取出所述文本信息单元中的字形纠正样本对,所述字形纠正样本对包括提取自所述第一标注信息的误差字形样本,还包括提取自所述真实标签的规范字形样本,所述误差字形样本与所述规范字形样本一一对应;
基于所述字形纠正样本对构建字形纠正训练集,应用所述字形纠正训练集将预构建的神经网络模型训练至收敛,得到字形纠正模型,所述字形纠正模型用于对所述文本信息单元进行字形纠正。
3.根据权利要求2所述的方法,其特征在于,所述基于所述字形纠正样本对构建字形纠正训练集,应用所述字形纠正训练集将预构建的神经网络模型训练至收敛,得到字形纠正模型,所述字形纠正模型用于对所述文本信息单元进行字形纠正包括:
根据预设的样本比例对所述字形纠正训练集进行分割,得到等分的N个互斥的字形纠正子集;
随机选取预设n个所述字形纠正子集作为验证集,以剩余的N-n个所述字形纠正子集作为训练集,对所述神经网络模型进行遍历训练,直至任意组合的n个所述字形纠正子集均被用于作为所述验证集。
4.根据权利要求2所述的方法,其特征在于,所述应用预设的自然语言识别模型对所述文本信息单元进行标注处理,得到与所述文本信息单元对应的第一标注信息之前,还包括:
应用所述字形纠正模型对所述文本信息单元进行预处理,以使所述文本信息单元中的字形得到修正。
5.根据权利要求1所述的方法,其特征在于,所述将所述验证文本集生成验证文本词条,将所述验证文本词条发布至应用服务平台之前,还包括:
基于预设的筛选逻辑对所述验证文本集进行过滤处理,所述过滤处理用于去除所述验证文本集中的目标文本信息单元,所述目标文本信息单元包括复杂度低于预设阈值的所述文本信息单元。
6.一种基于NLP的现代化社会治理调度系统,其特征在于,所述系统包括:
特征提取模块,用于获取待解析的目标图像,基于特征提取算法处理所述目标图像,得到文本信息单元;
初始标注模块,用于应用预设的自然语言识别模型对所述文本信息单元进行标注处理,得到与所述文本信息单元对应的第一标注信息,基于所述文本信息单元以及所述第一标注信息构建验证文本集,所述第一标注信息为通过所述自然语言识别模型进行文本识别获取的机器标注信息;
验证文本发布模块,用于将所述验证文本集生成验证文本词条,将所述验证文本词条发布至应用服务平台;
验证标注模块,用于响应于所述应用服务平台的验证交互信息,获取对所述验证文本词条的第二标注信息,所述第二标注信息为所述应用服务平台的用户在验证交互的过程中输入的人工标注信息;
识别模型迭代模块,用于分别对所述第一标注信息与所述第二标注信息进行向量化处理,根据关联至同一所述文本信息单元的所述第一标注信息以及所述第二标注信息的向量距离,对所述验证文本集进行更新,应用更新后的所述验证文本集迭代所述自然语言识别模型;
可选的,所述识别模型迭代模块包括:
第二标注信息模块,用于获取与目标文本信息单元相关联的多个所述第二标注信息;
向量距离模块,用于分别获取与所述目标文本信息单元关联的所述第一标注信息与所述第二标注信息的多组所述向量距离;
信息融合模块,用于当多组所述向量距离的均值小于或等于预设的匹配阈值时,判定所述第一标注信息无效,并对多组所述第二标注信息进行合并处理,得到融合标注信息,以所述融合标注信息更新所述验证文本集。
7.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述的方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。
CN202311227670.2A 2023-09-22 2023-09-22 一种基于nlp的现代化社会治理调度系统及方法 Active CN116975298B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311227670.2A CN116975298B (zh) 2023-09-22 2023-09-22 一种基于nlp的现代化社会治理调度系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311227670.2A CN116975298B (zh) 2023-09-22 2023-09-22 一种基于nlp的现代化社会治理调度系统及方法

Publications (2)

Publication Number Publication Date
CN116975298A CN116975298A (zh) 2023-10-31
CN116975298B true CN116975298B (zh) 2023-12-05

Family

ID=88479928

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311227670.2A Active CN116975298B (zh) 2023-09-22 2023-09-22 一种基于nlp的现代化社会治理调度系统及方法

Country Status (1)

Country Link
CN (1) CN116975298B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109508376A (zh) * 2018-11-23 2019-03-22 四川长虹电器股份有限公司 可在线纠错更新的意图识别方法及装置
CN110110334A (zh) * 2019-05-08 2019-08-09 郑州大学 一种基于自然语言处理的远程会诊记录文本纠错方法
CN111814472A (zh) * 2020-09-03 2020-10-23 平安国际智慧城市科技股份有限公司 文本识别方法、装置、设备及存储介质
CN113449514A (zh) * 2021-06-21 2021-09-28 浙江康旭科技有限公司 一种适用于特定垂直领域的文本纠错方法及其纠错装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180322411A1 (en) * 2017-05-04 2018-11-08 Linkedin Corporation Automatic evaluation and validation of text mining algorithms

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109508376A (zh) * 2018-11-23 2019-03-22 四川长虹电器股份有限公司 可在线纠错更新的意图识别方法及装置
CN110110334A (zh) * 2019-05-08 2019-08-09 郑州大学 一种基于自然语言处理的远程会诊记录文本纠错方法
CN111814472A (zh) * 2020-09-03 2020-10-23 平安国际智慧城市科技股份有限公司 文本识别方法、装置、设备及存储介质
CN113449514A (zh) * 2021-06-21 2021-09-28 浙江康旭科技有限公司 一种适用于特定垂直领域的文本纠错方法及其纠错装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于多粒度融合和对比学习的篇章级事件抽取技术研究;王晟;《中国优秀硕士论文电子期刊网(信息科技辑)》;全文 *

Also Published As

Publication number Publication date
CN116975298A (zh) 2023-10-31

Similar Documents

Publication Publication Date Title
WO2022142041A1 (zh) 意图识别模型的训练方法、装置、计算机设备和存储介质
CN113434683B (zh) 文本分类方法、装置、介质及电子设备
CN114298121A (zh) 基于多模态的文本生成方法、模型训练方法和装置
CN113158656B (zh) 讽刺内容识别方法、装置、电子设备以及存储介质
CN112328761A (zh) 一种意图标签设置方法、装置、计算机设备及存储介质
CN115130613B (zh) 虚假新闻识别模型构建方法、虚假新闻识别方法与装置
CN113505601A (zh) 一种正负样本对构造方法、装置、计算机设备及存储介质
CN113779358A (zh) 一种事件检测方法和系统
CN113836992A (zh) 识别标签的方法、训练标签识别模型的方法、装置及设备
CN114445832A (zh) 基于全局语义的文字图像识别方法、装置及计算机设备
CN110674642B (zh) 一种用于含噪稀疏文本的语义关系抽取方法
CN115438149A (zh) 一种端到端模型训练方法、装置、计算机设备及存储介质
CN115759119A (zh) 一种金融文本情感分析方法、系统、介质和设备
CN111680529A (zh) 一种基于层聚合的机器翻译算法及装置
CN114117048A (zh) 一种文本分类的方法、装置、计算机设备及存储介质
CN116469111B (zh) 一种文字生成模型训练方法及目标文字生成方法
CN116975298B (zh) 一种基于nlp的现代化社会治理调度系统及方法
CN111401069A (zh) 会话文本的意图识别方法、意图识别装置及终端
CN117271759A (zh) 文本摘要生成模型训练方法、文本摘要生成方法和装置
CN114638229A (zh) 笔录数据的实体识别方法、装置、介质及设备
CN114328894A (zh) 文档处理方法、装置、电子设备及介质
CN114692715A (zh) 一种样本标注方法及装置
Huang et al. Target-Oriented Sentiment Classification with Sequential Cross-Modal Semantic Graph
CN113657092A (zh) 识别标签的方法、装置、设备以及介质
CN116523032B (zh) 一种图像文本双端迁移攻击方法、装置和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant