CN114970525A - 一种文本同事件识别方法、装置及应用 - Google Patents

一种文本同事件识别方法、装置及应用 Download PDF

Info

Publication number
CN114970525A
CN114970525A CN202210665266.2A CN202210665266A CN114970525A CN 114970525 A CN114970525 A CN 114970525A CN 202210665266 A CN202210665266 A CN 202210665266A CN 114970525 A CN114970525 A CN 114970525A
Authority
CN
China
Prior art keywords
text data
text
word
recognized
event
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210665266.2A
Other languages
English (en)
Other versions
CN114970525B (zh
Inventor
毛云青
葛俊
王国梁
曹喆
陈刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CCI China Co Ltd
Original Assignee
CCI China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CCI China Co Ltd filed Critical CCI China Co Ltd
Priority to CN202210665266.2A priority Critical patent/CN114970525B/zh
Publication of CN114970525A publication Critical patent/CN114970525A/zh
Application granted granted Critical
Publication of CN114970525B publication Critical patent/CN114970525B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Machine Translation (AREA)

Abstract

本方案提供了一种文本同事件识别方法、装置及应用,通过获取至少一待识别文本数据并依据词性进行分词,基于依据词性进行分词后的子词构建词汇索引字典和词汇频率字典,选择所述词汇频率字典中满足筛选条件的至少一子词作为筛选词,从所述词汇索引字典中筛选含有对应的筛选词的至少一第一相似文本数据集;获取每一所述第一相似文本数据集并输入到经训练后的第一句子模型中得到所述筛选词的词向量,所述词向量结合所述第一相似文本数据集构建词汇向量矩阵,选择所述词汇向量矩阵相似度大于第一设定阈值的筛选词对应的待识别文本数据组成预选同事件文本数据集,通过上述方式可以有效提高同文本事件的处理效率。

Description

一种文本同事件识别方法、装置及应用
技术领域
本申请涉及自然语言处理领域,特别是涉及一种文本同事件识别方法、装置及应用
背景技术
在对文本数据处理的过程中,往往它的事件来源较多、数据量较大、内容表述杂乱,在分析处理的过程中,往往有挖掘出描述事件一致的案件文本数据的需求,通过文本处理算法挖掘出事件一致的文本并按照轻、重、缓、急进行分级治理,可以有效提高对大量文本数据快速处理的能力。
由于经济社会的快速发展,居民参与城市治理的热情越来越高,其在参与治理的过程中会产生大量的文本城市问题案卷数据;这些案卷数据的表述形式不一、数据量较大,文本表述中存在大量无用的噪声信息,在城市治理中人工难以准确快速的对其进行响应,给各级处理部门带来了较大的困难;随着人工智能技术快速发展,特别是大规模的预训练模型的出现给解决各项文本问题带来了可能,通过将预训练大模型结合自身领域内的数据进行模型微调就可以在一定程度上解决相对简单的文本问题;然而在城市治理中,文本内容表现繁杂,仅直接利用这些案卷数据进行微调训练还不能直接达到较好的效果,提升语言模型对该领域文本数据的表达能力是解决问题的关键。
发明内容
本申请实施例提供了一种文本同事件识别方法、装置及应用,针对目前表述形式不一、数据量大的文本数据能够实现自动判断出同事件文本,方便各级处理部门处理。
第一方面,本申请实施例提供了一种文本同事件识别方法,所述方法包括:
获取至少一待识别文本数据并依据词性进行分词,基于依据词性进行分词后的子词构建词汇索引字典和词汇频率字典,选择所述词汇频率字典中满足筛选条件的至少一子词作为筛选词,从所述词汇索引字典中筛选含有对应的筛选词的至少一第一相似文本数据集;
获取每一所述第一相似文本数据集并输入到经训练后的第一句子模型中得到所述筛选词的词向量,所述词向量结合所述第一相似文本数据集构建词汇向量矩阵,选择所述词汇向量矩阵相似度大于第一设定阈值的筛选词对应的待识别文本数据组成预选同事件文本数据集。
第二方面,本申请实施例提供了文本同事件识别装置,包括:
第一获取模块:获取至少一待识别文本数据并依据词性进行分词,基于依据词性进行分词后的子词构建词汇索引字典和词汇频率字典,选择所述词汇频率字典中满足筛选条件的至少一子词作为筛选词,从所述词汇索引字典中筛选含有对应的筛选词的至少一第一相似文本数据集;
第二获取模块:获取每一所述第一相似文本数据集并输入到经训练后的第一句子模型中得到所述筛选词的词向量,所述词向量结合所述第一相似文本数据集构建词汇向量矩阵;
判断模块:选择所述词汇向量矩阵相似度大于第一设定阈值的筛选词对应的待识别文本数据组成预选同事件文本数据集。
第三方面,本申请实施例提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行一种文本同事件识别方法。
第四方面,本申请实施例提供了一种可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序包括用于控制过程以执行过程的程序代码,用来执行一种文本同事件识别方法。
本发明的主要贡献和创新点如下:
本方案通过构建词汇索引字典来记录每条待识别文本数据中每个词汇的位置和该条待识别文本数据的文本编号,构建词汇频率字典来记录每个词汇在总的待识别文本数据中出现对应词汇文本数据的条数,通过词汇索引字典和词汇频率字典中记录的信息,结合一个训练好的大规模预训练模型即可得出预选同事件文本;将所述预选同事件文本进行编码后送入另一个训练好的大规模预训练模型中得到所述预选同事件文本的文本特征向量,通过所述文本特征向量进一步得出同事件文本;通过两个大规模训练模型得出的同事件文本结果更加精确,且消除了相近词义和高频词对判断同事件文本的影响。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的文本同事件识别方法的流程图;
图2是根据本申请实施例搭建的的一种第一句子模型的模型结构图;
图3是根据本申请实施例的词汇复制的数据增强的方法的示意图;
图4是根据本申请实施例的第二句子模型训练流程示意图;
图5是根据本申请实施例的第二句子模型中添加了关键词掩码矩阵的自注意计算机制结构示意图;
图6是根据本申请实施例的一种文本同事件识别装置的结构框图;
图7是根据本申请实施例的电子装置的硬件结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。
需要说明的是:在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中,其方法所包括的步骤可以比本说明书所描述的更多或更少。此外,本说明书中所描述的单个步骤,在其他实施例中可能被分解为多个步骤进行描述;而本说明书中所描述的多个步骤,在其他实施例中也可能被合并为单个步骤进行描述。
实施例一
本申请旨在提出一种文本同事件识别方法,如图1所示,包括以下步骤:
获取至少一待识别文本数据并依据词性进行分词,基于依据词性进行分词后的子词构建词汇索引字典和词汇频率字典,选择所述词汇频率字典中满足筛选条件的至少一子词作为筛选词,从所述词汇索引字典中筛选含有对应的筛选词的至少一第一相似文本数据集;
获取针对每一筛选词的所述第一相似文本数据集并输入到经训练后的第一句子模型中得到所述筛选词的词向量,所述词向量结合所述第一相似文本数据集构建词汇向量矩阵,选择所述词汇向量矩阵相似度大于第一设定阈值的筛选词对应的待识别文本数据组成预选同事件文本数据集。
在一些实施例中,“获取至少一待识别文本数据并依据词性进行分词”步骤包括:将所述待识别文本数据依据词性进行分词,采用分词后的子词来重新构建新的待识别文本数据。
示例性的,在对所述待识别文本数据中的句子进行分词时,可以筛选出名词(n)、动名词(vn)、动词(v)、地名(ns)、机构名(nt)、专名(nz)等词汇,并采用分词后的子词构建新的待识别文本数据。
在一些实施例中,“构建词汇索引字典和词汇频率字典”步骤包括:统计所述新的待识别文本数据中每个子词出现的词频,基于每个子词归属的待识别文本数据的文本编号以及所述子词在所述待识别文本数据中的位置构建词汇索引字典;统计每个子词所在的待识别文本数据中的文本数据量,构建词汇频率字典。
示例性的,所述词汇索引字典表示为{子词:[(待识别文本数据的文本编号x1,子词在待识别文本数据中的位置(p1,p2)),…,(文本编号xi,该词汇在文本中的位置(pi,pi+1))]};所述词汇频率字典表示为{子词c1:n1(n为该子词出现的待识别文本数据的文本数据量),…,词汇ci:ni}。
在一些实施例中,在“选择所述词汇频率字典中满足筛选条件的至少一子词作为筛选词”步骤包括:所述筛选条件为子词在待识别文本数据中的词频在设定下值和设定上值之间,其中所述设定下值为历史统计数据中的同事件文本集的文本数目的最小值;所述设定上值为抽样的待识别文本数据中为同事件文本集的文本数目的均值。
具体的,设定下值为判断所述待识别文本数据为同事件的最小文本数目,设定下值主要是考虑分析的待识别文本数据为一段时间内的数据,且判断为同事件的文本数目必须是要不小于设定下值;设定上值为判断所述待识别文本数据为同事件的最大文本数目,对所述待识别文本数据进行N次采样统计,分析时间间隔内所述待识别文本数据中为同事件数据的最多文本数目的均值。
示例性的,对所述待识别文本数据进行两次采样,两次采样的时间间隔为一个月,第一次采样时间为8月15日-9月15日,统计标注所述待识别文本数据中认定是同事件案件的最多一个案件有8条数据;第二次采样时间为9月15日-10月15日,统计标注所述待识别文本数据中认定是同事件案件的最多一个案件有10条数据;则所述设定上值为两次采样中标注为同事件数据的最多数量的采样的均值,即设定上值=(8+10)/2=9。
在一些实施例中,在“从所述词汇索引字典中筛选含有对应的筛选词的至少一第一相似文本数据集”步骤中,根据所述筛选词从所述词汇索引字典中选出含有所述筛选词的至少一待识别文本数据,整合所述待识别文本数据为第一相似文本数据集,其中每一所述筛选词对应一第一相似文本数据集。
在一些实施例中,在“获取针对每一筛选词的所述第一相似文本数据集并输入到经训练后的第一句子模型中得到所述筛选词的词向量”步骤中,利用所述词汇索引字典获取所述筛选词在所述第一相似文本数据集中的位置,将所述第一相似文本数据集输入到所述第一句子模型中,以每个所述筛选词的位置索引获取词向量。所述词向量融合了第一相似文本数据集中的上下文信息。
具体的,所述第一句子模型的构建方法如图2所示,在本方案的实施例中以BERT大规模预训练模型为基础构建第一句子模型。值得一提的是,本方案利用相关领域的训练数据训练所述第一句子模型以使提升第一句子模型对该领域上下文的理解能力。在本方案的实施例中,利用城市治理领域的训练数据对所述第一句子模型进行微调训练,类别为城市文本数据常见纠纷案件分类数据,对所述常见纠纷案件类别数进行标注,并在训练时将每条所述第一相似文本数据中10%的字进行随机遮挡。
进一步的,对所述常见纠纷案件类别数进行标注的目的是使得最终微调后第一句子模型的输出特征更加符合城市治理领域的数据分布,使得句向量在语义表达上更加合理。
进一步的,在训练时将每条所述第一相似文本数据中10%的字进行随机遮挡的目的是训练所述第一句子模型预测遮挡位置的字,提升所述第一句子模型对于城市治理领域数据上下文的理解能力。在一些实施例中,在“所述词向量结合所述第一相似文本数据集构建词汇向量矩阵,选择所述词汇向量矩阵相似度大于第一设定阈值的筛选词对应的待识别文本数据组成预选同事件文本数据集”步骤中,以所述词向量和对应的待识别文本数据的文本编号的顺序构建所述词汇向量矩阵,以每个筛选词为分组计算词汇向量矩阵的余弦相似度,选择所述词汇向量矩阵相似度大于第一设定阈值的筛选词对应的待识别文本数据组成预选同事件文本数据集。
具体的,所述筛选词为再所述词汇频率字典中,词频再一定范围内的词汇,通过所述词汇向量矩阵的余弦相似度来判断具有相似语义的筛选词,并将所述筛选词进行合并,这样可以解决直接利用词频筛选同事件文本导致相似事件词的文本给错误分割成多类事件的问题。
在一些实施例中,将所述预选同事件文本数据集输入经训练得到的第二句子模型中得到每个待识别文本数据的文本特征向量,基于所述文本特征向量计算每个待识别文本数据和所述预选同事件文本数据集中其他待识别文本数据的相似度得分,选择所述相似度得分大于第二设定阈值的文本数据作为同事件文本数据。
所述第二句子模型通过以下训练方式得到:
获取文本训练样本,基于roberta预训练模型建立一个第二句子模型,对所述文本训练样本并进行数据增强,对所述文本训练样本进行词向量编码、句向量编码和位置编码后通过对比学习的方式放入所述第二句子模型中训练。
考虑到所述第二句子模型直接进行数据微调获得的参数在文本特征向量的表达性能上会严重受到高频词汇的影响,难以获得合理的表示;特别是城市治理领域文本数据大多描述的内容较短,高频词有集聚现象,而模型如果为了提升文本表示采用直接剔除高频词的方式有非常大的概率影响到本身句子的含义,导致最终向量表达错误。故本方案在所述第二句子模型的训练过程中对文本训练样本进行数据增强。
在一些实施例中,“对所述文本训练样本进行数据增强”步骤中,利用所述文本训练样本获取生成文本,对所述生成文本随机复制所述生成文本中几个位置的词汇生成新的文本数据,用所述新的文本数据作为所述文本训练样本的扩充数据进行数据增强。
具体的,在“利用所述文本训练样本获取生成文本”中,采用T5模型自动生成并选用最优的模板,通过将所述文本训练样本作为输入通过T5模型自动输出生成文本,本方案的文本训练样本可选择为待识别文本数据。
进一步的,T5模型生成的模板可以为:*cls**sent*_it_means*mask**sep+*,其中sent表示输入所述文本训练样本,mask为预测的新的生成文本,最终获取预测的新的生成文本,*,_为字段分割标志,cls表示句子向量的输出位置;采用生成的预测的新的生成文本进行数据增强可以保持所述文本训练样本语义不变并转换原句子的表达,减轻原句子中受训练语料中高频词的负影响。
示例性的,如图3所示,当其所述预测的新的生成文本为“地上发现大量暴露垃圾,味道特别大,影响市容市貌”时,其对应的数据增强后的文本数据为“地上发现发现大量暴露垃圾,味道味道特别大,影响市容市貌”;当其所述预测的新的文本数据为“路口有很多流动摊位,导致堵车严重”时,其对应的数据增强后的文本数据为“路口路口有很多流动摊位,导致堵车堵车严重”。
当然,在一些实施例中,还可采用对比学习的方式训练第二句子模型,所述对比学习的方式为:将数据增强后的文本数据作为对比学习的正样本,训练中其他文本数据作为负样本。
示例性的,如图4所示,将生成文本输入到第二句子模型中,对于生成文本“路上流动摊位造成堵车严重”,则“路上流动摊位摊位造成堵车严重”为其正样本,同批次中的“地上有暴露垃圾垃圾发的味道特别大”和“广场上跳舞噪声扰民扰民”为负样本。
进一步的,将所述预选同事件文本数据集进行词向量、句向量编码和位置编码后,送入经训练得到的第二句子模型中得到每个待识别文本数据的特征向量,通过所述特征向量计算每个待识别文本数据和所述预选同事件文本数据集中其他待识别文本数据的相似度得分,并构建文本相似度矩阵。
具体的,所述文本相似度矩阵的每一列表示了该列代表的待识别文本数据与其他待识别文本数据的相似度得分,筛选出每列代表的待识别文本数据与其他待识别文本数据的相似度大于第二设定阈值的待识别文本数据,并将其文本编号记录下来,记为预选同事件表;由于遍历了每列待识别文本数据与其他待识别文本数据的可能性,导致预选同事件表包含了大量的重复文本编号,计算所述重复文本编号的重复率,若所述文本编号的重复率大于第三设定阈值,则将重复的文本编号进行合并,得到最终的同事件表,根据所述同事件表的文本编号查找同事件文本数据。
在一些实施例中,“计算每个待识别文本数据和所述预选同事件文本数据集中其他待识别文本数据的相似度得分”步骤中,计算所述待识别文本数据的特征向量和其他待识别文本数据的特征向量的余弦向量值,得到两个待识别文本数据的相似度得分。
在一些优选实施例中,所述第二句子模型还可以通过以下方式构建:
以roberta预训练模型为基础,对预选同事件文本提取关键词,并通过词汇索引字典记录所述关键词的位置信息,在所述roberta预训练模型自带的自注意计算机制中添加关键词掩码矩阵,通过添加了所述关键词掩码矩阵的自注意计算机制计算得出所述预选同事件文本的词汇权值,通过所述词汇权值判断所述预选同事件文本的文本相似度。
具体的,对所述roberta预训练模型进行了模型结构改进,在所述roberta预训练模型的自注意机制中添加关键词掩码矩阵,通过添加了关键词掩码矩阵的自注意计算机制得出所述预选同事件文本的词汇权值,基于所述词汇权值判断所述预选同事件文本之间的文本相似度,并构建文本相似度矩阵。
具体的,图5为roberta预训练模型中添加了关键词掩码矩阵的自注意计算机制结构示意图,输入待识别文本数据的向量表示,所述待识别文本数据的向量表示经过线性变化分别得到第一特征向量、第二特征向量和第三特征向量;其中第一特征向量和第二特征向量的倒置矩阵点乘后被维度归一得到归一向量,所述归一向量和关键词掩码矩阵进行元素相加后并对相加后的特征值计算激活函数得到激活特征值,激活特征值和第三特征向量点乘得到该层特征输出层的向量,具体公式如下:
Figure BDA0003692708180000091
其中,Q、K、V是输入所述待识别文本向量经过线性变换操作得到的自注意力公式的输入,d为Q、K、V的向量维度,用以维度上归一化Q*KT的值,防止经过softmax计算后的值太过离散化,影响注意力的实际分布效果,M为所述关键词掩码矩阵。
具体的,所述roberta预训练模型中,可以有多个编码器层,每个所述的编码器层中都包含所述自注意计算机制,每个所述自注意计算机制中都添加有关键词掩码矩阵。
具体的,增加了所述关键词掩码矩阵的自注意计算机制计算得出的值,通过全连接层结合sigmoid函数可得出每个词汇的词汇权值。
具体的,将待识别文本数据进行词向量编码、句向量编码和位置编码后送入训练好的所述roberta预训练模型,所述待识别文本数据通过上述计算方式得出每个词汇的词汇权值,通过词汇权值来计算两个所述待识别文本的相似度,对于第一待识别文本Q,句子中的每个词表示为{Q1,Q2,…,Qi},每个词的词汇权值表示为
Figure BDA0003692708180000101
向量相似度检索的第二识别文本T表示为{T1,T2,…,Tm},它的词权值
Figure BDA0003692708180000102
计算两个待识别文本的文本相似度,计算公式如下:
其中计算第一待识别文本Q相对于第二待识别文本T的文本相似度公式为:
Figure BDA0003692708180000103
计算第二待识别文本T相对于第一待识别文本Q的文本相似度公式为
Figure BDA0003692708180000104
最终综合衡量2个待识别文本的文本相似度,采用两者结合的方式:
sim=simq*simt
通过上述计算方式,得出第一待识别文本数据基于每个所述待识别文本的文本相似度,以此类推,得出每个所述待识别文本基于其他所述待识别文本的文本相似度,获得一个文本相似度矩阵,通过文本相似度矩阵得到同事件表。
值得一提的是,在本方案中提到的两种第二句子模型的构建方法,其进行模型训练和数据增强的方式是相同的,所述通过相似度矩阵确定同时间表的方法也相同,再次不做赘述。
在一些实施例中,在得到同事件文本数据之后,将同事件文本数据记录到同事件表中。由于选同事件表包含了大量重复的文本编号的记录,对于这些重复的待识别文本数据的文本编号,计算与其他记录的文本编号重复率,当文本编号重复率超过阈值,将该记录与当前记录进行合并,最终记录下合理的每组同事件文本编号表;可以根据该表内文本编号,查找出是同事件的文本数据。
实施例二
基于相同的构思,参考图6,本申请还提出了一种文本同事件识别装置,包括:
第一获取模块:获取至少一待识别文本数据并依据词性进行分词,基于依据词性进行分词后的子词构建词汇索引词典和词汇频率词典,选择所述词汇频率词典中满足筛选条件的至少一子词作为筛选词,从所述词汇索引字典中筛选含有对应的筛选词的至少一第一相似文本数据集;
第二获取模块:获取每一所述第一相似文本数据集并输入到经训练后的第一句子模型中得到所述筛选词的词向量,所述词向量结合所述第一相似文本数据集构建词汇向量矩阵;
判断模块:选择所述词汇向量矩阵相似度大于第一设定阈值的筛选词对应的待识别文本数据组成预选同事件文本数据集。
关于该实施例二中同实施例一技术内容相同的部分不再重复累赘说明。
实施例三本实施例还提供了一种电子装置,参考图7,包括存储器404和处理器402,该存储器404中存储有计算机程序,该处理器402被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
具体地,上述处理器402可以包括中央处理器(CPU),或者特定集成电路(ApplicationSpecificIntegratedCircuit,简称为ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
其中,存储器404可以包括用于数据或指令的大容量存储器404。举例来说而非限制,存储器404可包括硬盘驱动器(HardDiskDrive,简称为HDD)、软盘驱动器、固态驱动器(SolidStateDrive,简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(UniversalSerialBus,简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器404可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器404可在数据处理装置的内部或外部。在特定实施例中,存储器404是非易失性(Non-Volatile)存储器。在特定实施例中,存储器404包括只读存储器(Read-OnlyMemory,简称为ROM)和随机存取存储器(RandomAccessMemory,简称为RAM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(ProgrammableRead-OnlyMemory,简称为PROM)、可擦除PROM(ErasableProgrammableRead-OnlyMemory,简称为EPROM)、电可擦除PROM(ElectricallyErasableProgrammableRead-OnlyMemory,简称为EEPROM)、电可改写ROM(ElectricallyAlterableRead-OnlyMemory,简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下,该RAM可以是静态随机存取存储器(StaticRandom-AccessMemory,简称为SRAM)或动态随机存取存储器(DynamicRandomAccessMemory,简称为DRAM),其中,DRAM可以是快速页模式动态随机存取存储器404(FastPageModeDynamicRandomAccessMemory,简称为FPMDRAM)、扩展数据输出动态随机存取存储器(ExtendedDateOutDynamicRandomAccessMemory,简称为EDODRAM)、同步动态随机存取内存(SynchronousDynamicRandom-AccessMemory,简称SDRAM)等。
存储器404可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器402所执行的可能的计算机程序指令。
处理器402通过读取并执行存储器404中存储的计算机程序指令,以实现上述实施例中的任意一种文本同事件识别方法。
可选地,上述电子装置还可以包括传输设备406以及输入输出设备408,其中,该传输设备406和上述处理器402连接,该输入输出设备408和上述处理器402连接。
传输设备406可以用来经由一个网络接收或者发送数据。上述的网络具体实例可包括电子装置的通信供应商提供的有线或无线网络。在一个实例中,传输设备包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备406可以为射频(RadioFrequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
输入输出设备408用于输入或输出信息。在本实施例中,输入的信息可以是城市治理案件等,输出的信息可以是预选同事件文本数据、文本相似度矩阵、预选同事件表等。
可选地,在本实施例中,上述处理器402可以被设置为通过计算机程序执行以下步骤:
S101、获取至少一待识别文本数据并依据词性进行分词,基于依据词性进行分词后的子词构建词汇索引词典和词汇频率词典,选择所述词汇频率词典中满足筛选条件的至少一子词作为筛选词,从所述词汇索引字典中筛选含有对应的筛选词的至少一第一相似文本数据集;
S102、获取每一所述第一相似文本数据集并输入到经训练后的第一句子模型中得到所述筛选词的词向量,所述词向量结合所述第一相似文本数据集构建词汇向量矩阵;
S103、选择所述词汇向量矩阵相似度大于第一设定阈值的筛选词对应的待识别文本数据组成预选同事件文本数据集。
需要说明的是,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
通常,各种实施例可以以硬件或专用电路、软件、逻辑或其任何组合来实现。本发明的一些方面可以以硬件来实现,而其他方面可以以可以由控制器、微处理器或其他计算设备执行的固件或软件来实现,但是本发明不限于此。尽管本发明的各个方面可以被示出和描述为框图、流程图或使用一些其他图形表示,但是应当理解,作为非限制性示例,本文中描述的这些框、装置、系统、技术或方法可以以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备或其某种组合来实现。
本发明的实施例可以由计算机软件来实现,该计算机软件由移动设备的数据处理器诸如在处理器实体中可执行,或者由硬件来实现,或者由软件和硬件的组合来实现。包括软件例程、小程序和/或宏的计算机软件或程序(也称为程序产品)可以存储在任何装置可读数据存储介质中,并且它们包括用于执行特定任务的程序指令。计算机程序产品可以包括当程序运行时被配置为执行实施例的一个或多个计算机可执行组件。一个或多个计算机可执行组件可以是至少一个软件代码或其一部分。另外,在这一点上,应当注意,如图中的逻辑流程的任何框可以表示程序步骤、或者互连的逻辑电路、框和功能、或者程序步骤和逻辑电路、框和功能的组合。软件可以存储在诸如存储器芯片或在处理器内实现的存储块等物理介质、诸如硬盘或软盘等磁性介质、以及诸如例如DVD及其数据变体、CD等光学介质上。物理介质是非瞬态介质。
本领域的技术人员应该明白,以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (15)

1.一种文本同事件识别方法,其特征在于,包括以下步骤:
获取至少一待识别文本数据并依据词性进行分词,基于依据词性进行分词后的子词构建词汇索引字典和词汇频率字典,选择所述词汇频率字典中满足筛选条件的至少一子词作为筛选词,从所述词汇索引字典中筛选含有对应的筛选词的至少一第一相似文本数据集;
获取针对每一筛选词的所述第一相似文本数据集并输入到经训练后的第一句子模型中得到所述筛选词的词向量,所述词向量结合所述第一相似文本数据集构建词汇向量矩阵,选择所述词汇向量矩阵相似度大于第一设定阈值的筛选词对应的待识别文本数据组成预选同事件文本数据集。
2.根据权利要求1所述的文本同事件识别方法,其特征在于,将所述预选同事件文本数据集输入经训练得到的第二句子模型中得到每个待识别文本数据的文本特征向量,计算每个待识别文本数据和所述预选同事件文本数据集中其他待识别文本数据的相似度得分,选择所述相似度得分大于第二设定阈值的文本数据作为同事件文本数据。
3.根据权利要求2所述的文本同事件识别方法,其特征在于,在“选择所述相似度得分大于第二设定阈值的文本数据作为同事件文本数据”步骤中,基于每个待识别文本数据的所述相似度得分构建文本相似度矩阵,其中所述文本相似度矩阵的每一列表示每个待识别文本数据和所述预选同事件文本数据集中其他待识别文本数据的相似度得分,选择所述相似度得分大于第二设定阈值的文本数据作为同事件文本数据,记录所述同事件文本数据的文本编号得到预选同事件表,根据所述预选同事件表得到同事件文本。
4.根据利要求2所述的文本同事件识别方法,其特征在于,所述第二句子模型的训练方式为:获取文本训练样本,对所述文本训练样本进行数据增强后通过对比学习的方式对所述第二句子模型进行训练。
5.根据权利要求4所述的文本同事件识别方法,其特征在于,所述数据增强的方式为:利用所述文本训练样本获得生成文本,对所述生成文本随机复制句子中几个位置的词汇生成新的文本数据,用所述新的文本数据作为所述文本训练样本的扩充数据进行数据增强。
6.根据权利要求1所述的文本同事件识别方法,其特征在于,“获取至少一待识别文本数据并依据词性进行分词”步骤包括:将所述待识别文本数据依据词性进行分词,采用分词后的子词来重新构建新的待识别文本数据。
7.根据权利要求1所述的文本同事件识别方法,其特征在于,“构建词汇索引字典和词汇频率字典”步骤包括:统计所述新的待识别文本数据中的子词的词频,基于每个子词归属的待识别文本数据的文本编号以及所述子词在所述待识别文本数据中的位置构建词汇索引字典;统计每个子词所在的待识别文本数据中的文本数据量,构建词汇频率字典。
8.根据权利要求1所述的文本同事件识别方法,其特征在于,在“选择所述词汇频率字典中满足筛选条件的至少一子词作为筛选词”步骤中,所述筛选条件为词频在设定下值和设定上值之间,其中所述设定下值为历史统计数据中的同事件文本集的文本数目的最小值;所述设定上值为抽样的待识别文本数据集中为同事件文本集的文本数目的均值。
9.根据权利要求1所述的文本同事件识别方法,其特征在于,在“从所述词汇索引字典中筛选含有对应的筛选词的至少一第一相似文本数据集”步骤中,根据所述筛选词从所述词汇索引字典中选出含有所述筛选词的至少一待识别文本数据,整合所述待识别文本数据为第一相似文本数据集,每一所述筛选词对应一第一相似文本数据集。
10.根据权利要求1所述的文本同事件识别方法,其特征在于,在“获取针对每一筛选词的所述第一相似文本数据集并输入到经训练后的第一句子模型中得到所述筛选词的词向量”步骤中,利用所述词汇索引字典获取所述第一相似文本数据集中所述每个筛选词的位置,将所述第一相似文本数据集输入到所述第一句子模型中,以每个所述筛选词的位置索引获取词向量。
11.根据权利要求1所述的文本同事件识别方法,其特征在于,以roberta预训练模型为基础,对所述预选同事件文本数据集中的预选同事件文本提取关键词,并通过词汇索引字典记录所述关键词的位置信息,在所述roberta预训练模型自带的自注意计算机制中添加关键词掩码矩阵,通过添加了所述关键词掩码矩阵的自注意计算机制计算得出所述预选同事件文本的词汇权值,通过所述词汇权值判断至少两所述预选同事件文本的文本相似度。
12.根据权利要求11所述的文本同事件识别方法,其特征在于,“在所述roberta预训练模型自带的自注意计算机制中添加关键词掩码矩阵,通过添加了所述关键词掩码矩阵的自注意计算机制计算得出所述预选同事件文本的词汇权值”步骤中,所述关键词掩码矩阵中关键词的位置信息参数设置为1,其余位置信息参数设置为0。
13.一种文本同事件识别装置,其特征在于,包括:
第一获取模块:获取至少一待识别文本数据并依据词性进行分词,基于依据词性进行分词后的子词构建词汇索引字典和词汇频率字典,选择所述词汇频率字典中满足筛选条件的至少一子词作为筛选词,从所述词汇索引字典中筛选含有对应的筛选词的至少一第一相似文本数据集;
第二获取模块:获取每一所述第一相似文本数据集并输入到经训练后的第一句子模型中得到所述筛选词的词向量,所述词向量结合所述第一相似文本数据集构建词汇向量矩阵;
判断模块:选择所述词汇向量矩阵相似度大于第一设定阈值的筛选词对应的待识别文本数据组成预选同事件文本数据集。
14.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1-12任一所述的文本同事件识别方法。
15.一种可读存储介质,其特征在于,所述可读存储介质中存储有计算机程序,所述计算机程序包括用于控制过程以执行过程的程序代码,所述过程包括根据权利要求1-12任一项所述的文本同事件识别方法。
CN202210665266.2A 2022-06-14 2022-06-14 一种文本同事件识别方法、装置及可读存储介质 Active CN114970525B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210665266.2A CN114970525B (zh) 2022-06-14 2022-06-14 一种文本同事件识别方法、装置及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210665266.2A CN114970525B (zh) 2022-06-14 2022-06-14 一种文本同事件识别方法、装置及可读存储介质

Publications (2)

Publication Number Publication Date
CN114970525A true CN114970525A (zh) 2022-08-30
CN114970525B CN114970525B (zh) 2023-06-27

Family

ID=82962465

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210665266.2A Active CN114970525B (zh) 2022-06-14 2022-06-14 一种文本同事件识别方法、装置及可读存储介质

Country Status (1)

Country Link
CN (1) CN114970525B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115357690A (zh) * 2022-10-19 2022-11-18 有米科技股份有限公司 基于文本模态自监督的文本去重方法及装置
CN116028631A (zh) * 2023-03-30 2023-04-28 粤港澳大湾区数字经济研究院(福田) 一种多事件检测方法及相关设备

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080162118A1 (en) * 2006-12-15 2008-07-03 International Business Machines Corporation Technique for Searching Out New Words That Should Be Registered in Dictionary For Speech Processing
WO2015063536A1 (en) * 2013-10-28 2015-05-07 Translation Management Systems Ltd. Networked language translation system and method
CN106021442A (zh) * 2016-05-16 2016-10-12 江苏大学 一种网络新闻概要提取方法
CN106610954A (zh) * 2016-09-30 2017-05-03 四川用联信息技术有限公司 基于统计学的文本特征词汇提取方法
CN111177403A (zh) * 2019-12-16 2020-05-19 恩亿科(北京)数据科技有限公司 样本数据的处理方法和装置
WO2020103783A1 (zh) * 2018-11-19 2020-05-28 阿里巴巴集团控股有限公司 地址文本相似度确定方法、地址搜索方法、装置和设备
CN113723077A (zh) * 2021-08-31 2021-11-30 平安科技(深圳)有限公司 基于双向表征模型的句向量生成方法、装置及计算机设备
CN113988171A (zh) * 2021-10-26 2022-01-28 北京明略软件系统有限公司 句子相似度计算方法、系统、电子设备及存储介质
CN114065760A (zh) * 2022-01-14 2022-02-18 中南大学 基于预训练语言模型的法律文本类案检索方法及系统
WO2022104967A1 (zh) * 2020-11-19 2022-05-27 深圳大学 一种基于预训练语言模型的摘要生成方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080162118A1 (en) * 2006-12-15 2008-07-03 International Business Machines Corporation Technique for Searching Out New Words That Should Be Registered in Dictionary For Speech Processing
WO2015063536A1 (en) * 2013-10-28 2015-05-07 Translation Management Systems Ltd. Networked language translation system and method
CN106021442A (zh) * 2016-05-16 2016-10-12 江苏大学 一种网络新闻概要提取方法
CN106610954A (zh) * 2016-09-30 2017-05-03 四川用联信息技术有限公司 基于统计学的文本特征词汇提取方法
WO2020103783A1 (zh) * 2018-11-19 2020-05-28 阿里巴巴集团控股有限公司 地址文本相似度确定方法、地址搜索方法、装置和设备
CN111177403A (zh) * 2019-12-16 2020-05-19 恩亿科(北京)数据科技有限公司 样本数据的处理方法和装置
WO2022104967A1 (zh) * 2020-11-19 2022-05-27 深圳大学 一种基于预训练语言模型的摘要生成方法
CN113723077A (zh) * 2021-08-31 2021-11-30 平安科技(深圳)有限公司 基于双向表征模型的句向量生成方法、装置及计算机设备
CN113988171A (zh) * 2021-10-26 2022-01-28 北京明略软件系统有限公司 句子相似度计算方法、系统、电子设备及存储介质
CN114065760A (zh) * 2022-01-14 2022-02-18 中南大学 基于预训练语言模型的法律文本类案检索方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115357690A (zh) * 2022-10-19 2022-11-18 有米科技股份有限公司 基于文本模态自监督的文本去重方法及装置
CN116028631A (zh) * 2023-03-30 2023-04-28 粤港澳大湾区数字经济研究院(福田) 一种多事件检测方法及相关设备
CN116028631B (zh) * 2023-03-30 2023-07-14 粤港澳大湾区数字经济研究院(福田) 一种多事件检测方法及相关设备

Also Published As

Publication number Publication date
CN114970525B (zh) 2023-06-27

Similar Documents

Publication Publication Date Title
CN108897857B (zh) 面向领域的中文文本主题句生成方法
CN111177374B (zh) 一种基于主动学习的问答语料情感分类方法及系统
CN108304375B (zh) 一种信息识别方法及其设备、存储介质、终端
CN115630640B (zh) 一种智能写作方法、装置、设备及介质
CN107220352A (zh) 基于人工智能构建评论图谱的方法和装置
CN112800170A (zh) 问题的匹配方法及装置、问题的回复方法及装置
CN111767716B (zh) 企业多级行业信息的确定方法、装置及计算机设备
CN114970525A (zh) 一种文本同事件识别方法、装置及应用
TW201737118A (zh) 網頁文本分類的方法和裝置,網頁文本識別的方法和裝置
CN104765769A (zh) 一种基于词矢量的短文本查询扩展及检索方法
US8731930B2 (en) Contextual voice query dilation to improve spoken web searching
CN110750635A (zh) 一种基于联合深度学习模型的法条推荐方法
CN113033183B (zh) 一种基于统计量与相似性的网络新词发现方法及系统
CN109902289A (zh) 一种面向模糊文本挖掘的新闻视频主题分割方法
CN111460158B (zh) 一种基于情感分析的微博话题公众情感预测方法
CN116484808A (zh) 一种公文用可控文本生成方法及装置
KR102376489B1 (ko) 단어 랭킹 기반의 텍스트 문서 군집 및 주제 생성 장치 및 그 방법
CN114722176A (zh) 一种智能答疑的方法、装置、介质及电子设备
CN113076740A (zh) 政务服务领域的同义词挖掘方法及装置
CN116049376B (zh) 一种信创知识检索回复的方法、装置和系统
CN107391674B (zh) 一种新类挖掘方法及装置
CN107818078B (zh) 汉语自然语言对话的语义关联与匹配方法
CN114881003A (zh) 一种文本相似度识别方法、装置及应用
CN111460104B (zh) 行业自适应的智能搜索方法
CN116628188A (zh) 一种基于地产行业的录音文本标签体系构建方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant