CN113127605A - 一种目标识别模型的建立方法、系统、电子设备及介质 - Google Patents
一种目标识别模型的建立方法、系统、电子设备及介质 Download PDFInfo
- Publication number
- CN113127605A CN113127605A CN202110669821.4A CN202110669821A CN113127605A CN 113127605 A CN113127605 A CN 113127605A CN 202110669821 A CN202110669821 A CN 202110669821A CN 113127605 A CN113127605 A CN 113127605A
- Authority
- CN
- China
- Prior art keywords
- data set
- classification
- user
- field
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明适用于数据处理技术领域,提供了一种目标识别模型的建立方法、系统、电子设备及介质,其中,所述方法包括:获取样本用户的文本数据,得到用户数据集;获取目标领域的文本数据,得到领域数据集,根据所述类别标签规则确定所述领域数据集中数据的类别,并将所述领域数据集划分为若干个领域分类集;若根据所述类别标签规则无法确定所述领域数据集中数据的类别,则根据无法确定类别的所述领域数据集中数据生成新类别数据集;确定所述用户分类集与所述领域分类集的相似度,得到训练数据集;采用所述训练数据集训练初始识别模型,得到目标识别模型;解决了现有技术中高质量标注语料规模小等问题。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种目标识别模型的建立方法、系统、电子设备及介质。
背景技术
自然语言处理是为了让计算机理解人类的语言,从而更好地实现人与计算之间的交互(如语音助手、消息自动回复、翻译软件等应用与人的交互)。自然语言处理通常包括分词、词性标注、命名实体识别和语法分析等。命名实体识别是自然语言处理的一个重要组成部分。命名实体识别是指识别文本中具有特定意义的事物名称或者符号的过程,命名实体主要包括人名、地名、机构名、日期、专有名词等。但是,目前命名实体识别研究在某些领域识别仍存在高质量标注语料规模小、识别速度慢和识别准确度低等问题。
发明内容
本发明提供一种目标识别模型的建立方法、系统、电子设备及介质,以解决现有技术中高质量标注语料规模小和识别准确度低等问题。
本发明提供的目标识别模型的建立方法,包括:
获取样本用户的文本数据,并进行向量化处理,得到用户数据集,对所述用户数据集进行聚类处理,得到若干个用户分类集,并建立类别标签和类别标签规则,所述用户分类集包括用户训练集和用户测试集;
获取目标领域的文本数据,并进行向量化处理,得到领域数据集,根据所述类别标签规则确定所述领域数据集中数据的类别,并将所述领域数据集划分为若干个领域分类集;
若根据所述类别标签规则无法确定所述领域数据集中数据的类别,则根据无法确定类别的所述领域数据集中数据生成新类别数据集;
确定所述用户分类集与所述领域分类集的词义相似度,并根据所述用户分类集与所述领域分类集的词义相似度确定所述领域分类集中的迁移数据集,合并所述用户分类集、所述迁移数据集和所述新类别数据集,得到训练数据集;
采用所述训练数据集训练初始识别模型,得到目标识别模型。
可选的,其特征在于,所述确定所述用户分类集与所述领域分类集的词义相似度,并根据所述用户分类集与所述领域分类集的词义相似度确定所述领域分类集中的迁移数据集,具体包括:
获取所述用户分类集的类别标签和所述领域分类集的类别标签;
将所述领域分类集划分为若干个领域子分类集;
获取同一类别标签下所述用户分类集和所述领域子分类集的词义相似度;
若所述用户分类集和所述领域子分类集的词义相似度小于词义相似度阈值,则根据所述领域子分类集得到迁移数据集。
可选的,其特征在于,所述获取同一类别标签下所述用户分类集和所述领域子分类集的词义相似度,具体包括:
获取同一类别的用户分类集和领域子分类集;
根据同义评价参数和上下位评价参数确定同一类别下所述用户分类集和所述领域分类子集的词义相似度。
可选的,其特征在于,所述根据同义评价参数和上下位评价参数确定同一类别下所述用户分类集和所述领域分类子集的词义相似度,具体包括:
根据同一类别下所述用户分类集与所述领域子分类集的同义关系和预设同义权重确定同义评价参数;
根据同一类别下所述用户分类集与所述领域子分类集的上下位关系和预设上下位权重确定上下位评价参数;
根据所述同义评价参数和所述上下位评价参数确定所述用户分类集和所述领域子分类集的词义相似度。
可选的,其特征在于,所述根据同义关系和上下位关系确定同一类别下所述用户分类集和所述领域分类子集的词义相似度之前,还包括:
将所述用户分类集划分为待标注数据集和待处理数据集;
对所述待标注数据集进行标注,得到标注数据集;
基于所述标注数据集采用信息抽取方法对所述待处理实体集和所述领域分类集进行预训练。
可选的,其特征在于,所述对所述待标注数据集进行标注,得到标注数据集,具体包括:
对所述待标注数据集进行分词处理;
对所述经过分词处理后的待标注数据集进行词性标注;
对所述经过词性标注后的待标注数据集进行语义标注,得到标注数据集。
可选的,其特征在于,所述建立类别标签规则,具体包括:
获取待分类数据集与分类数据集的距离,若所述距离大于距离阈值,则待分类数据集与所述分类数据集为同一个类别。
本发明还提供一种目标识别模型的建立系统,包括:
用户数据集获取模块,用于获取样本用户的文本数据,并进行向量化处理,得到用户数据集,对所述用户数据集进行聚类处理,得到若干个用户分类集,并建立类别标签和类别标签规则,所述用户分类集包括用户训练集和用户测试集;
领域数据集获取模块,用于获取目标领域的文本数据,并进行向量化处理,得到领域数据集,根据所述类别标签规则确定所述领域数据集中数据的类别,并将所述领域数据集划分为若干个领域分类集;
新类别数据集获取模块,用于若所述领域数据集中数据与所述类别标签规则不匹配,则根据领域数据集中不符合类别标签规则的数据生成新类别数据集;
训练数据集获取模块,用于确定所述用户分类集与所述领域分类集的词义相似度,并根据所述用户分类集与所述领域分类集的词义相似度确定所述领域分类集中的迁移数据集,合并所述用户分类集、所述迁移数据集和所述新类别数据集,得到训练数据集;
目标模型建立模块,用于采用所述训练数据集训练初始识别模型,得到目标识别模型。
本发明还提供一种电子设备,包括:处理器及存储器;
所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述电子设备执行所述目标识别模型的建立方法。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述所述目标识别模型的建立方法。
本发明的有益效果:本发明中的目标识别模型的建立方法,首先通过获取样本用户的文本数据,得到用户数据集,对所述用户数据集进行聚类处理;其次获取目标领域的文本数据,得到领域数据集,并将所述领域数据集划分为若干个领域分类集和生成新类别数据集;再次根据所述用户分类集与所述领域分类集的词义相似度确定所述领域分类集中的迁移数据集,得到训练数据集;最后采用所述训练数据集训练初始识别模型,得到目标识别模型;通过获取目标领域的文本数据扩大了识别模型中训练数据集的数据量,从而提高了识别结果的准确性和实现了对大规模文本数据的识别效果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例中目标识别模型的建立方法的流程示意图;
图2是本发明实施例中迁移数据集获取方法的流程示意图;
图3是本发明实施例中词义相似度获取方法的流程示意图;
图4是本发明实施例中目标识别模型的建立系统的流程示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
第一实施例
图1是本发明在一实施例中提供的目标识别模型的建立方法的流程示意图。
如图1所示,所述目标识别模型的建立方法,包括步骤S110-S150:
S110,获取样本用户的文本数据,并进行向量化处理,得到用户数据集,对所述用户数据集进行聚类处理,得到若干个用户分类集,并建立类别标签和类别标签规则,所述用户分类集包括用户训练集和用户测试集;
S120,获取目标领域的文本数据,并进行向量化处理,得到领域数据集,根据所述类别标签规则确定所述领域数据集中数据的类别,并将所述领域数据集划分为若干个领域分类集;
S130,若根据所述类别标签规则无法确定所述领域数据集中数据的类别,则根据无法确定类别的所述领域数据集中数据生成新类别数据集;
S140,确定所述用户分类集与所述领域分类集的词义相似度,并根据所述用户分类集与所述领域分类集的词义相似度确定所述领域分类集中的迁移数据集,合并所述用户分类集、所述迁移数据集和所述新类别数据集,得到训练数据集;
S150,采用所述训练数据集训练初始识别模型,得到目标识别模型。
在本实施例的步骤S110中,以医疗领域的文本数据处理为例,样本用户的文本数据为电子病历,电子病历可来源于电子病历系统。电子病历是指医务人员在医疗过程中使用医疗结构信息系统生成的数字化信息,而医疗结构信息系统中的文本数据量不够大,从而使得以电子病历为基础所建立的目标识别模型识别能力较低。目标领域的文本数据来源于国内外公开可用的医疗文本数据,例如,医疗领域的期刊等;也可以将各类纸质疾病诊断记录通过扫描或其他方式录入,形成医疗领域的文本数据。通过获取医疗领域的文本数据并对其进行处理后,与电子病历一起生成训练数据集,并采用生成的训练数据集对初始识别模型进行训练,从而提高了识别结果的准确性和实现了对大规模文本数据的识别效果。将样本用户的文本数据和目标领域的文本数据进行向量化处理之前需要进行预处理,预处理包括数据清理、处理特殊标点符号等。数据清洗主要是通过对数据进行重新审核查验,删除重复数据、纠正错误数据,以保证数据一致性。常用的数据清洗方法包括数理统计法、回归统计等,可根据实际应用需求进行选择,这里不作限制。
具体地,对所述用户数据集进行聚类处理,得到若干个用户分类集;聚类算法包括但不限于K-means聚类算法;文本数据包括疾病、症状、手术等,在对用户数据集进行聚类时可根据疾病类型实现分类,具体地,同一类疾病、这类疾病所表现出来的症状和这类疾病可以采用的手术可以采用聚类算法将其归为同一类。对所述用户数据集进行聚类处理后得到聚类结果和若干个用户分类集,根据聚类结果建立类别标签和类别标签规则,具体地,每一个类别标签对应一个用户分类集。
具体地,类别标签规则包括获取待分类数据集与分类数据集的距离,若所述距离大于距离阈值,则待分类数据集与所述分类数据集为同一个类别。待分类数据集与分类数据集的距离可采用欧氏距离进行计算。
在本实施例的步骤S130中,若根据所述类别标签规则无法确定所述领域数据集中数据的类别,则根据无法确定类别的所述领域数据集中数据生成新类别数据集;通过建立新类别数据集扩充了电子病历的数据集和类别,在此基础上建立的目标识别模型能实现对电子病历中未出现的疾病或者症状的识别,极大地提高了目标模型的识别能力。
在本实施例的步骤S140中,确定所述用户分类集与所述领域分类集的词义相似度,并根据所述用户分类集与所述领域分类集的词义相似度确定所述领域分类集中的迁移数据集的具体实现方法请参见图2,图2是本发明在一实施例中提供的迁移数据集获取方法的流程示意图。
如图2所示,确定所述用户分类集与所述领域分类集的词义相似度,并根据所述用户分类集与所述领域分类集的词义相似度确定所述领域分类集中的迁移数据集可以包括以下步骤S210-S240:
S210,获取所述用户分类集的类别标签和所述领域分类集的类别标签;
S220,将所述领域分类集划分为若干个领域子分类集;
S230,获取同一类别标签下所述用户分类集和所述领域子分类集的词义相似度;
S240,若所述用户分类集和所述领域子分类集的词义相似度小于词义相似度阈值,则根据所述领域子分类集得到迁移数据集。
在本实施例的步骤S220中,将所述领域分类集划分为若干个领域子分类集,具体地,可根据同一类别下用户分类集与领域子分类集的欧氏距离进行分类,通过将领域分类集划分为若干个领域子分类集,在此基础上获取词义相似度,从而使得生成的迁移数据集中数据与用户分类数据中数据的重复率更低,去除了无效数据,提高了数据处理能力,从而提高了识别速度。
在本实施例的步骤S220中,获取同一类别标签下所述用户分类集和所述领域子分类集的词义相似度具体包括:获取同一类别的用户分类集和领域子分类集;根据同义评价参数和上下位评价参数确定同一类别下所述用户分类集和所述领域分类子集的词义相似度。具体地,根据同义评价参数和上下位评价参数确定同一类别下所述用户分类集和所述领域分类子集的词义相似度的具体实现方法请参见图3,图3是本发明在一实施例中提供的词义相似度获取方法的流程示意图。
如图3所示,根据同义评价参数和上下位评价参数确定同一类别下所述用户分类集和所述领域分类子集的词义相似度可以包括以下步骤S310-S330:
S310,根据同一类别下所述用户分类集与所述领域子分类集的同义关系和预设同义权重确定同义评价参数;
S320,根据同一类别下所述用户分类集与所述领域子分类集的上下位关系和预设上下位权重确定上下位评价参数;
S330,根据所述同义评价参数和所述上下位评价参数确定所述用户分类集和所述领域子分类集的词义相似度。
在本实施例的步骤S310和320中,具体地,预设同义关系权重可为65%、75%等,预设上下位关系权重可以为35%、25%等,预设同义关系权重与预设上下位权重之和为1;获取同一类别下所述用户分类集一个词与所述领域子分类集中词的最大同义相似度,最大同义相似度与预设同义关系权重相乘得到这个词的同义评价参数;获取同一类别下所述用户分类集一个词与所述领域子分类集中词的最大上下位相似度,最大上下位相似度与预设同义关系权重相乘得到这个词的上下位评价参数,同义评价参数与上下位评价参数相加为词义相似度;根据单个词的词义相似度得到用户分类集和领域子分类集的词义相似度。在步骤S240中,若所述用户分类集和所述领域子分类集的词义相似度小于词义相似度阈值,则根据所述领域子分类集得到迁移数据集,即是所述用户分类集和所述领域子分类集的词义相似度小于词义相似度阈值,则该域子分类集为迁移数据集。
在一实施例中,在步骤S230之前,还可以执行如下步骤:将所述用户分类集划分为待标注数据集和待处理数据集;对所述待标注数据集进行标注,得到标注数据集;基于所述标注数据集采用信息抽取方法对所述待处理实体集和所述领域分类集进行预训练。具体地,信息抽取方法可以采用Bootstrappig等算法来实现对所述待处理数据集的预训练,便于实现对大规模文本数据的识别效果。具体地,对所述待标注数据集进行标注,得到标注数据集,具体包括:对所述待标注数据集进行分词处理;对所述经过分词处理后的待标注数据集进行词性标注;对所述经过词性标注后的待标注数据集进行语义标注,得到标注数据集。
在本实施例的步骤S150中,采用所述训练数据集训练初始识别模型,得到目标识别模型,初始识别模型包括但不限于BERT-CRF模型,通过获取目标领域的文本数据扩大了识别模型中训练数据集的数据量,从而提高了识别结果的准确性和实现了对大规模文本数据的识别效果。
第二实施例
基于与第一实施例中方法相同的发明构思,相应的,本实施例还提供了一种目标识别模型建立系统。
图4为本发明提供的目标识别模型建立系统的流程示意图。
如图4所示,所示系统4包括:41用户数据集获取模块、42领域数据集获取模块、43新类别数据集获取模块、44训练数据集获取模块以及45目标模型建立模块。
其中,用户数据集获取模块,用于获取样本用户的文本数据,并进行向量化处理,得到用户数据集,对所述用户数据集进行聚类处理,得到若干个用户分类集,并建立类别标签和类别标签规则,所述用户分类集包括用户训练集和用户测试集;
领域数据集获取模块,用于获取目标领域的文本数据,并进行向量化处理,得到领域数据集,根据所述类别标签规则确定所述领域数据集中数据的类别,并将所述领域数据集划分为若干个领域分类集;
新类别数据集获取模块,用于若所述领域数据集中数据与所述类别标签规则不匹配,则根据领域数据集中不符合类别标签规则的数据生成新类别数据集;
训练数据集获取模块,用于确定所述用户分类集与所述领域分类集的词义相似度,并根据所述用户分类集与所述领域分类集的词义相似度确定所述领域分类集中的迁移数据集,合并所述用户分类集、所述迁移数据集和所述新类别数据集,得到训练数据集;
目标模型建立模块,用于采用所述训练数据集训练初始识别模型,得到目标识别模型。
在一些示例性实施例中,所述用户数据集获取模块包括:
规则建立单元,用于获取待分类数据集与分类数据集的距离,若所述距离大于距离阈值,则待分类数据集与所述分类数据集为同一个类别。
在一些示例性实施例中,所述训练数据集获取模块包括:
类别标签获取单元,用于获取所述用户分类集的类别标签和所述领域分类集的类别标签;
分类集获取单元,用于将所述领域分类集划分为若干个领域子分类集;
相似度获取单元,用于获取同一类别标签下所述用户分类集和所述领域子分类集的词义相似度;
迁移数据集获取单元,用于若所述用户分类集和所述领域子分类集的词义相似度小于词义相似度阈值,则根据所述领域子分类集得到迁移数据集。
在一些示例性实施例中,所述词义相似度获取单元包括:
分类集获取子单元,用于获取同一类别的用户分类集和领域子分类集;
相似度获取第一子单元,用于根据同义评价参数和上下位评价参数确定同一类别下所述用户分类集和所述领域分类子集的词义相似度;
同义评价参数获取子单元,用于根据同一类别下所述用户分类集与所述领域子分类集的同义关系和预设同义权重确定同义评价参数;
上下位评价参数获取子单元,用于根据同一类别下所述用户分类集与所述领域子分类集的上下位关系和预设上下位权重确定上下位评价参数;
相似度获取第二子单元,用于根据所述同义评价参数和所述上下位评价参数确定所述用户分类集和所述领域子分类集的词义相似度。
在一些示例性实施例中,所述系统还包括:
待标注集获取模块,用于将所述用户分类集划分为待标注数据集和待处理数据集;
标注集获取模块,用于对所述待标注数据集进行标注,得到标注数据集;
预训练单元模块,用于基于所述标注数据集采用信息抽取方法对所述待处理实体集和所述领域分类集进行预训练。
在一些示例性实施例中,所述标注集获取模块包括:
分词单元,用于对所述待标注数据集进行分词处理;
词性标注单元,用于对所述经过分词处理后的待标注数据集进行词性标注;
标注集获取单元,用于对所述经过词性标注后的待标注数据集进行语义标注,得到标注数据集。
本实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本实施例中的任一项方法。
本实施例还提供一种电子设备,包括:处理器及存储器;
所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述电子设备执行本实施例中任一项方法。
本实施例中的计算机可读存储介质,本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
本实施例提供的电子设备,包括处理器、存储器、收发器和通信接口,存储器和通信接口与处理器和收发器连接并完成相互间的通信,存储器用于存储计算机程序,通信接口用于进行通信,处理器和收发器用于运行计算机程序,使电子设备执行如上方法的各个步骤。
在本实施例中,存储器可能包含随机存取存储器(Random Access Memory,简称RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在上述实施例中,说明书对“本实施例”、“一实施例”、“另一实施例”、或“其他实施例”的提及表示结合实施例说明的特定特征、结构或特性包括在至少一些实施例中,但不必是全部实施例。“本实施例”、“一实施例”、“另一实施例”的多次出现不一定全部都指代相同的实施例。
在上述实施例中,尽管已经结合了本发明的具体实施例对本发明进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变形对本领域普通技术人员来说将是显而易见的。例如,其他存储结构(例如,动态RAM(DRAM))可以使用所讨论的实施例。本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本发明可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
上述实施例仅示例性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,但凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
Claims (10)
1.一种目标识别模型的建立方法,其特征在于,所述方法包括:
获取样本用户的文本数据,并进行向量化处理,得到用户数据集,对所述用户数据集进行聚类处理,得到若干个用户分类集,并建立类别标签和类别标签规则,所述用户分类集包括用户训练集和用户测试集;
获取目标领域的文本数据,并进行向量化处理,得到领域数据集,根据所述类别标签规则确定所述领域数据集中数据的类别,并将所述领域数据集划分为若干个领域分类集;
若根据所述类别标签规则无法确定所述领域数据集中数据的类别,则根据无法确定类别的所述领域数据集中数据生成新类别数据集;
确定所述用户分类集与所述领域分类集的词义相似度,并根据所述用户分类集与所述领域分类集的词义相似度确定所述领域分类集中的迁移数据集,合并所述用户分类集、所述迁移数据集和所述新类别数据集,得到训练数据集;
采用所述训练数据集训练初始识别模型,得到目标识别模型。
2.根据权利要求1所述的目标识别模型的建立方法,其特征在于,所述确定所述用户分类集与所述领域分类集的词义相似度,并根据所述用户分类集与所述领域分类集的词义相似度确定所述领域分类集中的迁移数据集,具体包括:
获取所述用户分类集的类别标签和所述领域分类集的类别标签;
将所述领域分类集划分为若干个领域子分类集;
获取同一类别标签下所述用户分类集和所述领域子分类集的词义相似度;
若所述用户分类集和所述领域子分类集的词义相似度小于词义相似度阈值,则根据所述领域子分类集得到迁移数据集。
3.根据权利要求2所述的目标识别模型的建立方法,其特征在于,所述获取同一类别标签下所述用户分类集和所述领域子分类集的词义相似度,具体包括:
获取同一类别的用户分类集和领域子分类集;
根据同义评价参数和上下位评价参数确定同一类别下所述用户分类集和所述领域分类子集的词义相似度。
4.根据权利要求3所述的目标识别模型的建立方法,其特征在于,所述根据同义评价参数和上下位评价参数确定同一类别下所述用户分类集和所述领域分类子集的词义相似度,具体包括:
根据同一类别下所述用户分类集与所述领域子分类集的同义关系和预设同义权重确定同义评价参数;
根据同一类别下所述用户分类集与所述领域子分类集的上下位关系和预设上下位权重确定上下位评价参数;
根据所述同义评价参数和所述上下位评价参数确定所述用户分类集和所述领域子分类集的词义相似度。
5.根据权利要求3所述的目标识别模型的建立方法,其特征在于,所述根据同义关系和上下位关系确定同一类别下所述用户分类集和所述领域分类子集的词义相似度之前,还包括:
将所述用户分类集划分为待标注数据集和待处理数据集;
对所述待标注数据集进行标注,得到标注数据集;
基于所述标注数据集采用信息抽取方法对所述待处理实体集和所述领域分类集进行预训练。
6.根据权利要求5所述的目标识别模型的建立方法,其特征在于,所述对所述待标注数据集进行标注,得到标注数据集,具体包括:
对所述待标注数据集进行分词处理;
对所述经过分词处理后的待标注数据集进行词性标注;
对所述经过词性标注后的待标注数据集进行语义标注,得到标注数据集。
7.根据权利要求1所述的目标识别模型的建立方法,其特征在于,所述建立类别标签规则,具体包括:
获取待分类数据集与分类数据集的距离,若所述距离大于距离阈值,则待分类数据集与所述分类数据集为同一个类别。
8.一种目标识别模型的建立系统,其特征在于,所述系统包括:
用户数据集获取模块,用于获取样本用户的文本数据,并进行向量化处理,得到用户数据集,对所述用户数据集进行聚类处理,得到若干个用户分类集,并建立类别标签和类别标签规则,所述用户分类集包括用户训练集和用户测试集;
领域数据集获取模块,用于获取目标领域的文本数据,并进行向量化处理,得到领域数据集,根据所述类别标签规则确定所述领域数据集中数据的类别,并将所述领域数据集划分为若干个领域分类集;
新类别数据集获取模块,用于若所述领域数据集中数据与所述类别标签规则不匹配,则根据领域数据集中不符合类别标签规则的数据生成新类别数据集;
训练数据集获取模块,用于确定所述用户分类集与所述领域分类集的词义相似度,并根据所述用户分类集与所述领域分类集的词义相似度确定所述领域分类集中的迁移数据集,合并所述用户分类集、所述迁移数据集和所述新类别数据集,得到训练数据集;
目标模型建立模块,用于采用所述训练数据集训练初始识别模型,得到目标识别模型。
9.一种电子设备,其特征在于,包括处理器、存储器和通信总线;
所述通信总线用于将所述处理器和存储器连接;
所述处理器用于执行所述存储器中存储的计算机程序,以实现如权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序用于使所述计算机执行如权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110669821.4A CN113127605B (zh) | 2021-06-17 | 2021-06-17 | 一种目标识别模型的建立方法、系统、电子设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110669821.4A CN113127605B (zh) | 2021-06-17 | 2021-06-17 | 一种目标识别模型的建立方法、系统、电子设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113127605A true CN113127605A (zh) | 2021-07-16 |
CN113127605B CN113127605B (zh) | 2021-11-02 |
Family
ID=76783015
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110669821.4A Active CN113127605B (zh) | 2021-06-17 | 2021-06-17 | 一种目标识别模型的建立方法、系统、电子设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113127605B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113486976A (zh) * | 2021-07-26 | 2021-10-08 | 中国测绘科学研究院 | 一种地图标注内容的自动分类方法和装置 |
CN113569293A (zh) * | 2021-08-12 | 2021-10-29 | 明品云(北京)数据科技有限公司 | 一种相似用户的获取方法、系统、电子设备及介质 |
CN114817286A (zh) * | 2022-04-29 | 2022-07-29 | 中冶赛迪重庆信息技术有限公司 | 一种铜冶炼设备数据处理方法、系统、电子设备及介质 |
CN114861670A (zh) * | 2022-07-07 | 2022-08-05 | 浙江一山智慧医疗研究有限公司 | 基于已知标签学习未知标签的实体识别方法、装置及应用 |
CN115544250A (zh) * | 2022-09-01 | 2022-12-30 | 睿智合创(北京)科技有限公司 | 一种数据处理方法及系统 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090185746A1 (en) * | 2008-01-22 | 2009-07-23 | The University Of Western Australia | Image recognition |
CN107943856A (zh) * | 2017-11-07 | 2018-04-20 | 南京邮电大学 | 一种基于扩充标记样本的文本分类方法及系统 |
US20180204315A1 (en) * | 2017-01-10 | 2018-07-19 | Kla-Tencor Corporation | System, method for training and applying defect classifiers in wafers having deeply stacked layers |
CN108304427A (zh) * | 2017-04-28 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 一种用户客群分类方法和装置 |
CN110377695A (zh) * | 2019-06-17 | 2019-10-25 | 广州艾媒数聚信息咨询股份有限公司 | 一种舆情主题数据聚类方法、装置及存储介质 |
CN110457475A (zh) * | 2019-07-25 | 2019-11-15 | 阿里巴巴集团控股有限公司 | 一种用于文本分类体系构建和标注语料扩充的方法和系统 |
CN110956059A (zh) * | 2018-09-27 | 2020-04-03 | 深圳云天励飞技术有限公司 | 一种动态手势识别方法、装置和电子设备 |
CN111552807A (zh) * | 2020-04-17 | 2020-08-18 | 银江股份有限公司 | 一种短文本多标签分类方法 |
CN111737476A (zh) * | 2020-08-05 | 2020-10-02 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、计算机可读存储介质及电子设备 |
CN111753089A (zh) * | 2020-06-28 | 2020-10-09 | 深圳壹账通智能科技有限公司 | 话题聚类方法、装置、电子设备及存储介质 |
CN111767400A (zh) * | 2020-06-30 | 2020-10-13 | 平安国际智慧城市科技股份有限公司 | 文本分类模型的训练方法、装置、计算机设备和存储介质 |
US20210027019A1 (en) * | 2019-07-24 | 2021-01-28 | Nec Laboratories America, Inc. | Word-overlap-based clustering cross-modal retrieval |
CN112423224A (zh) * | 2020-11-19 | 2021-02-26 | 杭州云深科技有限公司 | 基于wifi特征数据的居住地类型识别方法、电子设备和介质 |
CN112766427A (zh) * | 2021-04-06 | 2021-05-07 | 浙江口碑网络技术有限公司 | 图像识别模型的训练方法、装置及设备 |
-
2021
- 2021-06-17 CN CN202110669821.4A patent/CN113127605B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090185746A1 (en) * | 2008-01-22 | 2009-07-23 | The University Of Western Australia | Image recognition |
US20180204315A1 (en) * | 2017-01-10 | 2018-07-19 | Kla-Tencor Corporation | System, method for training and applying defect classifiers in wafers having deeply stacked layers |
CN108304427A (zh) * | 2017-04-28 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 一种用户客群分类方法和装置 |
CN107943856A (zh) * | 2017-11-07 | 2018-04-20 | 南京邮电大学 | 一种基于扩充标记样本的文本分类方法及系统 |
CN110956059A (zh) * | 2018-09-27 | 2020-04-03 | 深圳云天励飞技术有限公司 | 一种动态手势识别方法、装置和电子设备 |
CN110377695A (zh) * | 2019-06-17 | 2019-10-25 | 广州艾媒数聚信息咨询股份有限公司 | 一种舆情主题数据聚类方法、装置及存储介质 |
US20210027019A1 (en) * | 2019-07-24 | 2021-01-28 | Nec Laboratories America, Inc. | Word-overlap-based clustering cross-modal retrieval |
CN110457475A (zh) * | 2019-07-25 | 2019-11-15 | 阿里巴巴集团控股有限公司 | 一种用于文本分类体系构建和标注语料扩充的方法和系统 |
CN111552807A (zh) * | 2020-04-17 | 2020-08-18 | 银江股份有限公司 | 一种短文本多标签分类方法 |
CN111753089A (zh) * | 2020-06-28 | 2020-10-09 | 深圳壹账通智能科技有限公司 | 话题聚类方法、装置、电子设备及存储介质 |
CN111767400A (zh) * | 2020-06-30 | 2020-10-13 | 平安国际智慧城市科技股份有限公司 | 文本分类模型的训练方法、装置、计算机设备和存储介质 |
CN111737476A (zh) * | 2020-08-05 | 2020-10-02 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、计算机可读存储介质及电子设备 |
CN112423224A (zh) * | 2020-11-19 | 2021-02-26 | 杭州云深科技有限公司 | 基于wifi特征数据的居住地类型识别方法、电子设备和介质 |
CN112766427A (zh) * | 2021-04-06 | 2021-05-07 | 浙江口碑网络技术有限公司 | 图像识别模型的训练方法、装置及设备 |
Non-Patent Citations (6)
Title |
---|
JOHN J. WADE 等: "SWAT: A Spiking Neural Network Training Algorithm for Classification Problems", 《IEEE TRANSACTIONS ON NEURAL NETWORKS》 * |
YUAN-FANG TSAI 等: "New debris flow critical rainfall line setting via cluster analysis and support vector machine after the Chi-Chi huge earthquake", 《2017 13TH INTERNATIONAL CONFERENCE ON NATURAL COMPUTATION, FUZZY SYSTEMS AND KNOWLEDGE DISCOVERY (ICNC-FSKD)》 * |
周军: "中文网页自动分类系统及关键技术研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
王玉瑶: "小样本人脸识别算法设计及验证", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
路扬: "面向小样本不平衡数据的生物医学事件抽取方法研究", 《中国博士学位论文全文数据库 基础科学辑》 * |
马舒阳: "基于局部纹理特征和深度卷积神经网络的视频人脸验证算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113486976A (zh) * | 2021-07-26 | 2021-10-08 | 中国测绘科学研究院 | 一种地图标注内容的自动分类方法和装置 |
CN113486976B (zh) * | 2021-07-26 | 2022-09-02 | 中国测绘科学研究院 | 一种地图标注内容的自动分类方法和装置 |
CN113569293A (zh) * | 2021-08-12 | 2021-10-29 | 明品云(北京)数据科技有限公司 | 一种相似用户的获取方法、系统、电子设备及介质 |
CN113569293B (zh) * | 2021-08-12 | 2024-06-07 | 明品云(北京)数据科技有限公司 | 一种相似用户的获取方法、系统、电子设备及介质 |
CN114817286A (zh) * | 2022-04-29 | 2022-07-29 | 中冶赛迪重庆信息技术有限公司 | 一种铜冶炼设备数据处理方法、系统、电子设备及介质 |
CN114861670A (zh) * | 2022-07-07 | 2022-08-05 | 浙江一山智慧医疗研究有限公司 | 基于已知标签学习未知标签的实体识别方法、装置及应用 |
CN115544250A (zh) * | 2022-09-01 | 2022-12-30 | 睿智合创(北京)科技有限公司 | 一种数据处理方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113127605B (zh) | 2021-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113127605B (zh) | 一种目标识别模型的建立方法、系统、电子设备及介质 | |
US11227118B2 (en) | Methods, devices, and systems for constructing intelligent knowledge base | |
CN112632226B (zh) | 基于法律知识图谱的语义搜索方法、装置和电子设备 | |
CN112329460B (zh) | 文本的主题聚类方法、装置、设备及存储介质 | |
CN111488468A (zh) | 地理信息知识点抽取方法、装置、存储介质及计算机设备 | |
CN116932730B (zh) | 基于多叉树和大规模语言模型的文档问答方法及相关设备 | |
CN108304381B (zh) | 基于人工智能的实体建边方法、装置、设备及存储介质 | |
JP7369228B2 (ja) | ユーザ興味画像の生成方法、装置、電子機器及び記憶媒体 | |
CN112800244B (zh) | 一种中医药及民族医药知识图谱的构建方法 | |
Saranya et al. | Intelligent medical data storage system using machine learning approach | |
CN114328800A (zh) | 文本处理方法、装置、电子设备和计算机可读存储介质 | |
CN113128234B (zh) | 一种实体识别模型的建立方法、系统、电子设备及介质 | |
Rousseau | Graph-of-words: mining and retrieving text with networks of features | |
CN114491076B (zh) | 基于领域知识图谱的数据增强方法、装置、设备及介质 | |
CN112529627B (zh) | 商品隐式属性抽取方法、装置、计算机设备及存储介质 | |
Pu et al. | A vision-based approach for deep web form extraction | |
CN114242267A (zh) | 基于神经网络的问诊回复方法、装置、设备及存储介质 | |
CN114049637A (zh) | 一种目标识别模型的建立方法、系统、电子设备及介质 | |
CN112685574A (zh) | 领域术语层次关系的确定方法、装置 | |
CN115905456B (zh) | 一种数据识别方法、系统、设备及计算机可读存储介质 | |
Seenivasan | ETL in a World of Unstructured Data: Advanced Techniques for Data Integration | |
CN111191095A (zh) | 网页数据获取方法、装置、设备及介质 | |
CN115392389B (zh) | 跨模态信息匹配、处理方法、装置、电子设备及存储介质 | |
CN113657102B (zh) | 信息抽取方法、装置、设备及存储介质 | |
CN118692616A (zh) | 基于临床术语的向量库构建方法及编码推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20220708 Address after: 201615 room 1904, G60 Kechuang building, No. 650, Xinzhuan Road, Songjiang District, Shanghai Patentee after: Shanghai Mingping Medical Data Technology Co.,Ltd. Address before: 102400 no.86-n3557, Wanxing Road, Changyang, Fangshan District, Beijing Patentee before: Mingpinyun (Beijing) data Technology Co.,Ltd. |
|
TR01 | Transfer of patent right |