CN114741483A - 数据识别的方法和装置 - Google Patents

数据识别的方法和装置 Download PDF

Info

Publication number
CN114741483A
CN114741483A CN202210648311.3A CN202210648311A CN114741483A CN 114741483 A CN114741483 A CN 114741483A CN 202210648311 A CN202210648311 A CN 202210648311A CN 114741483 A CN114741483 A CN 114741483A
Authority
CN
China
Prior art keywords
entity
word
entities
input sample
probability distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210648311.3A
Other languages
English (en)
Other versions
CN114741483B (zh
Inventor
李纪为
王树河
孙晓飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Xiangnong Huiyu Technology Co ltd
Original Assignee
Zhejiang Xiangnong Huiyu Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Xiangnong Huiyu Technology Co ltd filed Critical Zhejiang Xiangnong Huiyu Technology Co ltd
Priority to CN202210648311.3A priority Critical patent/CN114741483B/zh
Publication of CN114741483A publication Critical patent/CN114741483A/zh
Application granted granted Critical
Publication of CN114741483B publication Critical patent/CN114741483B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Character Discrimination (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例公开了一种数据识别的方法和装置。该数据识别的方法包括:将获取到的输入样本输入实体识别模型,得到由输入样本中各词向量、各词向量的实体和实体的概率组成的第一概率分布;将输入样本输入预先创建的缓存数据库进行搜索,得到与输入样本中词向量匹配的至少一个单元对;将至少一个单元对中的实体和实体的概率与第一概率分布进行合并,得到第二概率分布;依据第二概率分布对输入样本中的词向量进行标注。本发明提供的方案能够在通用领域训练模型,不断收集不同学科领域的实体列表到数据库中的方式,来保证单模型服务可以在跨学科文本上得到很好的实体识别效果,降低了多个模型服务带来的时间和设备消耗。

Description

数据识别的方法和装置
技术领域
本发明涉及计算机技术应用领域,尤其涉及一种数据识别的方法和装置。
背景技术
在新闻通用领域训练得到的实体识别模型,在不同学科领域(化学,生物,物理,计算机科学与技术等)的文本数据上效果并不好。其中,实体识别模型,用于在给定的句子中,通过模型自动的识别出人为规定的实体并标注上对应的实体名称。例如,给定“北京是中国的首都”,其中人为规定的实体有“地区”和“国家”两类。此时,当把“北京是中国的首都”输入模型时,模型需要预测出“北京”和“中国”这两个位置应当是实体,并为“北京”标注上“地区”,为“中国”标注上“国家”。
但是由于标注任务难度大,对标注人员的要求进一步提高,导致标注定量数据需要的时间增加,标注的人工成本也进一步提高。即,在不同的学科领域标注数据并且单独训练模型会带来巨大的开发成本;
在实际业务场景中,需要得到细分类别的命名实体(如,需要将<组织机构>实体细分为<学校>、<公司>、<商场>、<金融机构>等),这就提高了标注任务本身的难度,并且单独依赖一个已经训练好的神经网络实体识别模型无法在所有领域、所有场景下取得很好的识别效果。(如,通用领域训练好的神经网络模型,在金融领域文本中的识别性能差。)即,使用多个模型提供实体识别服务会造成服务系统反应慢,不能满足客户的需求等问题。
针对上述由于现有技术中将通用领域的模型,应用到学科领域文本时候出现的效果差的问题,目前尚未提出有效的解决方案。
发明内容
为解决上述技术问题,本发明实施例期望提供一种数据识别的方法和装置,以至少解决将通用领域的模型,应用到学科领域文本时候出现的效果差的问题。
本发明的技术方案是这样实现的:
第一方面,本发明实施例提供一种数据识别的方法,包括:将获取到的输入样本输入实体识别模型,得到由输入样本中各词向量、各词向量的实体和实体的概率组成的第一概率分布;将输入样本输入预先创建的缓存数据库进行搜索,得到与输入样本中词向量匹配的至少一个单元对;将至少一个单元对中的实体和实体的概率与第一概率分布进行合并,得到第二概率分布;依据第二概率分布对输入样本中的词向量进行标注。
可选的,在将获取到的输入样本输入实体识别模型之前,该方法还包括:根据预存的训练集构建缓存数据库,缓存数据库包含全部的训练数据和所有实体,其中,所有实体为得到通用模型后,在无标注文本进行推理预测得到的;训练数据中各词向量和对应各词向量的实体组成单元对;词向量是由训练集中的每一个带有实体的词输入实体识别模型得到的向量。
可选的,将获取到的输入样本输入实体识别模型,得到由输入样本中各词向量、各词向量的实体和实体的概率组成的第一概率分布包括:对输入样本进行分词,得到各词向量;将各词向量输入实体识别模型,得到各词向量对应的实体和实体的概率;依据各词向量、各词向量的实体和实体的概率生成第一概率分布。
可选的,将输入样本输入预先创建的缓存数据库进行搜索,得到与输入样本中词向量匹配的至少一个单元对包括:对输入样本进行分词,得到各词向量;将各词向量输入缓存数据库进行搜索,获取与各词向量满足向量之间的快速径向基距离为预设相似度的至少一个单元对。
进一步地,可选的,该方法还包括:将至少一个单元对的实体作为最近邻搜索得到的预测结果;将至少一个单元对的距离进行归一化,并将归一化后的至少一个单元对的距离标注为实体的概率。
可选的,将至少一个单元对中的实体和实体的概率与第一概率分布进行合并,得到第二概率分布包括:当第一概率分布和第二概率分布有重合的实体时,将重合实体的概率相加;当第一概率分布或第二概率分布中的实体非重合时,保留非重合的实体的概率。
第二方面,本发明实施例提供一种数据识别的装置,包括:识别模块,用于将获取到的输入样本输入实体识别模型,得到由输入样本中各词向量、各词向量的实体和实体的概率组成的第一概率分布;搜索模块,用于将输入样本输入预先创建的缓存数据库进行搜索,得到与输入样本中词向量匹配的至少一个单元对;合并模块,用于将至少一个单元对中的实体和实体的概率与第一概率分布进行合并,得到第二概率分布;标注模块,用于依据第二概率分布对输入样本中的词向量进行标注。
可选的,该装置还包括:构建模块,用于在将获取到的输入样本输入实体识别模型之前,根据预存的训练集构建缓存数据库,缓存数据库包含全部的训练数据和所有实体,其中,所有实体为得到通用模型后,在无标注文本进行推理预测得到的;训练数据中各词向量和对应各词向量的实体组成单元对;其中,词向量是由训练集中的每一个带有实体的词输入实体识别模型得到的向量。
可选的,识别模块包括:第一分词单元,用于对输入样本进行分词,得到各词向量;识别单元,用于将各词向量输入实体识别模型,得到各词向量对应的实体和实体的概率;生成单元,用于依据各词向量、各词向量的实体和实体的概率生成第一概率分布。
可选的,搜索模块包括:第二分词单元,用于对输入样本进行分词,得到各词向量;搜索单元,用于将各词向量输入缓存数据库进行搜索,获取与各词向量满足向量之间的快速径向基距离为预设相似度的至少一个单元对。
本发明实施例提供了一种数据识别的方法和装置。通过将获取到的输入样本输入实体识别模型,得到由输入样本中各词向量、各词向量的实体和实体的概率组成的第一概率分布;将输入样本输入预先创建的缓存数据库进行搜索,得到与输入样本中词向量匹配的至少一个单元对;将至少一个单元对中的实体和实体的概率与第一概率分布进行合并,得到第二概率分布;依据第二概率分布对输入样本中的词向量进行标注,从而能够达到在通用领域训练模型,不断收集不同学科领域的实体列表到数据库中的方式,来保证单模型服务可以在跨学科文本上得到很好的实体识别效果,降低了多个模型服务带来的时间和设备消耗。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明实施例一提供的一种数据识别的方法的流程示意图;
图2为本发明实施例一提供的一种数据识别的方法中实施示例的示意图;
图3为本发明实施例二提供的一种数据识别的装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于限定特定顺序。
还需要说明是,本发明下述各个实施例可以单独执行,各个实施例之间也可以相互结合执行,本发明实施例对此不作具体限制。
本申请实施例提供的技术名词:
实体识别模型,用于在给定的句子中,通过模型自动的识别出人为规定的实体并标注上对应的实体名称。例如,给定“北京是中国的首都”,其中人为规定的实体有“地区”和“国家”两类。此时,当把“北京是中国的首都”输入模型时,模型需要预测出“北京”和“中国”这两个位置应当是实体,并为“北京”标注上“地区”,为“中国”标注上“国家”;
相似实体搜索:在给定一定量的数据库的情况下,对新输入的数据,在数据库中找寻最相似的k个数据;其中,k是人为指定的需要找寻相似数据的数量。
实施例一
第一方面,本发明实施例提供一种数据识别的方法,图1为本发明实施例一提供的一种数据识别的方法的流程示意图;如图1所示,本申请实施例提供的数据识别的方法包括:
步骤S102,将获取到的输入样本输入实体识别模型,得到由输入样本中各词向量、各词向量的实体和实体的概率组成的第一概率分布;
可选的,在步骤S102中将获取到的输入样本输入实体识别模型之前,本申请实施例提供的数据识别的方法还包括:根据预存的训练集构建缓存数据库,缓存数据库包含全部的训练数据和所有实体,其中,所有实体为得到通用模型后,在无标注文本进行推理预测得到的;训练数据中各词向量和对应各词向量的实体组成单元对;词向量是由训练集中的每一个带有实体的词输入实体识别模型得到的向量。
在本申请实施例中图2为本发明实施例一提供的一种数据识别的方法中实施示例的示意图;其中,本申请实施例提供的数据识别的方法可以应用于构建线上学校电子图书馆,以克服现有技术中实体识别模型存在多学科实体识别的难度大的缺陷,如图2所示,对于每个句子中的词,均有一个人为规定的实体与之对应,如“张某某”对应 “人”等。其中,若当前词没有人为规定的实体,那它将对应为空。
在本申请实施例中构建缓存数据库的过程可以为:根据已有的训练集(即,本申请实施例中的预存的训练集)构建缓存数据库。该缓存数据库包含全部的训练数据,其中,训练数据是由一个个的单元对构成,单元对可以表示为(词向量,实体)。其中,词向量是由训练集中的每一个带有实体的词训练输入训练好的实体识别模型得到的高维向量。而单元对中的实体,即为该词向量所对应的实体。此外,该缓存数据库还包含:得到通用模型后,在无标注文本进行推理预测得到的所有实体。
具体的,将现有标注训练集中用到的所有句子转变为词级别的向量,即,词向量,其中,直接采用已经训练好的实体识别模型的输出当作词级别的向量。进而使用训练好的实体识别模型,在多领域、大量无标注文本数据上做预测,将模型预测为命名实体的(词向量,实体)收集到缓存数据库中。最终将每个词级别向量与这个词对应的实体构成一个独立的单元对:(词向量,实体),所有的单元对构成最终的缓存数据库。
对于标注样本较少的实体类别来说,使用近邻实体搜索可以增强神经网络模型对于该类别的向量表示。从而达到缓解标注训练样本数量不足,提高模型性能的表现。
可选的,步骤S102中将获取到的输入样本输入实体识别模型,得到由输入样本中各词向量、各词向量的实体和实体的概率组成的第一概率分布包括:对输入样本进行分词,得到各词向量;将各词向量输入实体识别模型,得到各词向量对应的实体和实体的概率;依据各词向量、各词向量的实体和实体的概率生成第一概率分布。
具体的,如图2所示,以标注“华盛顿”这个词为例,首先将“华盛顿”输入实体识别模型得到“华盛顿”的概率分布(即,本申请实施例中的第一概率分布),该概率分布表明了“华盛顿”这个词被标注为各种实体的概率。
步骤S104,将输入样本输入预先创建的缓存数据库进行搜索,得到与输入样本中词向量匹配的至少一个单元对;
可选的,步骤S104中将输入样本输入预先创建的缓存数据库进行搜索,得到与输入样本中词向量匹配的至少一个单元对包括:对输入样本进行分词,得到各词向量;将各词向量输入缓存数据库进行搜索,获取与各词向量满足向量之间的快速径向基距离为预设相似度的至少一个单元对。
进一步地,可选的,本申请实施例提供的数据识别的方法还包括:将至少一个单元对的实体作为最近邻搜索得到的预测结果;将至少一个单元对的距离进行归一化,并将归一化后的至少一个单元对的距离标注为实体的概率。
具体的,如图2所示,假设当前要进行标注的句子为“张某某生活在华盛顿”,根据分词的结果需要分别对“张某某”,“生活”,“在”,“华盛顿”四个词进行标注。其中分词可以直接利用工具“jieba”。“jieba”是一个中文分词工具,其中包含了大量的中文字典,可以有效的对中文句子进行分词。
在模型给定一个输入样例进行预测时,首先将输入样例输入实体识别模型得到每个词的词向量。对于每个词的词向量在缓存数据库中均寻找到最相似的k个单元对(即,本申请实施例中至少一个单元对),其中相似的规则是依据单元对中词向量与当前词向量的快速径向基距离,将k个单元对,按照相似程度进行排序,并直接用来增强模型预测出相应实体时的概率。
其中,在步骤S102中实体识别模型输出输入样例识别结果的同时,还会得到“华盛顿”这个词的词向量,利用该词向量去缓存数据库中查询最为相近的k个词向量,并将这k个词向量所对应的实体取出。其中,k是人为指定的需要搜寻的向量的个数,相近的指标直接使用的向量之间的快速径向基距离。
得到k个词向量后,由于每个词向量的相似程度的区间没有限制,所以需要将所有得到的k个最近邻词向量距离进行归一化。归一化操作后,k个词向量所对应的实体就可以当作最近邻搜索得到的预测结果,而归一化的距离就可以当作标注为相应实体的概率。步骤S106,将至少一个单元对中的实体和实体的概率与第一概率分布进行合并,得到第二概率分布;
可选的,步骤S106中将至少一个单元对中的实体和实体的概率与第一概率分布进行合并,得到第二概率分布包括:当第一概率分布和第二概率分布有重合的实体时,将重合实体的概率相加;当第一概率分布或第二概率分布中的实体非重合时,保留非重合的实体的概率。
具体的,将第一概率分布和第二概率进行合并,合并时,当两个概率分布有重合的实体预测时,其概率相加。当只有一个分布里边存在该实体预测时,仅仅保留一个概率即可。
步骤S108,依据第二概率分布对输入样本中的词向量进行标注。
具体的,如图2所示,得到合并后的概率分布后,即可以根据合并后的概率分布中最高的概率得到对“华盛顿”一词的标注,即标注为“地区”。
本申请实施例提供的数据识别的方法基于数据库中相似实体搜索算法的实体识别模型,在模型的预测阶段通过模型自主预测与直接获取数据库中和当前预测数据最为相似的多个数据并存的方式,以增强模型最终的预测效果。
需要说明的是,本申请实施例中的示例仅作说明示例,以实现本申请实施例提供的数据识别的方法为准,具体不做限定。
此外,通过本申请实施例提供的数据识别的方法缩短模块开发时间,其中,缩短了模型训练时间。最近邻搜索算法的加入使得命名实体识别模型不再需要一个很大的训练集,大大减小了训练时所需要的时间。其次,缩短了标注时间。由于工业界对命名实体识别的种类划分更加细致(在线上购物场景中,商品相关的命名实体需要被识别为更加细分的类别如:女士品牌、厨房电器、日用百货等。),细分类别的命名实体使得数据标注的难度大幅度增加。通过采用这种方式,显著降低了训练数据标注的人力成本和系统开发时间成本。并且,降低开发成本,其中,细分类别的命名实体使得数据标注的难度大幅度增加,带来了训练数据标注的人力成本和系统开发时间成本的增长而本申请实施例提供的数据识别的方法克服了这一缺陷。进一步地,本申请实施例提供的数据识别的方法的数据的迁移性提高,现有技术很难将模型迁移到不同领域(如,通用的新闻数据训练得到的模型很难迁移到化学领域)。以及,本申请实施例提供的数据识别的方法中的搜索识别算法可以使得模型更有效的处理训练集中出现次数较为少的边缘样例。
本申请实施例提供的数据识别的方法通过使用提前构建好的<命名实体,该实体的向量表示>对的集合,使得用于该任务的神经网络模型具有很强的可解释性。通过查找缓存数据库中相近的命名实体可以追溯模型预测结果的来源。
本发明实施例提供了一种数据识别的方法。通过将获取到的输入样本输入实体识别模型,得到由输入样本中各词向量、各词向量的实体和实体的概率组成的第一概率分布;将输入样本输入预先创建的缓存数据库进行搜索,得到与输入样本中词向量匹配的至少一个单元对;将至少一个单元对中的实体和实体的概率与第一概率分布进行合并,得到第二概率分布;依据第二概率分布对输入样本中的词向量进行标注,从而能够达到在通用领域训练模型,不断收集不同学科领域的实体列表到数据库中的方式,来保证单模型服务可以在跨学科文本上得到很好的实体识别效果,降低了多个模型服务带来的时间和设备消耗。
实施例二
第二方面,本发明实施例提供一种数据识别的装置,图3为本发明实施例二提供的一种数据识别的装置的示意图,如图3所示,本申请实施例提供的数据识别的装置包括:
识别模块32,用于将获取到的输入样本输入实体识别模型,得到由输入样本中各词向量、各词向量的实体和实体的概率组成的第一概率分布;搜索模块34,用于将输入样本输入预先创建的缓存数据库进行搜索,得到与输入样本中词向量匹配的至少一个单元对;合并模块36,用于将至少一个单元对中的实体和实体的概率与第一概率分布进行合并,得到第二概率分布;标注模块38,用于依据第二概率分布对输入样本中的词向量进行标注。
可选的,本申请实施例提供的数据识别的装置还包括:构建模块,用于在将获取到的输入样本输入实体识别模型之前,根据预存的训练集构建缓存数据库,缓存数据库包含全部的训练数据和所有实体,其中,所有实体为得到通用模型后,在无标注文本进行推理预测得到的;训练数据中各词向量和对应各词向量的实体组成单元对;其中,词向量是由训练集中的每一个带有实体的词输入实体识别模型得到的向量。
可选的,识别模块32包括:第一分词单元,用于对输入样本进行分词,得到各词向量;识别单元,用于将各词向量输入实体识别模型,得到各词向量对应的实体和实体的概率;生成单元,用于依据各词向量、各词向量的的实体和实体的概率生成第一概率分布。
可选的,搜索模块34包括:第二分词单元,用于对输入样本进行分词,得到各词向量;搜索单元,用于将各词向量输入缓存数据库进行搜索,获取与各词向量满足向量之间的快速径向基距离为预设相似度的至少一个单元对。
进一步地,可选的,本申请实施例提供的数据识别的装置还包括:确定单元,用于将至少一个单元对的实体作为最近邻搜索得到的预测结果;标注单元,用于将至少一个单元对的距离进行归一化,并将归一化后的至少一个单元对的距离标注为实体的概率。
可选的,合并模块36包括:第一合并单元,用于当第一概率分布和第二概率分布有重合的实体时,将重合实体的概率相加;第二合并单元,用于当第一概率分布或第二概率分布中的实体非重合时,保留非重合的实体的概率。
本发明实施例提供了一种数据识别的装置。通过将获取到的输入样本输入实体识别模型,得到由输入样本中各词向量、各词向量的实体和实体的概率组成的第一概率分布;将输入样本输入预先创建的缓存数据库进行搜索,得到与输入样本中词向量匹配的至少一个单元对;将至少一个单元对中的实体和实体的概率与第一概率分布进行合并,得到第二概率分布;依据第二概率分布对输入样本中的词向量进行标注,从而能够达到在通用领域训练模型,不断收集不同学科领域的实体列表到数据库中的方式,来保证单模型服务可以在跨学科文本上得到很好的实体识别效果,降低了多个模型服务带来的时间和设备消耗。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

Claims (10)

1.一种数据识别的方法,其特征在于,包括:
将获取到的输入样本输入实体识别模型,得到由所述输入样本中各词向量、所述各词向量的实体和所述实体的概率组成的第一概率分布;
将所述输入样本输入预先创建的缓存数据库进行搜索,得到与所述输入样本中词向量匹配的至少一个单元对;
将所述至少一个单元对中的实体和所述实体的概率与所述第一概率分布进行合并,得到第二概率分布;
依据所述第二概率分布对所述输入样本中的词向量进行标注。
2.根据权利要求1所述的方法,其特征在于,在所述将获取到的输入样本输入实体识别模型之前,所述方法还包括:
根据预存的训练集构建所述缓存数据库,所述缓存数据库包含全部的训练数据和所有实体,其中,所述所有实体为得到通用模型后,在无标注文本进行推理预测得到的;所述训练数据中各词向量和对应所述各词向量的实体组成单元对;词向量是由所述训练集中的每一个带有实体的词输入所述实体识别模型得到的向量。
3.根据权利要求1所述的方法,其特征在于,所述将获取到的输入样本输入实体识别模型,得到由所述输入样本中各词向量、所述各词向量的实体和所述实体的概率组成的第一概率分布包括:
对所述输入样本进行分词,得到所述各词向量;
将所述各词向量输入所述实体识别模型,得到所述各词向量对应的实体和所述实体的概率;
依据所述各词向量、所述各词向量的实体和所述实体的概率生成所述第一概率分布。
4.根据权利要求1或2所述的方法,其特征在于,所述将所述输入样本输入预先创建的缓存数据库进行搜索,得到与所述输入样本中词向量匹配的至少一个单元对包括:
对所述输入样本进行分词,得到所述各词向量;
将所述各词向量输入所述缓存数据库进行搜索,获取与所述各词向量满足向量之间的快速径向基距离为预设相似度的所述至少一个单元对。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
将所述至少一个单元对的实体作为最近邻搜索得到的预测结果;
将所述至少一个单元对的距离进行归一化,并将归一化后的所述至少一个单元对的距离标注为所述实体的概率。
6.根据权利要求5所述的方法,其特征在于,所述将所述至少一个单元对中的实体和所述实体的概率与所述第一概率分布进行合并,得到第二概率分布包括:
当所述第一概率分布和所述第二概率分布有重合的实体时,将重合实体的概率相加;
当所述第一概率分布或所述第二概率分布中的实体非重合时,保留非重合的所述实体的概率。
7.一种数据识别的装置,其特征在于,包括:
识别模块,用于将获取到的输入样本输入实体识别模型,得到由所述输入样本中各词向量、所述各词向量的实体和所述实体的概率组成的第一概率分布;
搜索模块,用于将所述输入样本输入预先创建的缓存数据库进行搜索,得到与所述输入样本中词向量匹配的至少一个单元对;
合并模块,用于将所述至少一个单元对中的实体和所述实体的概率与所述第一概率分布进行合并,得到第二概率分布;
标注模块,用于依据所述第二概率分布对所述输入样本中的词向量进行标注。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
构建模块,用于在所述将获取到的输入样本输入实体识别模型之前,根据预存的训练集构建所述缓存数据库,所述缓存数据库包含全部的训练数据和所有实体,其中,所述所有实体为得到通用模型后,在无标注文本进行推理预测得到的;所述训练数据中各词向量和对应所述各词向量的实体组成单元对;词向量是由所述训练集中的每一个带有实体的词输入所述实体识别模型得到的向量。
9.根据权利要求7所述的装置,其特征在于,所述识别模块包括:
第一分词单元,用于对所述输入样本进行分词,得到所述各词向量;
识别单元,用于将所述各词向量输入所述实体识别模型,得到所述各词向量对应的实体和所述实体的概率;
生成单元,用于依据所述各词向量、所述各词向量的实体和所述实体的概率生成所述第一概率分布。
10.根据权利要求7或8所述的装置,其特征在于,所述搜索模块包括:
第二分词单元,用于对所述输入样本进行分词,得到所述各词向量;
搜索单元,用于将所述各词向量输入所述缓存数据库进行搜索,获取与所述各词向量满足向量之间的快速径向基距离为预设相似度的所述至少一个单元对。
CN202210648311.3A 2022-06-09 2022-06-09 数据识别的方法和装置 Active CN114741483B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210648311.3A CN114741483B (zh) 2022-06-09 2022-06-09 数据识别的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210648311.3A CN114741483B (zh) 2022-06-09 2022-06-09 数据识别的方法和装置

Publications (2)

Publication Number Publication Date
CN114741483A true CN114741483A (zh) 2022-07-12
CN114741483B CN114741483B (zh) 2022-09-16

Family

ID=82288160

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210648311.3A Active CN114741483B (zh) 2022-06-09 2022-06-09 数据识别的方法和装置

Country Status (1)

Country Link
CN (1) CN114741483B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117369996A (zh) * 2023-09-25 2024-01-09 深圳国匠云职业教育科技有限公司 数据处理方法、电子设备及计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090319515A1 (en) * 2008-06-02 2009-12-24 Steven Minton System and method for managing entity knowledgebases
CN108920460A (zh) * 2018-06-26 2018-11-30 武大吉奥信息技术有限公司 一种多类型实体识别的多任务深度学习模型的训练方法及装置
CN111737995A (zh) * 2020-05-29 2020-10-02 北京百度网讯科技有限公司 基于多种词向量训练语言模型的方法、装置、设备及介质
WO2021068329A1 (zh) * 2019-10-10 2021-04-15 平安科技(深圳)有限公司 中文命名实体识别方法、装置及计算机可读存储介质
CN112988979A (zh) * 2021-04-29 2021-06-18 腾讯科技(深圳)有限公司 实体识别方法、装置、计算机可读介质及电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090319515A1 (en) * 2008-06-02 2009-12-24 Steven Minton System and method for managing entity knowledgebases
CN108920460A (zh) * 2018-06-26 2018-11-30 武大吉奥信息技术有限公司 一种多类型实体识别的多任务深度学习模型的训练方法及装置
WO2021068329A1 (zh) * 2019-10-10 2021-04-15 平安科技(深圳)有限公司 中文命名实体识别方法、装置及计算机可读存储介质
CN111737995A (zh) * 2020-05-29 2020-10-02 北京百度网讯科技有限公司 基于多种词向量训练语言模型的方法、装置、设备及介质
CN112988979A (zh) * 2021-04-29 2021-06-18 腾讯科技(深圳)有限公司 实体识别方法、装置、计算机可读介质及电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MAH DIAN DROVO等: ""Named Entity Recognition in Bengali Text Using Merged Hidden Markov Model and Rule Base Approach"", 《2019 7TH INTERNATIONAL CONFERENCE ON SMART COMPUTING & COMMUNICATIONS (ICSCC)》 *
闫萍: ""基于统计与规则相结合的命名实体识别研究"", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117369996A (zh) * 2023-09-25 2024-01-09 深圳国匠云职业教育科技有限公司 数据处理方法、电子设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN114741483B (zh) 2022-09-16

Similar Documents

Publication Publication Date Title
CN112184525B (zh) 通过自然语义分析实现智能匹配推荐的系统及方法
CN107679039B (zh) 用于确定语句意图的方法和装置
CN110168535B (zh) 一种信息处理方法及终端、计算机存储介质
CN110674312B (zh) 构建知识图谱方法、装置、介质及电子设备
CN109086265B (zh) 一种语义训练方法、短文本中多语义词消歧方法
CN110866093A (zh) 机器问答方法及装置
CN112163424A (zh) 数据的标注方法、装置、设备和介质
CN112069312B (zh) 一种基于实体识别的文本分类方法及电子装置
CN111666766A (zh) 数据处理方法、装置和设备
CN112967144B (zh) 一种金融信用风险事件抽取方法、可读存储介质及设备
CN112765974B (zh) 一种业务辅助方法、电子设备及可读存储介质
CN114647713A (zh) 基于虚拟对抗的知识图谱问答方法、设备及存储介质
CN113282754A (zh) 针对新闻事件的舆情检测方法、装置、设备和存储介质
CN114741483B (zh) 数据识别的方法和装置
CN112579730A (zh) 高扩展性、多标签的文本分类方法和装置
CN112862569B (zh) 基于图像和文本多模态数据的产品外观风格评价方法和系统
Wang et al. Multi-modal transformer using two-level visual features for fake news detection
CN111898528B (zh) 数据处理方法、装置、计算机可读介质及电子设备
CN113011156A (zh) 审核文本的质检方法、装置、介质以及电子设备
Shah et al. Legal clause extraction from contract using machine learning with heuristics improvement
CN110888983A (zh) 一种正负面情感分析方法、终端设备及存储介质
CN108733702B (zh) 用户查询上下位关系提取的方法、装置、电子设备和介质
CN114398482A (zh) 一种词典构造方法、装置、电子设备及存储介质
CN109885647B (zh) 用户履历验证方法、装置、电子设备及存储介质
CN114048325A (zh) 基于知识图谱的案件处理方法及装置、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant