CN115081453B - 一种命名实体的识别方法及系统 - Google Patents

一种命名实体的识别方法及系统 Download PDF

Info

Publication number
CN115081453B
CN115081453B CN202211010616.8A CN202211010616A CN115081453B CN 115081453 B CN115081453 B CN 115081453B CN 202211010616 A CN202211010616 A CN 202211010616A CN 115081453 B CN115081453 B CN 115081453B
Authority
CN
China
Prior art keywords
language
named
named entity
entities
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211010616.8A
Other languages
English (en)
Other versions
CN115081453A (zh
Inventor
靳雯
于伟
赵洲洋
石江枫
王全修
王明超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rizhao Ruian Information Technology Co ltd
Beijing Rich Information Technology Co ltd
Original Assignee
Rizhao Ruian Information Technology Co ltd
Beijing Rich Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rizhao Ruian Information Technology Co ltd, Beijing Rich Information Technology Co ltd filed Critical Rizhao Ruian Information Technology Co ltd
Priority to CN202211010616.8A priority Critical patent/CN115081453B/zh
Publication of CN115081453A publication Critical patent/CN115081453A/zh
Application granted granted Critical
Publication of CN115081453B publication Critical patent/CN115081453B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及数据处理技术领域,具体涉及一种命名实体的识别方法及系统,该方法利用机器学习模型识别第二种语言类别的命名实体,其中所述机器学习模型的训练步骤包括:将第一类文本样本中的第一种语言的命名实体替换为第二种语言命名实体得到虚拟命名实体,利用第一类文本样本中的虚拟命名实体和第二类文本样本中的真实命名实体对机器学习模型进行训练,并根据模型的预测结果计算准确率和召回率,利用准确率、召回率和命名实体在样本中的占比计算需要调整的比例,根据调整比例计算调整虚拟命名实体的数量,利用调整后的训练集再次训练机器学习模型,该方法不仅能过够扩展训练样本,而且能够通过调整扩展的训练样本来进一步提高模型的识别能力。

Description

一种命名实体的识别方法及系统
技术领域
本发明涉及数据处理技术领域,具体涉及一种命名实体的识别方法及系统。
背景技术
在管理系统中保存有大量的文本文件,为了便于管理,一般情况下会将文件进行分类,或者提取大量文本文件中的关键信息自动生成一份简单的信息统计表。而分类和提取关键信息中往往会涉及到命名实体的提取,目前对于命名实体的提取可以采用机器学习模型,例如BERT模型等。
机器学习模型在经过大量样本的训练之后能够准确的识别相应的命名实体。但是对于需要按照命名实体的语言类型进行分类的任务中,由于样本数量较少,很难训练得到准确的机器学习模型。
发明内容
为了解决上述技术问题,本发明的目的在于提供一种命名实体的识别方法及系统,所采用的技术方案具体如下:
第一方面,本发明实施例提供了一种命名实体的识别方法,利用机器学习模型识别第二种语言类别的命名实体,其中所述机器学习模型的训练步骤包括:
步骤S100,获取训练集F,所述训练集F中包括K个第一类文本样本{f1,f2,…,fK}和M个第二类文本样本{e1,e2,…,eM},其中K>0且M>0;第一类文本样本和第二类文本样本为第一种语言的文本;
其中,第i个第一类文本样本fi包括Rf(i)个标注有第二种语言命名实体标签的虚拟命名实体{ai 1,ai 2,…,ai Rf(i)},其中,Rf(i)≥0,i的取值范围为1到K,每个虚拟命名实体是将fi中第一种语言的命名实体替换为第二种语言的命名实体,所述第一种语言和第二种语言不同;{f1,f2,…,fK}中虚拟命名实体的总数量Rf满足:Rf=∑K i=1Rf(i);
其中,第j个第二类文本样本ej中包括Re(j)个标注有第二种语言命名实体标签的真实命名实体{nj 1,nj 2,…,nj Re(j)},其中Re(j)≥0,j的取值范围为1到M,每个真实命名实体为第二种语言的命名实体;{e1,e2,…,eM}中真实命名实体的总数量Re满足:Re=∑M j=1Re(j);
步骤S200,根据F训练机器学习模型得到真实命名实体和虚拟命名实体的预测类别,根据第二种语言命名实体标签和预测类别计算准确率Pre和召回率Rec;
步骤S300,根据Pre、Rec、K、M、Rf和Re得到期望的命名实体的占比Pent,其中,Pent满足以下条件:Pent=(Rf+Re)/(K+M)+(Pre-Rec)/2;
步骤S400,根据Pent调整训练集中虚拟命名实体的总数量Rf´,其中Rf´满足以下条件:Rf´=(K+M)*Pent-Re,使机器学习模型根据调整后的虚拟命名实体数量的训练集进行训练。
第二方面,本发明实施例提供了一种命名实体的识别系统,所述系统包括处理器和非瞬时性计算机可读存储介质,所述非瞬时性计算机可读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以上述命名实体的识别方法
本发明具有如下有益效果:
本发明实施例通过将第一类文本样本中的第一种语言的命名实体替换为第二种语言命名实体得到虚拟命名实体,利用第一类文本样本中的虚拟命名实体和第二类文本样本中的真实命名实体对机器学习模型进行训练,并根据模型的预测结果计算准确率和召回率,利用准确率、召回率和命名实体在样本中的占比计算需要调整的比例,根据调整比例来计算调整虚拟命名实体的数量,利用调整后的训练集再次训练机器学习模型,该方法不仅能过够扩展训练样本,而且能够通过调整扩展的训练样本来进一步提高模型的识别能力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明一个实施例提供的机器学习模型训练的流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种命名实体的识别方法及系统,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一个或多个实施例中的特定特征、结构、或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种命名实体的识别方法及系统的具体方案。
请参阅图1,其示出了本发明一个实施例提供的机器学习模型训练的流程图。本发明实施例提供的一种命名实体的识别方法,该识别方法利用机器学习模型识别命名实体,其中机器学习模型的训练方法包括:
步骤S100,获取训练集F,所述训练集F中包括K个第一类文本样本{f1,f2,…,fK}和M个第二类文本样本{e1,e2,…,eM},其中K>0且M>0;第一类文本样本和第二类文本样本为第一种语言的文本。
可选的,命名实体为人名或者机构名称。
其中,第一类文本样本和第二类文本样本不同,第一类文本样本和第二类文本样本是预先指定的不同类别,且第二类文本样本的数量比第一类文本样本少,第一类文本样本中原始的命名实体为第一种语言的命名实体,第二类文本样本中原始的命名实体为第二种语言的命名实体。例如,在案件分类中,工作人员会按照案件是否为涉外分为两大类,其中第一类文本样本为普通样本,第二类文本样本为涉外样本,普通样本采用第一语言且可能会记录第一语言的命名实体,涉外样本采用第一语言且可能会记录第二语言的命名实体,也即在涉外样本中的文本采用的是第一语言的表达方式,但是其中的命名实体为第二语言的表达形式。例如涉外样本中记录的中文的表达方式为:“Neeson趁张三挤公交时盗窃手机”,其中Neeson作为人名的命名实体,为英文人名。
可选的,K为M的N倍,其中N为正整数。优选的,N的初始取值范围为[3,15]。更有选的,N的初始取值为5,该值为经验取值,能够快速使机器学习模型调整到最佳比例。
其中,第一种语言为样本数据中主要的语言类别,第二种语言为样本数据中较少的语言表达形式。可选的,第一种语言为中文,第二语言为英文。
进一步,第i个第一类文本样本fi包括Rf(i)个标注有第二种语言命名实体标签的虚拟命名实体{ai 1,ai 2,…,ai Rf(i)},其中,Rf(i)≥0,i的取值范围为1到K,每个虚拟命名实体是将fi中第一种语言的命名实体替换为第二种语言的命名实体,所述第一种语言和第二种语言不同;{f1,f2,…,fK}中虚拟命名实体的总数量Rf满足:Rf=∑K i=1Rf(i)。
其中,将文本信息分为两类进行标注,一类为第二种语言命名实体,另一类为非第二种语言命名实体。其中虚拟命名实体和真实命名实体均为第二种语言命名实体,对fi进行标注的过程为:将fi中的虚拟命名实体标注为1,其他文本信息为0。
可选的,第二种语言命名实体标签为英文人名实体标签。
优选的,在步骤S100之前还包括:对于fi中原始的命名实体{ci 1,ci 2,…,ci Rf(i)},根据第二种语言的命名实体库为第t个第一种语言的命名实体ci t随机分配一个第二种语言的命名实体ai t,并利用ai t替换ci t,其中t的取值范围为1到Rf(i),得到Rf(i)个虚拟命名实体{ai 1,ai 2,…,ai Rf(i)}。将第二种语言的命名实体库中已经分配过的命名实体标记为不可用。需要说明的是,第二种语言的命名实体库中具有多个不同的第二种语言的命名实体,为预先配置的实体库。例如,对于第一类文本样本中所记录的第一语言的表达方式为“王五晚上盗窃电动车”,根据第二种语言的命名实体库为命名实体“王五”随机分配第二种语言的命名实体,将第二种语言的命名实体库中的“Dunbar”随机分配给“王五”,并替换掉王五,则得到替换后的文本“Dunbar晚上盗窃电动车”。通过将第一类文本样本中的第一种语言的命名实体随机的替换为第二种语言的命名实体的方式,进一步的扩大训练集中第二种语言的命名实体的样本数据,解决了第二类文本样本数量少的问题。
进一步,第j个第二类文本样本ej中包括Re(j)个标注有第二种语言命名实体标签的真实命名实体{nj 1,nj 2,…,nj Re(j)},其中Re(j)≥0,j的取值范围为1到M,每个真实命名实体为第二种语言的命名实体;{e1,e2,…,eM}中真实命名实体的总数量Re满足:Re=∑M j=1Re(j)。
其中,真实命名实体和虚拟命名实体的类别相同。命名实体的类别包括人名、地址名和机构名等。可选的,真实命名实体和虚拟命名实体均为人名。
其中,对于ej进行标注的过程与fi相似,对ej进行标注的过程为:将ej中的真实英文命名实体标注为1,其他文本信息为0。
需要说明的是,真实命名实体为第二类文本样本ej中原始的命名实体。
步骤S200,根据F训练机器学习模型得到真实命名实体和虚拟命名实体的预测类别,根据第二种语言命名实体标签和预测类别计算准确率Pre和召回率Rec。
可选的,所述机器学习模型为BERT模型。
需要说明的是,机器学习模型得到的预测结果中包括真实命名实体和虚拟命名实体的预测类别,还包括非第二种语言命名实体的预测类别。
其中,准确率为预测结果中被正确预测的比例,准确率满足以下条件:
Pre=(TP+TN)/SUM
式中,SUM为F中第二种语言命名实体和非第二种语言命名实体的标签总数量,TP为样本中的第二种语言命名实体被准确预测为第二种语言命名实体类别的数量,TN为样本中的非第二种语言命名实体被准确预测为非第二种语言命名实体类别的数量。
其中,召回率是样本中的第二种语言命名实体被正确预测的比例,召回率满足以下条件:
Rec=TP/(Rf+Re)
步骤S300,根据Pre、Rec、K、M、Rf和Re得到期望的命名实体的占比Pent,其中,Pent满足以下条件:Pent=(Rf+Re)/(K+M)+(Pre-Rec)/2。
其中,(Rf+Re)/(K+M)为训练集F中第二种语言命名实体的比例,(Pre-Rec)/2为需要调整的虚拟命名实体的比例。在Pre大于Rec时,说明模型识别非第二种语言命名实体的准确率比较高,但是识别第二种语言命名实体的准确率不高,也即模型实际上识别第二种语言命名实体的能力比较差,样本中第二种语言命名实体被正确预测的比例较小,说明训练集中虚拟命名实体所占的比例小,因此在(Rf+Re)/(K+M)的基础上增加需要调整的虚拟命名实体的比例,提高召回率。在Pre小于Rec时,说明模型识别第二种语言命名实体的准确率高,但是识别非第二种语言命名实体的准确率不高,也即模型实际上识别非第二种语言命名实体的能力比较差,说明训练集中第二种语言命名实体的占比大于非第二种语言命名实体的占比,此时需要降低第二种语言命名实体在训练集中的占比,因此在(Rf+Re)/(K+M)的基础上减少调整的虚拟命名实体的比例,提高准确率。召回率与准确率越接近说明模型越能够准确的识别第二种语言命名实体和非第二种语言命名实体。
步骤S400,根据Pent调整训练集中虚拟命名实体的总数量Rf´,其中Rf´满足以下条件:Rf´=(K+M)*Pent-Re,使机器学习模型根据调整后的虚拟命名实体数量的训练集进行训练。
利用调整后的训练集再次对模型进行训练,并获取模型调整后的准确率和召回率,直至在准确率和召回率之间的差值不再变化时,训练集中真实命名实体和虚拟命名实体在样本中的占比为最佳占比,不再调整训练集中虚拟命名实体的数量,该方法能够提高模型的准确率和召回率,进一步提高模型的识别能力。
综上所述,本发明实施例提供了一种命名实体的识别方法,通过将第一类文本样本中的第一种语言的命名实体替换为第二种语言命名实体得到虚拟命名实体,利用第一类文本样本中的虚拟命名实体和第二类文本样本中的真实命名实体对机器学习模型进行训练,并根据模型的预测结果计算准确率和召回率,利用准确率、召回率和命名实体在样本中的占比计算需要调整的比例,根据调整比例来计算调整虚拟命名实体的数量,利用调整后的训练集再次训练机器学习模型,该方法不仅能过够扩展训练样本,而且能够通过调整扩展的训练样本来进一步提高模型的识别能力。
一种命名实体的识别系统,所述系统包括处理器和非瞬时性计算机可读存储介质,所述非瞬时性计算机可读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现上述任意一个实施例所述的命名实体的识别方法。其中,一种命名实体的识别方法在上述实施例中已经详细说明,不再赘述。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种命名实体的识别方法,其特征在于,利用机器学习模型识别第二种语言类别的命名实体,其中所述机器学习模型的训练步骤包括:
步骤S100,获取训练集F,所述训练集F中包括K个第一类文本样本{f1,f2,…,fK}和M个第二类文本样本{e1,e2,…,eM},其中K>0且M>0;第一类文本样本和第二类文本样本为第一种语言的文本;
其中,第i个第一类文本样本fi包括Rf(i)个标注有第二种语言命名实体标签的虚拟命名实体{ai 1,ai 2,…,ai Rf(i)},其中,Rf(i)≥0,i的取值范围为1到K,每个虚拟命名实体是将fi中第一种语言的命名实体替换为第二种语言的命名实体,所述第一种语言和第二种语言不同;{f1,f2,…,fK}中虚拟命名实体的总数量Rf满足:Rf=∑K i=1Rf(i);
其中,第j个第二类文本样本ej中包括Re(j)个标注有第二种语言命名实体标签的真实命名实体{nj 1,nj 2,…,nj Re(j)},其中Re(j)≥0,j的取值范围为1到M,每个真实命名实体为第二种语言的命名实体;{e1,e2,…,eM}中真实命名实体的总数量Re满足:Re=∑M j=1Re(j);
步骤S200,根据F训练机器学习模型得到真实命名实体和虚拟命名实体的预测类别,根据第二种语言命名实体标签和预测类别计算准确率Pre和召回率Rec;
步骤S300,根据Pre、Rec、K、M、Rf和Re得到期望的命名实体的占比Pent,其中,Pent满足以下条件:Pent=(Rf+Re)/(K+M)+(Pre-Rec)/2;
步骤S400,根据Pent调整训练集中虚拟命名实体的总数量Rf´,其中Rf´满足以下条件:Rf´=(K+M)*Pent-Re,使机器学习模型根据调整后的虚拟命名实体数量的训练集进行训练。
2.根据权利要求1所述的识别方法,其特征在于,所述步骤S100之前还包括:
对于fi中原始的命名实体{ci 1,ci 2,…,ci Rf(i)},根据第二种语言的命名实体库为第t个第一种语言的命名实体ci t随机分配一个第二种语言的命名实体ai t,并利用ai t替换ci t,其中t的取值范围为1到Rf(i),得到Rf(i)个虚拟命名实体{ai 1,ai 2,…,ai Rf(i)}。
3.根据权利要求1所述的识别方法,其特征在于,所述步骤S200中,Rec满足以下条件:
Rec=TP/(Rf+Re)
式中,TP为样本中标注第二种语言命名实体标签的命名实体被准确预测为第二种语言命名实体的数量。
4.根据权利要求1所述的识别方法,其特征在于,所述步骤S200中,Pre满足以下条件:
Pre=(TP+TN)/SUM
式中,SUM为F中第二种语言命名实体和非第二种语言命名实体的标签总数量,TP为样本中的第二种语言命名实体被准确预测为第二种语言命名实体类别的数量,TN为样本中的非第二种语言命名实体被准确预测为非第二种语言命名实体类别的数量。
5.根据权利要求1所述的识别方法,其特征在于,所述虚拟命名实体和真实命名实体的实体类别相同。
6.根据权利要求1所述的识别方法,其特征在于,所述K为M的N倍,其中N为正整数。
7.根据权利要求4所述的识别方法,其特征在于,所述N的初始取值范围为[3,15]。
8.根据权利要求1所述的识别方法,其特征在于,所述机器学习模型为BERT模型。
9.一种命名实体的识别系统,其特征在于,所述系统包括处理器和非瞬时性计算机可读存储介质,所述非瞬时性计算机可读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1-8中任意一项所述的识别方法。
CN202211010616.8A 2022-08-23 2022-08-23 一种命名实体的识别方法及系统 Active CN115081453B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211010616.8A CN115081453B (zh) 2022-08-23 2022-08-23 一种命名实体的识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211010616.8A CN115081453B (zh) 2022-08-23 2022-08-23 一种命名实体的识别方法及系统

Publications (2)

Publication Number Publication Date
CN115081453A CN115081453A (zh) 2022-09-20
CN115081453B true CN115081453B (zh) 2022-11-04

Family

ID=83244166

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211010616.8A Active CN115081453B (zh) 2022-08-23 2022-08-23 一种命名实体的识别方法及系统

Country Status (1)

Country Link
CN (1) CN115081453B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111737951A (zh) * 2019-03-20 2020-10-02 北京大学 一种文本语言关联关系标注方法和装置
CN112380864A (zh) * 2020-11-03 2021-02-19 广西大学 一种基于回译的文本三元组标注样本增强方法
CN112989828A (zh) * 2019-12-17 2021-06-18 医渡云(北京)技术有限公司 命名实体识别模型的训练方法、装置、介质及电子设备
CN113761924A (zh) * 2021-04-19 2021-12-07 腾讯科技(深圳)有限公司 一种命名实体模型的训练方法、装置、设备及存储介质
CN113836925A (zh) * 2021-09-16 2021-12-24 北京百度网讯科技有限公司 预训练语言模型的训练方法、装置、电子设备及存储介质
CN114548109A (zh) * 2022-04-24 2022-05-27 阿里巴巴达摩院(杭州)科技有限公司 命名实体识别模型训练方法及命名实体识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9971763B2 (en) * 2014-04-08 2018-05-15 Microsoft Technology Licensing, Llc Named entity recognition

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111737951A (zh) * 2019-03-20 2020-10-02 北京大学 一种文本语言关联关系标注方法和装置
CN112989828A (zh) * 2019-12-17 2021-06-18 医渡云(北京)技术有限公司 命名实体识别模型的训练方法、装置、介质及电子设备
CN112380864A (zh) * 2020-11-03 2021-02-19 广西大学 一种基于回译的文本三元组标注样本增强方法
CN113761924A (zh) * 2021-04-19 2021-12-07 腾讯科技(深圳)有限公司 一种命名实体模型的训练方法、装置、设备及存储介质
CN113836925A (zh) * 2021-09-16 2021-12-24 北京百度网讯科技有限公司 预训练语言模型的训练方法、装置、电子设备及存储介质
CN114548109A (zh) * 2022-04-24 2022-05-27 阿里巴巴达摩院(杭州)科技有限公司 命名实体识别模型训练方法及命名实体识别方法

Also Published As

Publication number Publication date
CN115081453A (zh) 2022-09-20

Similar Documents

Publication Publication Date Title
CN109416705B (zh) 利用语料库中可用的信息用于数据解析和预测
CN108733778B (zh) 对象的行业类型识别方法和装置
US7707027B2 (en) Identification and rejection of meaningless input during natural language classification
US8788503B1 (en) Content identification
US10853700B2 (en) Custom auto tagging of multiple objects
US20190164540A1 (en) Voice recognition system and voice recognition method for analyzing command having multiple intents
US20180226068A1 (en) Detection mechanism for automated dialog systems
CN113850666A (zh) 业务调度的方法、装置、设备及存储介质
US8886572B2 (en) Systems and methods for record linkage and paraphrase generation using surrogate learning
CN115081453B (zh) 一种命名实体的识别方法及系统
CN113515593A (zh) 基于聚类模型的话题检测方法、装置和计算机设备
CN116226747A (zh) 数据分类模型的训练方法、数据分类方法和电子设备
CN110825874A (zh) 一种中文文本分类方法和装置及计算机可读存储介质
CN113570286B (zh) 基于人工智能的资源分配方法、装置、电子设备及介质
CN115576789A (zh) 流失用户识别方法和系统
CN112182413B (zh) 一种基于教学大数据的智能推荐方法及服务器
CN112364169B (zh) 基于nlp的wifi识别方法、电子设备和介质
CN117216249A (zh) 数据分类方法、装置、电子设备、介质及车辆
CN112579733B (zh) 规则匹配方法、规则匹配装置、存储介质及电子设备
CN113722475A (zh) 基于云存储的文件操作方法、系统和电子设备
CN113779364A (zh) 一种基于标签提取的搜索方法及其相关设备
CN112380348A (zh) 元数据处理方法、装置、电子设备及计算机可读存储介质
CN113822301B (zh) 分拣中心的分类方法及装置、存储介质、电子设备
CN117391367A (zh) 保单任务的分配方法、装置、终端设备及存储介质
CN117877016A (zh) 视频文本提取方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant