CN114020877B - 一种用于标注文本的数据处理系统 - Google Patents

一种用于标注文本的数据处理系统 Download PDF

Info

Publication number
CN114020877B
CN114020877B CN202111371800.0A CN202111371800A CN114020877B CN 114020877 B CN114020877 B CN 114020877B CN 202111371800 A CN202111371800 A CN 202111371800A CN 114020877 B CN114020877 B CN 114020877B
Authority
CN
China
Prior art keywords
text
labeling
target
learning model
processed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111371800.0A
Other languages
English (en)
Other versions
CN114020877A (zh
Inventor
傅晓航
刘羽
张正义
林方
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongke Yuchen Technology Co Ltd
Original Assignee
Zhongke Yuchen Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongke Yuchen Technology Co Ltd filed Critical Zhongke Yuchen Technology Co Ltd
Priority to CN202111371800.0A priority Critical patent/CN114020877B/zh
Publication of CN114020877A publication Critical patent/CN114020877A/zh
Application granted granted Critical
Publication of CN114020877B publication Critical patent/CN114020877B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种用于标注文本的数据处理系统,包括数据库、处理器和存储有计算机程序的存储器,当计算机程序被处理器执行时,实现步骤:获取第一样本文本列表和若干个第二样本文本列表,使得多个标注端对应对第一样本文本列表进行标注,同时每一标注端分别标注对应的第二样本文本列表,得到训练集对学习模型进行训练,用于将所述目标语句列表输入至已训练的学习模型中,获取所述目标文本对应的标注文本,本发明能够对不同标注人员的准确性和差异性进行确定,进行根据标注人员的特性训练模型,提高文本标注的准确性和效率。

Description

一种用于标注文本的数据处理系统
技术领域
本发明涉及数据处理技术领域,尤其涉及一种用于标注文本的数据处理系统。
背景技术
随着时代的发展和无纸化办公技术的不断进步,人们生活中需要处理的电子文档越来越多,纸质文档占比则在渐渐降低。企业内的文档处理如果借助NLP相关技术则往往需要大量的文本标注工作用于模型训练,而在电子文档上完成这些操作则需要一种操作便捷、使用方便的标注系统。
当下热门的标注方式中,针对不同标注人员对问题理解不一致的情况,通常采用多个标注员对同一数据进行反复标注,在通过投票的方式,决定出数据的标注结果,并且在标注时采取基于PDF文档解析后在文字上划选来完成标注,会导致多种弊端情况出现,例如无法在单层PDF上划选、无法对印章水印等内容进行标记、无法在文档上进行表格标注等,同时,也会出现标注错误或者漏标注的情况,并且影响到文本标注效率,此外,也无法对不同标注人员的准确性和差异性进行确定,因此,如何准确的对文本进行标注,提高文本标注的准确性和效率成为亟待解决的技术问题。
发明内容
本发明目的在于,提供一种用于标注文本的数据处理系统,能够对不同标注人员的准确性和差异性进行确定,进行根据标注人员的特性训练模型,提高文本标注的准确性和效率。
本发明一方面提供了一种用于标注文本的数据处理系统,所述系统包括:数据库、处理器和存储有计算机程序的存储器,其中,所述数据库包括N个样本文本和M个标注端ID,当所述计算机程序被处理器执行时,实现以下步骤:
S100、获取第一样本文本列表A=(A1,A2,A3,……,Am),Ai是指第i个第一样本文本,i=1……m,m为第一样本文本数量,和M个第二样本文本列表B=(B1,B2,B3,……,Bn),Bj是指第j个第二样本文本,j=1……n,n为第二样本文本数量;
S200、将A发送至所有的标注端ID对应的标注端进行标注,获取Ai对应的M个第一标注文本同时,将B发送至单一所述标注端ID对应的标注端进行标注,Bj对应的第二标注文本/>以根据所有/>构建的第一标注文本列表作为第一训练集和所有/>构建的第一标注文本列表作为的第二标注文本列表作为第二训练集;
S300、将第一训练集输入至预设的学习模型中,获取所有的标注端ID的第一目标函数T(x);
S400、将第二训练集输入至预设的学习模型中,获取每一所述标注端ID的第二目标函数Ht(x),t=1……M,并根据所有Ht(x),获取总目标函数H0(x),其中,H0(x)符合如下条件:
S500、根据T(x)和H0(x)插入至所述学习模型,得到目标学习模型,以从数据库中获取K个目标样本文本作为目标训练集输入至所述目标学习模型中进行训练,得到已训练的目标学习模型;
S600、获取目标文本且对每一所述目标文本进行预处理,得到所述目标文本对应的目标语句列表,以将所述目标语句列表输入至已训练的目标学习模型中,获取所述目标文本对应的标注文本。
本发明与现有技术相比具有明显的优点和有益效果。借由上述技术方案,本发明提供的一种用于标注文本的数据处理系统可达到相当的技术进步性及实用性,并具有产业上的广泛利用价值,其至少具有下列优点:
本发明通过获取不同的样本对标注端进行标注,进而获取准确的函数插入至学习模型中,能够避免了标注端出现的异常标注或者漏标注的情况,提高了文本标注的准确性;
同时通过获取若干个关键文本列表实现不同标注端ID对同一关键文本和不同关键文本进行标注,进而获取标注端对应的共性函数和差异函数,且插入至学习模型中,能够有效的提高了学习模型的准确性和效率,避免了出现标注端出现的异常标注或者漏标注的情况,提高了文本标注的准确性,且能够无需对同一数据进行反复标注,提高了标注的准确性。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
图1为本发明实施例一提供的用于标注文本的数据处理系统的数据处理方法流程图。
具体实施方式
为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种用于标注文本的数据处理系统的具体实施方式及其功效,详细说明如后。
本发明实施例提供了一种用于标注文本的数据处理系统,所述系统包括:数据库、处理器和存储有计算机程序的存储器,其中,所述数据库包括N个样本文本和M个标注端ID,所述标注端ID是指标注端的唯一识别码,所述标注端是指用于标注文本的用户端,当所述计算机程序被处理器执行时,实现以下步骤:
S100、获取第一样本文本列表A=(A1,A2,A3,……,Am),Ai是指第i个第一样本文本,i=1……m,m为第一样本文本数量,和M个第二样本文本列表B=(B1,B2,B3,……,Bn),Bj是指第j个第二样本文本,j=1……n,n为第二样本文本数量。
具体地,所述第二样本文本是指在所有样本中除所述第一样本文本之外的其他样本文本,其中,所述第一样本文本和所述第二样本文本从数据库存储的样本文本中获取的。
优先地,所述数据库中还包括R个原始文本,并从数据库中获取待处理文本Z个待处理文本,构建成待处理文本列表Q=(Q1,Q2,Q3,……,Qz),其中,Qg是指第g个待处理文本,g=1……z。
进一步地,在S100步骤之前还包括如下步骤确定样本文本:
S1、基于Q且每一所述待处理文本进行预处理,获取所述待处理文本对应的指定语句列表。
具体地,在S1步骤中,所述指定语句是指将所述待处理文本按照预设规则进行语句划分处理生成的语句,其中,预设规则可为现有技术中任一规则,例如,所述待处理文本按照标点符号进行语句划分处理生成的语句。
S2、将所有待处理文本作为指定训练集输入至所述学习模型中进行训练,获取任一待处理文本对应的语句向量集且当所述待处理文本对应的语句向量集中任一所述语句向量对应的概率值<预设的第一概率阈值时,将所述待处理文本作为样本文本。
优选地,所述学习模型为主动学习模型。
在一个具体的实施例中,在S2步骤中,还包括如下步骤确定语句向量:
S201、获取任一指定语句对应的字符列表C=(C1,C2,C3,……,Cp),Cq是指在所述指定语句中第q个字符,q=1……p,p为字符数量;
S203、将任一C输入至所述学习模型中,获取Cq对应的中间函数Eq(x),以根据Cq对应的中间函数Eq(x),确定出Cq对应的概率值Fq,可以理解为:Eq(x)为将Cq作为变量输入所述学习模型,得到的所述学习模型对应的函数,且本领域技术人员可以采取任一方法基于Eq(x)得到Cq对应的概率值Fq,在此不再赘述。
S205、当Fq≥预设的第二概率阈值时,将Cq对应的标记为1;
S207当Fq<预设的第二概率阈值时,将Cq对应的标记为0;
S209、根据所有Cq对应的标记,获取指定语句的语句向量。
具体地,所述第二概率阈值的范围为50~60%,优选地,所述第二概率阈值为50%。
在一些实施例中,S205步骤和S207步骤中,当Fq处于若干个预设概率阈值区间中的任一概率阈值区间,将Fq对应的标记为所述预设概率阈值区间对应的标记值,其中,任一所述预设概率阈值区间为将0~100%阈值划分成若干个相等距离的区间中的一个,所述预设概率阈值区间对应的标记值可以根据预设概率阈值区间预先设置,在此不再赘述,能够优化字符向量,提高字符概率值的准确性,有利于确定是否标注准确,便有后续对学习模型的训练。
具体地,在S2步骤之后,还包括如下步骤:
S3、当任一指定语句对应的概率值≥所述第一概率阈值时,获取任一所述待处理文本对应的概率值F,F符合如下条件:
其中,Fq是指在第α个指定语句中第q个字符的概率值,p为第α个指定语句中字符数量,α=1……β,β为任一待处理文本中指定语句数量。
S5、当F<预设的第三概率阈值时,将F对应的所述待处理文本作为样本文本。
上述实施例中:根据任一指定语句对应的概率值确定中间文本,并根据任一样本语句中所有字符的概率进行确定,一方面,避免标注语句的异常情况的发生,另一方面,能够对整体语句进行判断,避免出现语句判断错误,影响到文本标注。
S200、将A发送至所有的标注端ID对应的标注端进行标注,获取Ai对应的M个第一标注文本同时,将B发送至单一所述标注端ID对应的标注端进行标注,Bj对应的第二标注文本/>以根据所有/>构建的第一标注文本列表作为第一训练集和所有/>构建的第二标注文本列表作为第二训练集,可以理解为:A为所有标注端ID对应的标注端均处理的文本列表,而每一B为单一标注端ID对应的标注端处理的文本列表,能够获取不同标注端对文本进行标注的共性特征和不同标注端对文本进行标注的差异特征,有利于训练模型,进而提高文本标注的准确性和效率。
具体地,不同所述标注端ID对应的B中所有第二样本文本不相同,可以理解为:任一所述标注端ID对应的B中所有第二关键文本,与其他的M-1个所述标注端ID对应的B中所有第二样本文本均不一致,能够获取不同标注端对文本进行标注的差异特征,有利于训练模型,进而提高文本标注的准确性和效率。
S300、将第一训练集输入至预设的学习模型中,获取所有的标注端ID的第一目标函数T(x),可以理解为:T(x)用于表征标注端差异的函数且T(x)为将第一训练集作为变量输入至所述学习模型,得到所述学习模型对应的函数。
S400、将第二训练集输入至预设的学习模型中,获取每一所述标注端ID的第二目标函数Ht(x),t=1……M,并根据所有Ht(x),获取总目标函数H0(x),其中,H0(x)符合如下条件:
可以理解为:H0(x)用于表征标注端共性的函数Ht(x)为将第t个第二训练集作为变量输入至所述学习模型,得到所述学习模型对应的函数。
具体地,S300中T(x)和S400中Ht(x)为相同位数的矩阵函数。
优选地,H0(x)还符合如下条件:
其中,λ为权重值,其中,所述权重值根据所述标注端的优先等级进行确定,λ的取值范围为1~5,可以理解为:λ包括λ1、λ2、λ3、λ4和λ5,λ1、λ2、λ3、λ4和λ5分别对应所述标注端的五个优先等级且λ1<λ2<λ3<λ4<λ5
S500、根据T(x)和H0(x)插入至所述学习模型,得到目标学习模型,以从数据库中获取K个目标样本文本作为目标训练集输入至所述目标学习模型中进行训练,得到已训练的目标学习模型。
具体地,所述目标样本文本是指在数据库中除第一样本文本和第二样本文本之外的其他样本文本。
在一些具体的实施例中,对T(x)和Ht(x)进行处理,获取和/>其中,W为预设概率阈值区间数量,并将和/>插入至所述学习模型,得到目标学习模型,以从数据库中获取K个目标样本文本作为目标训练集输入至所述目标学习模型中进行训练,得到已训练的目标学习模型,可以理解为:将/>和/>均与所述学习模型对应的函数进行合并,即T(x)和均与所述学习模型对应的函数的加和,得到新的所述学习模型对应的函数作为目标学习模型。
S600、获取目标文本且对每一所述目标文本进行预处理,得到所述目标文本对应的目标语句列表,以将所述目标语句列表输入至已训练的目标学习模型中,获取所述目标文本对应的标注文本。
具体地,所述目标文本为数据库中除待处理文本之外的原始文本,所述目标文本与所述待处理文本采取相同的预设规则进行语句划分,在此不再赘述,所述目标文本的数量为R-Z。
具体地,在S600步骤中,当所述目标文本对应的目标语句列表输入至所述已训练的目标学习模型时,所述已训练的目标学习模型中只具有H0(x),能够优化不同标注端对文本标注的差异性,避免了出现标注端出现的异常标注或者漏标注的情况,提高了文本标注的准确性。
本实施例获取若干个原始文本的概率值生成待处理文本,在基于待处理文本中确定出第一样本文本列表和第二样本文本列表,以将第一样本文本列表发送至所有标注端ID的标注端,以根据第一样本文本列表确定出不同标注端ID的差异特性,同时,将不同的第二样本文本列表发送至对应的标注端ID的标注端,以根据第二样本文本列表确定出所有标注端ID的共同特性,且将差异特性对应的函数和共同特性对应的函数,且插入至学习模型中,能够有效的提高了学习模型的准确性和效率,避免了出现标注端出现的异常标注或者漏标注的情况,提高了文本标注的准确性,且能够无需对同一数据进行反复标注,提高了标注的准确性。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (7)

1.一种用于标注文本的数据处理系统,其特征在于,所述系统包括:数据库、处理器和存储有计算机程序的存储器,其中,所述数据库包括N个样本文本和M个标注端ID,所述数据库中还包括R个原始文本,并从数据库中获取待处理文本Z个待处理文本,构建成待处理文本列表Q=(Q1,Q2,Q3,……,Qz),其中,Qg是指第g个待处理文本,当所述计算机程序被处理器执行时,实现以下步骤:
S100、获取第一样本文本列表A=(A1,A2,A3,……,Am),Ai是指第i个第一样本文本,i=1……m,m为第一样本文本数量,和M个第二样本文本列表B=(B1,B2,B3,……,Bn),Bj是指第j个第二样本文,j=1……n,n为第二样本文本数量;
其中,在S100步骤之前还包括如下步骤确定样本文本:
S1、基于Q且每一所述待处理文本进行预处理,获取所述待处理文本对应的指定语句列表;
S2、将所有待处理文本作为指定训练集输入至学习模型中进行训练,获取任一待处理文本对应的语句向量集且当所述待处理文本对应的语句向量集中任一所述语句向量对应的概率值<预设的第一概率阈值时,将所述待处理文本作为样本文本;
其中,在S2步骤之后,还包括如下步骤:
S3、当任一指定语句对应的概率值≥所述第一概率阈值时,获取任一所述待处理文本对应的概率值F,F符合如下条件:
其中,Fq是指在第α个指定语句中第q个字符的概率值,p为第α个指定语句中字符数量,α=1……β,β为任一待处理文本中指定语句数量;
S5、当F<预设的第三概率阈值时,将F对应的所述待处理文本作为样本文本;
S200、将A发送至所有的标注端ID对应的标注端进行标注,获取Ai对应的M个第一标注文本同时,将B发送至单一所述标注端ID对应的标注端进行标注,Bj对应的第二标注文本以根据所有/>构建的第一标注文本列表作为第一训练集和所有/>构建的第二标注文本列表作为第二训练集;
S300、将第一训练集输入至预设的学习模型中,获取所有的标注端ID的第一目标函数T(x);
S400、将第二训练集输入至预设的学习模型中,获取每一所述标注端ID的第二目标函数Ht(x),t=1……M,并根据所有Ht(x),获取总目标函数H0(x),其中,H0(x)符合如下条件:
其中,λ为标注端对应的权重列表;
S500、根据T(x)和H0(x)插入至所述学习模型,得到目标学习模型,以从数据库中获取K个目标样本文本作为目标训练集输入至所述目标学习模型中进行训练,得到已训练的目标学习模型;
S600、获取目标文本且对每一所述目标文本进行预处理,得到所述目标文本对应的目标语句列表,以将所述目标语句列表输入至已训练的目标学习模型中,获取所述目标文本对应的标注文本。
2.根据权利要求1所述的用于标注文本的数据处理系统,其特征在于,在S1步骤中,所述指定语句列表中指定语句是指将所述待处理文本按照预设规则进行语句划分处理生成的语句。
3.根据权利要求1所述的用于标注文本的数据处理系统,其特征在于,在S2步骤中,还包括如下步骤确定语句向量:
获取任一指定语句对应的字符列表C=(C1,C2,C3,……,Cp),Cq是指在所述指定语句中第q个字符,q=1……p,p为字符数量;
将任一C输入至所述学习模型中,获取Cq对应的中间函数Eq(x),以根据Cq对应的函数Eq(x),确定出Cq对应的概率值Fq
当Fq≥预设的第二概率阈值时,将Cq对应的标记为1;
当Fq<预设的第二概率阈值时,将Cq对应的标记为0;
根据所有Cq对应的标记,获取指定语句。
4.根据权利要求1所述的用于标注文本的数据处理系统,其特征在于,所述第二样本文本是指在所有样本中除所述第一样本文本之外的其他样本文本。
5.根据权利要求1所述的用于标注文本的数据处理系统,其特征在于,不同所述标注端ID对应的B中所有第二样本文本不相同。
6.根据权利要求1所述的用于标注文本的数据处理系统,其特征在于,在S600步骤中,当所述目标文本对应的目标语句列表输入至所述已训练的目标学习模型时,所述已训练的目标学习模型中只具有H0(x)。
7.根据权利要求1所述的用于标注文本的数据处理系统,其特征在于,所述目标文本是指在数据库中除待处理文本之外的其他任一原始文本。
CN202111371800.0A 2021-11-18 2021-11-18 一种用于标注文本的数据处理系统 Active CN114020877B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111371800.0A CN114020877B (zh) 2021-11-18 2021-11-18 一种用于标注文本的数据处理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111371800.0A CN114020877B (zh) 2021-11-18 2021-11-18 一种用于标注文本的数据处理系统

Publications (2)

Publication Number Publication Date
CN114020877A CN114020877A (zh) 2022-02-08
CN114020877B true CN114020877B (zh) 2024-05-10

Family

ID=80065320

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111371800.0A Active CN114020877B (zh) 2021-11-18 2021-11-18 一种用于标注文本的数据处理系统

Country Status (1)

Country Link
CN (1) CN114020877B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020119075A1 (zh) * 2018-12-10 2020-06-18 平安科技(深圳)有限公司 通用文本信息提取方法、装置、计算机设备和存储介质
CN111783518A (zh) * 2020-05-14 2020-10-16 北京三快在线科技有限公司 训练样本生成方法、装置、电子设备及可读存储介质
WO2021051560A1 (zh) * 2019-09-17 2021-03-25 平安科技(深圳)有限公司 文本分类方法和装置、电子设备、计算机非易失性可读存储介质
CN112860919A (zh) * 2021-02-20 2021-05-28 平安科技(深圳)有限公司 基于生成模型的数据标注方法、装置、设备及存储介质
CN113064973A (zh) * 2021-04-12 2021-07-02 平安国际智慧城市科技股份有限公司 文本分类方法、装置、设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020119075A1 (zh) * 2018-12-10 2020-06-18 平安科技(深圳)有限公司 通用文本信息提取方法、装置、计算机设备和存储介质
WO2021051560A1 (zh) * 2019-09-17 2021-03-25 平安科技(深圳)有限公司 文本分类方法和装置、电子设备、计算机非易失性可读存储介质
CN111783518A (zh) * 2020-05-14 2020-10-16 北京三快在线科技有限公司 训练样本生成方法、装置、电子设备及可读存储介质
CN112860919A (zh) * 2021-02-20 2021-05-28 平安科技(深圳)有限公司 基于生成模型的数据标注方法、装置、设备及存储介质
CN113064973A (zh) * 2021-04-12 2021-07-02 平安国际智慧城市科技股份有限公司 文本分类方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于半监督与词向量加权的文本分类研究;宋建国;;软件导刊;20200915(第09期);全文 *

Also Published As

Publication number Publication date
CN114020877A (zh) 2022-02-08

Similar Documents

Publication Publication Date Title
US9195639B2 (en) Computer-based system and method for generating, classifying, searching, and analyzing standardized text templates and deviations from standardized text templates
CN109918640B (zh) 一种基于知识图谱的中文文本校对方法
CN111639171A (zh) 一种知识图谱问答方法及装置
US20060015326A1 (en) Word boundary probability estimating, probabilistic language model building, kana-kanji converting, and unknown word model building
WO2024045527A1 (zh) 词句的纠错方法、装置、可读存储介质和计算机程序产品
CN115659226A (zh) 一种获取app标签的数据处理系统
CN114021573B (zh) 一种自然语言处理方法、装置、设备及可读存储介质
CN111104503A (zh) 一种建筑工程质量验收规范问答系统及其构建方法
CN108628826B (zh) 候选词评估方法、装置、计算机设备和存储介质
CN115129951B (zh) 一种获取目标语句的数据处理系统
CN114020877B (zh) 一种用于标注文本的数据处理系统
CN113806565B (zh) 一种文本标注的数据处理系统
Thompson et al. Genetic algorithm learning as a robust approach to RNA editing site prediction
CN111708870A (zh) 基于深度神经网络的问答方法、装置及存储介质
CN116562295A (zh) 一种面向桥梁领域文本的增强语义命名实体识别方法
CN112966501B (zh) 一种新词发现方法、系统、终端及介质
CN112528003B (zh) 一种基于语义排序和知识修正的多项选择问答方法
CN115310449A (zh) 一种基于小样本的命名实体识别方法、装置及相关介质
CN114780577A (zh) Sql语句生成方法、装置、设备及存储介质
CN114579763A (zh) 一种针对中文文本分类任务的字符级对抗样本生成方法
CN114021572A (zh) 一种自然语言处理方法、装置、设备及可读存储介质
Christie Automated Essay Marking for Content~ does it work?
JP3958722B2 (ja) イメージデータ文書検索システム
CN115687334B (zh) 数据质检方法、装置、设备及存储介质
CN116860980B (zh) 一种实时手术反馈分类方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant