CN112989057B - 文本标签确定方法、装置、计算机设备和存储介质 - Google Patents

文本标签确定方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN112989057B
CN112989057B CN202110488250.4A CN202110488250A CN112989057B CN 112989057 B CN112989057 B CN 112989057B CN 202110488250 A CN202110488250 A CN 202110488250A CN 112989057 B CN112989057 B CN 112989057B
Authority
CN
China
Prior art keywords
text
label
probability
partial
texts
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110488250.4A
Other languages
English (en)
Other versions
CN112989057A (zh
Inventor
李应健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Soxinda Beijing Data Technology Co ltd
Original Assignee
Soxinda Beijing Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Soxinda Beijing Data Technology Co ltd filed Critical Soxinda Beijing Data Technology Co ltd
Priority to CN202110488250.4A priority Critical patent/CN112989057B/zh
Publication of CN112989057A publication Critical patent/CN112989057A/zh
Application granted granted Critical
Publication of CN112989057B publication Critical patent/CN112989057B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种文本标签确定方法、装置、计算机设备和存储介质。所述方法包括:通过获取源文本的多个分文本,所述分文本包含文本标签;再针对每个分文本,确定所述分文本中各文本标签的概率;然后根据所述分文本中各文本标签的概率获得所述分文本的权重;再根据各个分文本中各文本标签的概率和所述各个分文本的权重确定各文本标签的最终概率;最后根据所述各文本标签的最终概率确定所述源文本的目标文本标签。采用本方法能够使得各分文本的权重更加准确,则根据分文本的权重以及各文本标签的概率确定得到的文本标签的最终概率也更加准确,进而根据各文本标签的最终概率确定源文本的目标文本标签,提高了源文本标签确定的准确率。

Description

文本标签确定方法、装置、计算机设备和存储介质
技术领域
本申请涉及文本处理技术领域,特别是涉及一种文本标签确定方法、装置、计算机设备和存储介质。
背景技术
随着文本处理技术的发展,需要对数量大、语种多、任务杂的自然语言的文本进行处理,为了能够处理多种自然语言任务,采用BERT(Bidirectional EncoderRepresentation from Transformers,基于转换器的双向编码表征)模型对文本进行处理,该模型是专门用于自然语言处理的深度学习,该模型使用新的预训练任务,即遮蔽词预测和下一句判断,能够很好的编码上下文语义信息,从而处理多项自然语言任务。
然而,针对长文本的处理,采用BERT模型能够确定长文本的标签,但是准确率低,即难以准确的确定长文本的标签。
发明内容
基于此,有必要针对上述技术问题,提供一种文本标签确定方法、装置、计算机设备和存储介质。
一种文本标签确定方法,该方法包括:
获取源文本的多个分文本,该分文本包含文本标签;针对每个分文本,确定该分文本中各文本标签的概率;根据该分文本中各文本标签的概率获得该分文本的权重;根据各个分文本中各文本标签的概率和该各个分文本的权重确定各文本标签的最终概率;根据该各文本标签的最终概率确定该源文本的目标文本标签。
在其中一个实施例中,获取源文本的多个分文本,包括:
将源文本按照长度阈值划分成多个分文本,获取划分后的多个分文本。
在其中一个实施例中,针对每个分文本,确定该分文本中各文本标签的概率,包括:
针对每个分文本,将该分文本输入文本处理模型获得该分文本中各文本标签的概率。
在其中一个实施例中,根据该分文本中各文本标签的概率获得该分文本的权重,包括:
根据该分文本中各文本标签的概率获得该分文本的熵值;根据该分文本的熵值确定该分文本的权重,该权重与该熵值成反比例关系。
在其中一个实施例中,根据该分文本的熵值确定该分文本的权重,该权重与该熵值成反比例关系,包括:
根据该分文本的熵值获取该熵值的倒数,该倒数为该分文本的权重。
在其中一个实施例中,根据各个分文本中各文本标签的概率和该各个分文本的权重确定各文本标签的最终概率,包括:
将该各个分文本中各文本标签的概率和该各个分文本的权重进行加权求和获得各文本标签的最终概率。
在其中一个实施例中,根据该各文本标签的最终概率确定该源文本的目标文本标签,包括:
按照该各文本标签的最终概率从大到小选取预定数量的文本标签作为该源文本的目标文本标签,或者将最终概率最大的文本标签确定为该源文本的目标文本标签。
一种文本标签确定装置,该装置包括:
获取模块,用于获取源文本的多个分文本,该分文本包含文本标签;
第一确定模块,用于针对每个分文本,确定该分文本中各文本标签的概率;
获得模块,用于根据该分文本中各文本标签的概率获得该分文本的权重;
处理模块,用于根据各个分文本中各文本标签的概率和该各个分文本的权重确定各文本标签的最终概率;
第二确定模块,用于根据该各文本标签的最终概率确定该源文本的目标标签。
在其中一个实施例中,获取源文本的多个分文本,该获取模块,具体用于:
将源文本按照长度阈值划分成多个分文本,获取划分后的多个分文本。
在其中一个实施例中,针对每个分文本,确定该分文本中各文本标签的概率,该第一确定模块,具体用于:
针对每个分文本,将该分文本输入文本处理模型获得该分文本中各文本标签的概率。
在其中一个实施例中,根据该分文本中各文本标签的概率获得该分文本的权重,该获得模块,具体用于:
根据该分文本中各文本标签的概率获得该分文本的熵值;根据该分文本的熵值确定该分文本的权重,该权重与该熵值成反比例关系。
在其中一个实施例中,根据该分文本的熵值确定该分文本的权重,该权重与该熵值成反比例关系,该获得模块,具体用于:
根据该分文本的熵值获取该熵值的倒数,该倒数为该分文本的权重。
在其中一个实施例中,根据各个分文本中各文本标签的概率和该各个分文本的权重确定各文本标签的最终概率,该处理模块,具体用于:
将该各个分文本中各文本标签的概率和该各个分文本的权重进行加权求和获得各文本标签的最终概率。
在其中一个实施例中,根据该各文本标签的最终概率确定该源文本的目标文本标签,该第二确定模块,具体用于:
按照该各文本标签的最终概率从大到小选取预定数量的文本标签作为该源文本的目标文本标签,或者将最终概率最大的文本标签确定为该源文本的目标文本标签。
一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行时实现如上述任一所述的文本标签确定方法。
一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一所述的文本标签确定方法。
上述文本标签确定方法、装置、计算机设备和存储介质,通过获取源文本的多个分文本,该分文本包含文本标签;针对每个分文本,确定该分文本中各文本标签的概率;再根据该分文本中各文本标签的概率获得该分文本的权重;然后根据各个分文本中各文本标签的概率和该各个分文本的权重确定各文本标签的最终概率;最后根据该各文本标签的最终概率确定该源文本的目标文本标签。因此,在确定源文本标签的过程中,通过各分文本中各文本标签的概率来确定分文本在源文本中的权重,得到的分文本的权重更加准确,再根据分文本的权重以及各文本标签的概率确定得到的文本标签的最终概率也更加准确,进而根据各文本标签的最终概率确定源文本的标签,提高了源文本标签确定的准确率。
附图说明
图1为一个实施例中文本标签确定方法的流程示意图;
图2为一个实施例中文本标签确定方法的测试流程示意图;
图3为一个实施例中分文本1中各文本标签的分布情况示意图;
图4为一个实施例中分文本2中各文本标签的分布情况示意图;
图5为一个实施例中各文本标签最终概率的分布情况示意图;
图6为一个实施例中获得各分文本权重步骤的流程示意图;
图7为一个实施例中文本标签确定装置的结构框图;
图8为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种文本标签确定方法,包括以下步骤:
步骤102,获取源文本的多个分文本,该分文本包含文本标签。
其中,源文本存储在具备存储功能的存储设备中,该存储设备可以是计算机的硬盘、光盘、U盘等等,该源文本的文本长度超过文本阈值,该长度阈值可以是128个单位长度、也可以是256个单位长度,分文本为将源文本分段处理获得的。文本标签为文本的主题,例如金融、文化、教育等。
具体地,从存储设备中获得源文本,通过将源文本分段获取源文本的多个分文本,该分文本包含文本标签。例如,获取存储在计算机设备的源文本,通过Python软件读取超过512个单位长度的源文本和文本中包含的文本标签,并将该源文本进行分段获取多个分文本。
步骤104,针对每个分文本,确定该分文本中各文本标签的概率。
具体地,对于每个分文本,根据源文本中的文本标签,确定每个分文本中每个文本标签的概率分布,例如,通过源文本获得n个分文本,并且包含金融、文化、教育等m个文本标签,针对每个分文本,获得每个分文本中m个文本标签的概率分布。
步骤106,根据该分文本中各文本标签的概率获得该分文本的权重。
具体地,针对每个分文本,根据分文本中各文本标签的概率分布获得对应分文本的权重。例如,在n个分文本中包含m个文本标签,每一个分文本的权重是根据该文本所有的文本标签获得的,即获得n个权重。
步骤108,根据各个分文本中各文本标签的概率和该各个分文本的权重确定各文本标签的最终概率。
具体地,针对每个文本标签的最终概率通过对应文本标签在不同分文本中的分布概率和各个分文本的权重确定。例如,在n个分文本中包含金融、文化、教育等m个文本标签,求取文本标签为金融的最终概率时,根据金融在各个分文本中的概率和n个分文本的权重确定。
步骤110,根据该各文本标签的最终概率确定该源文本的目标文本标签。
具体地,在获得各文本标签的最终概率后,综合各文本标签的最终概率确定源文本的目标文本标签。例如,对关于年度报告的源文本获取8个分文本后,该分文本包括金融、文化、教育等10个文本标签,在获取了10个文本标签的最终概率后,综合10个最终概率确定该源文本的目标文本标签为教育,即该年度报告的主题确定为教育。
上述文本标签确定方法中,通过获取源文本的多个分文本,该分文本包含文本标签;针对每个分文本,确定该分文本中各文本标签的概率;再根据该分文本中各文本标签的概率获得该分文本的权重;然后根据各个分文本中各文本标签的概率和该各个分文本的权重确定各文本标签的最终概率;最后根据该各文本标签的最终概率确定该源文本的目标文本标签。因此,在确定源文本标签的过程中,通过各分文本中各文本标签的概率来确定分文本在源文本中的权重,得到的分文本的权重更加准确,再根据分文本的权重以及各文本标签的概率确定得到的文本标签的最终概率也更加准确,进而根据各文本标签的最终概率确定源文本的标签,提高了源文本标签确定的准确率。
在一个实施例中,获取源文本的多个分文本,包括:将源文本按照长度阈值划分成多个分文本,获取划分后的多个分文本。例如,从计算机设备硬盘中获取源文本后,通过Python读取文本长度超过512个单位长度的源文本和文本标签,并且将源文本按照长度阈值划分为分文本,该长度阈值可以设置为128个单位长度,也可以设置为512个单位长度。因此,对文本长度超过长度阈值的源文本进行分段获取多个分文本,其中,文本长度超过长度阈值的源文本为长文本,能够实现将长文本划分为不超过长度阈值的分文本,并且根据各个分文本便于后续获取各个分文本的权重,以此能够确定长文本标签,即能够预测长文本标签,从而提高了长文本标签确定的准确率。
在一个实施例中,针对每个分文本,确定该分文本中各文本标签的概率,包括:针对每个分文本,将该分文本输入文本处理模型获得该分文本中各文本标签的概率。
其中,文本处理模型为BERT模型,该模型用于自然语言处理的深度学习模型。在将该分文本输入文本处理模型之前,需要通过数据集进行测试,该数据集分为训练集合测试集。例如,输入某输入软件的新闻数据集进行测试,该数据集包含50000条数据(即50000个长文本)的训练集和10000条数据(即10000个长文本)测试集。但BERT模型无法处理文本长度超过长度阈值的源文本,该源文本为长文本,在相关技术中,当文本长度超过长度阈值时,可以通过将分文分段处理,分段后每段文本的长度均小于长度阈值。如图2所示的测试流程图,首先将训练集输入BERT模型中进行训练,当50000条数据训练结束后该模型训练完成。再确定10000测试集的标签种类和确定目标文本标签,然后将测试集输入BERT模型前通过Python进行分段,并且确定娱乐、时尚、体育、财经、家居、教育、游戏、时政、房产、科技10个文本标签。将长文本A分段后获得文本a(1)、文本a(2)、……、文本a(n),然后输入BERT模型后获得各个文本标签的概率,其中文本a(1)或的预测标签分布P(1),该P(1)由P(11)(文本a(1)中文本标签为娱乐的概率分布)、P(12)(文本a(1)中文本标签为教育的概率分布)、……、P(1m)(文本a(1)中文本标签为时尚的概率分布)组成、再通过计算获得各分文本的熵值,然后根据各分文本的熵值获得各文本的权重,再根据各个分文本中各文本标签的概率和各个分文本的权重确定该各文本标签的最终概率,最后根据各文本标签的最终概率确定长文本A的目标文本标签,即长文本A的主题。若该长文本A划分为2个分文本,其中,如图3所示,该图为分文本1中各文本标签的分布情况,通过该分布图能够获得该分文各标签的概率,如文本标签为娱乐时概率为0.8,文本标签为教育是为0.05等,根据该分文本的各标签的概率获得该分文本的熵值为:
Figure 968304DEST_PATH_IMAGE001
则该分文本权重为0.76。如图4所示,该图为分文本2中各标签的分布情况,通过该分布图能够获得该分文本2中各标签的概率均为0.1,则该分文本2的熵值计算为3.32,权重为0.3。为方便计算,需要对权重进行归一化处理,即分文本1的权重:
Figure 48255DEST_PATH_IMAGE002
分文本2的权重:
Figure 136297DEST_PATH_IMAGE003
再根据各文本标签的概率和分文本的权重获得各标签的最终概率,如图5所示,该图为各文本标签最终概率的分布情况。通过该图能够确定长文本A的目标标签。采用该方案对10000条测试集测试后预测准确的次数为9755,即预测准确率为97.55%。由于在相关技术中,当文本长度超过长度阈值时,先将文本分段处理后,通过给予每段分文本相同的权重获得长文本的标签,即采用平均加权的方法获得长文本的标签,此时,对10000条测试集测试后预测准确的次数为9696,即预测准确率为96.96%。因此,相比于平均加权的方法,该方案给予信息量少(视为噪音)的文本小的权重且给予信息量多的文本大的权重,能够提高长文本标签确定的准确率。
具体地,针对每个分文本,将该分文本输入训练完成的BERT模型进行文本处理获得该分文本中各文本标签的概率。例如,将关于年度报告的分文本输入BERT模型中获取文本标签为金融、文化、教育等10个文本标签的概率。
在本实施例中,通过将每个分文本输入到训练完成的BERT模型中进行文本处理获得该分文本中各文本标签的概率,便于后续获取各个分文本的权重,根据各分文本权重能够确定长文本标签,提高长文本标签确定的准确率。
在一个实施例中,如图6所示,根据该分文本中各文本标签的概率获得该分文本的权重,包括:
步骤602,根据该分文本中各文本标签的概率获得该分文本的熵值。
其中,该分文本的熵值为信息熵,信息熵为随机变量不确定性的度量,用于描述随机变量的分布所带来的信息量。其中,信息熵越大,则表明随机变量的不确定性越高,信息熵代表了随机分布的混乱程度。该信息熵的计算表达式如下:
Figure 419642DEST_PATH_IMAGE004
H(x)为随机变量x的熵,随机变量的取值个数越多,状态数也就越多,信息熵也就越大。上式中
Figure DEST_PATH_IMAGE005
代表了每个预测类别的概率,当随机变量分布越均匀时,信息熵值也越大,此时无法判断该分文本属于哪个类别,因此,会导致每个类别的预测概率都相差不大,从而该分文本没有提供有用的信息。当随机变量分布不均匀时,例如某个类别的概率显著高于其他类别,也就是该模型有很大把握该文本属于此类别,因此,该分文本提供了有用的信息从而帮助模型得出判断。
具体地,根据BERT模型获取各分文本中各文本标签的概率,并且将各分文本中各文本标签的概率输入信息熵的计算公式获得各分文的信息熵值。例如,对关于年度报告的长文本获取8个分文本后,该分文本包括金融、文化、教育等10个文本标签。将关于年度报告的8个分文本分别输入到BERT模型中进行处理获得各分文本中各文本标签的概率
Figure 149701DEST_PATH_IMAGE006
(其中,n表示分文本,m表示每个分文本中的文本标签,并且整数n和m满足:
Figure DEST_PATH_IMAGE007
,
Figure 349738DEST_PATH_IMAGE008
),如,针对文本标签为金融的情况,通过BERT模型得到8个文本标签为金融的概率,其中每个分文本对应一个金融概率,即
Figure DEST_PATH_IMAGE009
Figure 608681DEST_PATH_IMAGE010
、……、
Figure DEST_PATH_IMAGE011
步骤604,根据该分文本的熵值确定该分文本的权重,该权重与该熵值成反比例关系。
其中,权重指某一因素或指标相对于某一事物的重要程度,强调的是因素或指标相对于重要程度,倾向于贡献度或重要性。为方便计算,将获取的分文本权重进行归一化处理。
具体地,根据BERT模型获得各分文本的熵值后,根据每个分文本的熵值确定分文本的权重,该权重与熵值成反比例关系。例如,基于年度报告的长文本获取8个分文本的熵后,即H(1)、H(2)、……、H(8),然后根据权重与熵值成反比例关系,获得8个分文本的权重,即W(1)、W(2)、……、W(8)。为方便计算,将获取的权重进行归一化处理,如对于分文本1的归一化权重计算可以根据如下公式处理:
Figure 894169DEST_PATH_IMAGE012
在本实施例中,根据各分文本中各分文本的概率获得熵值,然后根据各分文本的熵值获得各分文的权重。根据信息熵判断每个分文本所包含的信息量,信息量熵小,代表信息量比较少,则该分文本对应的权重应该小,即降低信息量少的权重,提升信息量多的权重,从而提高长文本标签确定的准确率。
在一个实施例中,根据该分文本的熵值确定该分文本的权重,该权重与该熵值成反比例关系,包括:根据该分文本的熵值获取该熵值的倒数,该倒数为该分文本的权重。其中,该分文本的权重与熵值成反比例关系,即熵值与权重的乘积为常数,并且该常数为1,即熵值的倒数为权重。具体地,针对每个分文本,该分文本的熵值与该分文本的权重的乘积为1,即通过对该分文本的熵值取倒数获得该分文本的权重。
在本实施例中,通过每个分文本的熵值与权重的乘积为1的关系确定每个分文本的权重。因此,根据信息量的大小对应权重的取值大小,即降低信息熵值低的权重,提升信息熵高的权重,从而提高长文本标签确定的准确率。
在一个实施例中,根据各个分文本中各文本标签的概率和该各个分文本的权重确定各文本标签的最终概率,包括:将该各个分文本中各文本标签的概率和该各个分文本的权重进行加权求和获得各文本标签的最终概率。具体地,先将各个分文本中各文本标签的概率乘以对应分文本的权重获得各个标签的中间概率,再将相同标签的中间概率相加获得各个文本标签的最终概率。例如,基于年度报告的分文本获取8个分文本的归一化权重,分别为
Figure DEST_PATH_IMAGE013
Figure 913071DEST_PATH_IMAGE014
、……、
Figure DEST_PATH_IMAGE015
,针对文本标签为金融的情况,该标签在各文本中的概率为
Figure 702036DEST_PATH_IMAGE009
Figure 397459DEST_PATH_IMAGE010
、……、
Figure 904664DEST_PATH_IMAGE011
的,则最终概率
Figure 445367DEST_PATH_IMAGE016
为:
Figure DEST_PATH_IMAGE017
在本实施例中,将各分文中各文本标签的概率和各个分文本的权重进行加权求和获得各文本标签的最终概率,以便于根据各文本标签的最终概率确定长文本标签,从而提高准确率。
在一个实施例中,根据该各文本标签的最终概率确定该源文本的目标文本标签,包括:按照该各文本标签的最终概率从大到小选取预定数量的文本标签作为该源文本的目标文本标签,或者将最终概率最大的文本标签确定为该源文本的目标文本标签。具体地,该源文本为长文本,根据预定长文本标签的数量,将获得的各文本标签的最终概率从大到小选取该预定数量的文本标签作为目标文本标签,也可以将各文本标签的最终概率中概率最大对应的文本标签作为目标文本标签。例如,基于年度报告的长文本中要获取一个目标文本标签时,计算获得该文本中10个文本标签的最终概率,选取10个最终概率中概率最大对应的文本标签作为目标文本标签。
在本实施例中,通过各文本标签的最终概率确定长文本的目标文本标签可以通过预定文本标签数量从大到小选取对应文本标签作为目标文本标签,也可以选择最终概率最大对应的文本标签作为目标文本标签。因此,在确定长文本标签的过程中,通过各文本的权重获取的最终概率预测目标文本标签,即确定长文本的标签,提高了准确率。
为了便于更清楚的了解本申请的技术方案,下面提供一个较为详细的实施例来描述。首先通过某类型的数据集进行测试,该数据集包括训练集和测试集,并且确定该数据集中长文本的主题和长文本包含的标签种类,再根据多个训练集获得训练完成的BERT模型,然后将多个测试集分别输入Python进行处理,能够获得每个测试集(即各个长文本)的分文本。针对一个测试集的处理过程,首先将该测试集的分文本输入BERT模型后,能够获得各分文本标签的概率,再将各个分文本的各文本标签的概率进行信息熵计算获得各分文本的熵值,再根据各分文本的熵值获得各分文本的权重,然后根据各分文本的权重和各文本标签的概率能够获得各文本标签的最终概率,再根据各文本标签的最终概率获得该测试集的目标文本标签(即长文本的主题),最后获得所有测试集的目标文本标签,并计算该方法获得结果的准确率。相对于平均加权的方法确定长文本标签,采用加权求和的方法确定长文本标签的准确率提高了。因此,在实际使用中,若需要确定某长文本的标签,首先将源文本按照长度阈值划分为多个分文本,其中该源文本为长文本,并获取多个分文本。然后针对每个分文本,将该分文本输入训练好的BERT模型获得各分文本中各文本标签的概率,再根据每个分文本中各文本标签的概率获得该分文本的熵值,通过取该分文本熵值的倒数获得该分文本的权重,然后将各个分文本中各文本标签的概率和各个分文本的权重进行加权求和获得各文本标签的最终概率,再根据各文本标签的最终概率从大到小选取预定数量的文本标签作为长文本的目标文本标签,也可以将最终概率最大的文本标签确定为长文本的目标文本标签。因此,在确定长文本标签的过程中,通过各文本的权重确定长文本的标签,即降低了信息量少的分文本对应的权重,且提高信息量多的分文本对应的权重,从而提高了长文本标签确定的准确率。
应该理解的是,虽然图1、图2和图6的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1、图2和图6中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图7所示,提供了一种文本标签确定装置,包括:获取模块702、第一确定模块704、获得模块706、处理模块708和第二确定模块710,其中:
获取模块702,用于获取源文本的多个分文本,该分文本包含文本标签。
第一确定模块704,用于针对每个分文本,确定该分文本中各文本标签的概率。
获得模块706,用于根据该分文本中各文本标签的概率获得该分文本的权重。
处理模块708,用于根据各个分文本中各文本标签的概率和该各个分文本的权重确定各文本标签的最终概率。
第二确定模块710,用于根据该各文本标签的最终概率确定该源文本的目标标签。
在一个实施例中,该获取模块702具体用于将源文本按照长度阈值划分成多个分文本,获取划分后的多个分文本。
在一个实施例中,该第一确定模块704具体用于针对每个分文本,将所述分文本输入文本处理模型获得所述分文本中各文本标签的概率。
在一个实施例中,该获得模块706具体用于根据该分文本中各文本标签的概率获得该分文本的熵值;根据该分文本的熵值确定该分文本的权重,该权重与该熵值成反比例关系。
在一个实施例中,该获得模块706还用于根据该分文本的熵值获取该熵值的倒数,该倒数为该分文本的权重。
在一个实施例中,该处理模块708具体用于将该各个分文本中各文本标签的概率和该各个分文本的权重进行加权求和获得各文本标签的最终概率。
在一个实施例中,该第二确定模块710具体用于按照该各文本标签的最终概率从大到小选取预定数量的文本标签作为该源文本的目标文本标签,或者将最终概率最大的文本标签确定为该源文本的目标文本标签。
关于文本标签确定装置的具体限定可以参见上文中对于文本标签确定方法的限定,在此不再赘述。上述文本标签确定装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储文本标签确定数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本标签确定方法。
本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取源文本的多个分文本,该分文本包含文本标签;针对每个分文本,确定该分文本中各文本标签的概率;根据该分文本中各文本标签的概率获得该分文本的权重;根据各个分文本中各文本标签的概率和该各个分文本的权重确定各文本标签的最终概率;根据该各文本标签的最终概率确定该源文本的目标文本标签。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
将源文本按照长度阈值划分成多个分文本,获取划分后的多个分文本。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
针对每个分文本,将该分文本输入文本处理模型获得该分文本中各文本标签的概率。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
根据该分文本中各文本标签的概率获得该分文本的熵值;根据该分文本的熵值确定该分文本的权重,该权重与该熵值成反比例关系。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
根据该分文本的熵值获取该熵值的倒数,该倒数为该分文本的权重。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
将该各个分文本中各文本标签的概率和该各个分文本的权重进行加权求和获得各文本标签的最终概率。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
按照该各文本标签的最终概率从大到小选取预定数量的文本标签作为该源文本的目标文本标签,或者将最终概率最大的文本标签确定为该源文本的目标文本标签。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取源文本的多个分文本,该分文本包含文本标签;针对每个分文本,确定该分文本中各文本标签的概率;根据该分文本中各文本标签的概率获得该分文本的权重;根据各个分文本中各文本标签的概率和该各个分文本的权重确定各文本标签的最终概率;根据该各文本标签的最终概率确定该源文本的目标文本标签。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
将源文本按照长度阈值划分成多个分文本,获取划分后的多个分文本。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
针对每个分文本,将该分文本输入文本处理模型获得该分文本中各文本标签的概率。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
根据该分文本中各文本标签的概率获得该分文本的熵值;根据该分文本的熵值确定该分文本的权重,该权重与该熵值成反比例关系。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
根据该分文本的熵值获取该熵值的倒数,该倒数为该分文本的权重。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
将该各个分文本中各文本标签的概率和该各个分文本的权重进行加权求和获得各文本标签的最终概率。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
按照该各文本标签的最终概率从大到小选取预定数量的文本标签作为该源文本的目标文本标签,或者将最终概率最大的文本标签确定为该源文本的目标文本标签。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (12)

1.一种文本标签确定方法,其特征在于,所述方法包括:
获取源文本的多个分文本,所述分文本包含文本标签;
针对每个分文本,确定所述分文本中各文本标签的概率;
根据所述分文本中各文本标签的概率获得所述分文本的熵值;其中,所述分文本中各文本标签的分布越均匀,相应分文本的熵值越大;
根据所述分文本的熵值确定所述分文本的权重,所述权重与所述熵值成反比例关系;
将各个分文本中各文本标签的概率乘以对应分文本的权重获得各个标签的中间概率;
将相同标签的中间概率相加获得各个文本标签的最终概率;
根据所述各文本标签的最终概率确定所述源文本的目标文本标签。
2.根据权利要求1所述的方法,其特征在于,所述获取源文本的多个分文本,包括:
将源文本按照长度阈值划分成多个分文本,获取划分后的多个分文本。
3.根据权利要求1所述的方法,其特征在于,所述针对每个分文本,确定所述分文本中各文本标签的概率,包括:
针对每个分文本,将所述分文本输入文本处理模型获得所述分文本中各文本标签的概率。
4.根据权利要求1所述的方法,其特征在于,所述根据所述分文本的熵值确定所述分文本的权重,所述权重与所述熵值成反比例关系,包括:
根据所述分文本的熵值获取所述熵值的倒数,所述倒数为所述分文本的权重。
5.根据权利要求1所述的方法,其特征在于,所述根据所述各文本标签的最终概率确定所述源文本的目标文本标签,包括:
按照所述各文本标签的最终概率从大到小选取预定数量的文本标签作为所述源文本的目标文本标签,或者将最终概率最大的文本标签确定为所述源文本的目标文本标签。
6.一种文本标签确定装置,其特征在于,所述装置包括:
获取模块,用于获取源文本的多个分文本,所述分文本包含文本标签;
第一确定模块,用于针对每个分文本,确定所述分文本中各文本标签的概率;
获得模块,用于根据所述分文本中各文本标签的概率获得所述分文本的熵值;其中,所述分文本中各文本标签的分布越均匀,相应分文本的熵值越大;
所述获得模块,还用于根据所述分文本的熵值确定所述分文本的权重,所述权重与所述熵值成反比例关系;
处理模块,用于将各个分文本中各文本标签的概率乘以对应分文本的权重获得各个标签的中间概率;将相同标签的中间概率相加获得各个文本标签的最终概率;
第二确定模块,用于根据所述各文本标签的最终概率确定所述源文本的目标标签。
7.根据权利要求6所述的装置,其特征在于,所述获取模块还用于将源文本按照长度阈值划分成多个分文本,获取划分后的多个分文本。
8.根据权利要求6所述的装置,其特征在于,所述第一确定模块还用于针对每个分文本,将所述分文本输入文本处理模型获得所述分文本中各文本标签的概率。
9.根据权利要求6所述的装置,其特征在于,所述获得模块还用于根据所述分文本的熵值获取所述熵值的倒数,所述倒数为所述分文本的权重。
10.根据权利要求6所述的装置,其特征在于,所述第二确定模块还用于按照所述各文本标签的最终概率从大到小选取预定数量的文本标签作为所述源文本的目标文本标签,或者将最终概率最大的文本标签确定为所述源文本的目标文本标签。
11.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述的方法的步骤。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。
CN202110488250.4A 2021-05-06 2021-05-06 文本标签确定方法、装置、计算机设备和存储介质 Active CN112989057B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110488250.4A CN112989057B (zh) 2021-05-06 2021-05-06 文本标签确定方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110488250.4A CN112989057B (zh) 2021-05-06 2021-05-06 文本标签确定方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN112989057A CN112989057A (zh) 2021-06-18
CN112989057B true CN112989057B (zh) 2021-11-26

Family

ID=76337002

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110488250.4A Active CN112989057B (zh) 2021-05-06 2021-05-06 文本标签确定方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN112989057B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103324708A (zh) * 2013-06-18 2013-09-25 哈尔滨工程大学 一种长文本到短文本的迁移学习方法
CN108090216A (zh) * 2017-12-29 2018-05-29 咪咕文化科技有限公司 一种标签预测方法、装置及存储介质
CN108520041A (zh) * 2018-04-03 2018-09-11 有米科技股份有限公司 文本的行业分类方法、系统、计算机设备和存储介质
CN110413775A (zh) * 2019-06-25 2019-11-05 北京清博大数据科技有限公司 一种数据打标签分类方法、装置、终端及存储介质
CN112527992A (zh) * 2020-12-17 2021-03-19 科大讯飞股份有限公司 长文本处理方法、相关设备及可读存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11328221B2 (en) * 2019-04-09 2022-05-10 International Business Machines Corporation Hybrid model for short text classification with imbalanced data

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103324708A (zh) * 2013-06-18 2013-09-25 哈尔滨工程大学 一种长文本到短文本的迁移学习方法
CN108090216A (zh) * 2017-12-29 2018-05-29 咪咕文化科技有限公司 一种标签预测方法、装置及存储介质
CN108520041A (zh) * 2018-04-03 2018-09-11 有米科技股份有限公司 文本的行业分类方法、系统、计算机设备和存储介质
CN110413775A (zh) * 2019-06-25 2019-11-05 北京清博大数据科技有限公司 一种数据打标签分类方法、装置、终端及存储介质
CN112527992A (zh) * 2020-12-17 2021-03-19 科大讯飞股份有限公司 长文本处理方法、相关设备及可读存储介质

Also Published As

Publication number Publication date
CN112989057A (zh) 2021-06-18

Similar Documents

Publication Publication Date Title
US11321542B2 (en) Processing text sequences using neural networks
US10650328B2 (en) Training distilled machine learning models
CN110147551B (zh) 多类别实体识别模型训练、实体识别方法、服务器及终端
CN109978060B (zh) 一种自然语言要素抽取模型的训练方法及装置
CN111382255A (zh) 用于问答处理的方法、装置、设备和介质
CN111782826A (zh) 知识图谱的信息处理方法、装置、设备及存储介质
CN112580346B (zh) 事件抽取方法、装置、计算机设备和存储介质
CN110941961B (zh) 一种信息聚类方法、装置、电子设备及存储介质
CN112100377A (zh) 文本分类方法、装置、计算机设备和存储介质
CN111860671A (zh) 分类模型训练方法、装置、终端设备和可读存储介质
CN112085091B (zh) 基于人工智能的短文本匹配方法、装置、设备及存储介质
CN112100374A (zh) 文本聚类方法、装置、电子设备及存储介质
CN110929532B (zh) 数据处理方法、装置、设备及存储介质
US20220383119A1 (en) Granular neural network architecture search over low-level primitives
CN114492451B (zh) 文本匹配方法、装置、电子设备及计算机可读存储介质
CN110852071A (zh) 知识点检测方法、装置、设备及可读存储介质
CN108550019B (zh) 一种简历筛选方法及装置
CN112989057B (zh) 文本标签确定方法、装置、计算机设备和存储介质
CN111767474A (zh) 一种基于用户操作行为构建用户画像的方法及设备
CN111611796A (zh) 下位词的上位词确定方法、装置、电子设备及存储介质
CN116720214A (zh) 一种用于隐私保护的模型训练方法及装置
WO2022063202A1 (zh) 文本分类方法、装置、设备及存储介质
CN113361621B (zh) 用于训练模型的方法和装置
CN111666770B (zh) 一种语义匹配方法及装置
CN114676237A (zh) 语句相似度确定方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant