CN112711660B - 文本分类样本的构建方法和文本分类模型的训练方法 - Google Patents
文本分类样本的构建方法和文本分类模型的训练方法 Download PDFInfo
- Publication number
- CN112711660B CN112711660B CN202011593010.2A CN202011593010A CN112711660B CN 112711660 B CN112711660 B CN 112711660B CN 202011593010 A CN202011593010 A CN 202011593010A CN 112711660 B CN112711660 B CN 112711660B
- Authority
- CN
- China
- Prior art keywords
- training
- text
- classification
- model
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了文本分类样本的构建方法和文本分类模型的训练方法。该方法包括:获取训练文本集;将训练文本转化为输入向量;对训练文本集中一定数量的训练文本进行分类结果标注得到训练样本集;通过训练样本集对预训练模型进行训练,得到对应一级标签的第一分类模型和对应二级标签的第二分类模型;获取训练文本集中训练样本集之外的训练文本,作为扩充文本;将扩充文本对应的输入向量分别输入至第一分类模型和第二分类模型,得到一级标签概率向量和二级标签概率向量;计算二级标签概率向量中每个元素与一级标签概率向量中对应元素的乘积;根据该乘积确定扩充文本对应的分类结果,以对训练样本集进行扩充。通过本发明,能够实现样本的快速标注。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种文本分类样本的构建方法和文本分类模型的训练方法。
背景技术
在信息处理技术领域,通常需要从海量的数据中搜索出对应类别的数据,进而提取相关信息,例如,ESG投资需要利用到投资主体的非财务部分信息,该部分信息很大的一个来源是公开渠道的文本信息,需要从海量文本信息中,分类和提取有效的ESG信息,供ESG投资使用。
目前,在实现数据获取时,主要包括两个方向的方案,以及人工筛选与机器筛选。对于人工筛选方案,通常以人工利用搜索引擎,针对特定关键词进行搜索,对需要研究的对应进行逐个搜索遍历,过滤网页内容筛选有效信息为主。但是,随着文本信息数据的增大、覆盖面的增加、时效要求的提高,人工筛选方式效率较慢的缺点无法解决,目前逐渐慢慢发展成机器筛选的方式。目前机器筛选的方式主要有利用先验知识构造关键词分类模型、标注样本训练模型分类两大类实现路径。其中,关键词分类模型可较大程度利用已有的先验知识,实现较为简便灵活,但泛化能力不足;而标注样本训练文本分类模型的方式泛化能力相对较强,但标注工作量巨大且灵活性不足。
例如,在利用人工直接搜索关键词进行信息筛选的方式或者机器搜索关键词辅助人工筛选的方式进行ESG信息分类时,由于利用人工的方式筛选,虽然在准确率上有较高的保证,但是时效性较差,目前国内可投资的上市公司/发债主体超过8000家,该方案难以对国内可投资主体全部覆盖,人工成本较高。
在利用关键词对文本信息进行分类时,能够保证时效性,但是在准确率上有较大瓶颈,复杂案例难以总结关键词,同时利用关键词的方式泛化能力不足。
若通过人工进行文本样本标注,结合文本分类模型进行ESG信息的分类时,在一定程度上能够解决泛化能力不足的问题,但是主要的难点在于缺乏足够的标签数据,缺少标签数据导致模型效果难以提升。同时,在实际ESG投资过程中,随着ESG评价框架的调整,分类框架需要经常性进行微调,该方案的标注成本较高难以适应经常性的调整。
此外,在其他数据获取场景下,也存在缺乏足够样本而导致分类模型效果难以提升的问题。
因此,在使用数据分类模型对数据进行分类和信息提取的场景中,如何更快、更准确地实现样本标注,构建训练集,成为本领域技术人员亟需解决的技术问题。
发明内容
本发明的目的是提供一种文本分类样本的构建方法、文本分类模型的训练方法、文本分类方法、文本分类样本的构建装置、计算机设备和计算机可读存储介质,用于解决现有技术中的上述技术问题。
一方面,为实现上述目的,本发明提供了一种文本分类样本的构建方法。
该文本分类样本的构建方法包括:获取训练文本集,其中,所述训练文本集中包括多个训练文本;将所述训练文本转化为输入向量;对所述训练文本集中第一数量的训练文本进行分类结果标注,以得到训练样本集,其中,所述训练样本集包括所述第一数量的训练样本,所述训练样本包括输入向量和分类结果的对应关系,所述分类结果包括对应的所述训练文本所属的一级标签和二级标签,所述二级标签属于在所述一级标签下进一步分类的标签;将所述训练样本集中的所述输入向量作为预训练模型的输入,根据对应的一级标签构建预训练模型的输出向量,对所述预训练模型进行训练,以得到第一分类模型;将所述训练样本集中的所述输入向量作为预训练模型的输入,根据对应的二级标签构建预训练模型的输出向量,对所述预训练模型进行训练,以得到第二分类模型;获取所述训练文本集中所述训练样本集之外的训练文本,作为扩充文本;将所述扩充文本对应的输入向量分别输入至所述第一分类模型和所述第二分类模型,以得到所述第一分类模型输出的一级标签概率向量和所述第二分类模型输出的二级标签概率向量;计算所述二级标签概率向量中每个元素与所述一级标签概率向量中对应元素的乘积;根据所述二级标签概率向量中每个元素对应乘积的大小,确定所述扩充文本对应的分类结果;将所述扩充文本对应的输入向量和分类结果加入至所述训练样本集。
进一步地,将所述训练文本转化为输入向量的步骤包括:提取所述训练文本的标题,以得到标题文本;确定所述训练文本的来源,以得到来源文本;构建所述训练文本的摘要,以得到摘要文本;根据所述标题文本、所述来源文本和所述摘要文本得到所述输入向量。
进一步地,构建所述训练文本的摘要,以得到摘要文本的步骤包括:在所述标题文本、所述来源文本和所述训练文本的正文中,提取满足预设条件的多个关键词;根据所述关键词的词频和所述关键词的位置权重,计算每个所述关键词的重要度;根据所述重要度在所述多个关键词中确定目标关键词;在所述训练文本的正文中,提取包括所述目标关键词的内容作为所述摘要,以得到所述摘要文本。
进一步地,所述一级标签和所述二级标签均为基于ESG信息设置的标签;在所述标题文本、所述来源文本和所述训练文本的正文中,提取满足预设条件的多个关键词的步骤包括:在所述标题文本、所述来源文本和所述训练文本的正文中,提取公司名和地名;根据所述标题文本、所述来源文本和所述摘要文本得到所述输入向量的步骤包括:将所述标题文本、所述来源文本和所述摘要文本中的公司名和地名分别替换为占位符;将替换占位符后的标题文本、来源文本和摘要文本拼接,得到所述输入向量。
进一步地,根据所述二级标签概率向量中每个元素对应乘积的大小,确定所述扩充文本对应的分类结果的步骤包括:当所述二级标签概率向量中每个元素对应乘积均大于预设阈值时,将最大乘积对应的一级标签和二级标签,作为所述扩充文本对应的分类结果。
进一步地,所述文本分类样本的构建方法还包括:将所述训练样本集通过回译、同义词替换、句子扩充和句子缩写中任意一种或多种方式进行扩充。
另一方面,为实现上述目的,本发明提供了一种文本分类模型的训练方法。
该文本分类模型的训练方法包括:采用本发明提供的任一项所述的文本分类样本的构建方法构建训练集;将所述训练集中的输入向量作为预训练模型的输入,根据对应的一级标签构建预训练模型的输出向量,对所述预训练模型进行训练,以得到一级分类模型;将所述训练集中的输入向量作为预训练模型的输入,根据对应的二级标签构建预训练模型的输出向量,对所述预训练模型进行训练,以得到二级分类模型。
又一方面,为实现上述目的,本发明提供了一种文本分类方法。
该文本分类方法包括:获取待预测文本;将所述待预测文本转化为输入向量;将所述输入向量分别输入至预设的一级分类模型和二级分类模型,以得到所述一级分类模型输出的一级标签预测概率向量和所述二级分类模型输出的二级标签预测概率向量,其中,所述一级分类模型和所述二级分类模型通过本发明提供的任意一种文本分类模型的训练方法训练得到;计算所述二级标签预测概率向量中每个元素与所述一级标签预测概率向量中对应元素的乘积,以得到多个所述预测乘积;将最大的所述预测乘积对应的一级标签和二级标签,作为所述待预测文本的分类结果。
又一方面,为实现上述目的,本发明提供了一种文本分类样本的构建装置。
该文本分类样本的构建装置包括:第一获取模块,用于获取训练文本集,其中,所述训练文本集中包括多个训练文本;映射模块,用于将所述训练文本转化为输入向量;标注模块,用于对所述训练文本集中第一数量的训练文本进行分类结果标注,以得到训练样本集,其中,所述训练样本集包括所述第一数量的训练样本,所述训练样本包括输入向量和分类结果的对应关系,所述分类结果包括对应的所述训练文本所属的一级标签和二级标签,所述二级标签属于在所述一级标签下进一步分类的标签;第一训练模块,用于将所述训练样本集中的所述输入向量作为预训练模型的输入,根据对应的一级标签构建预训练模型的输出向量,对所述预训练模型进行训练,以得到第一分类模型;第二训练模块,用于将所述训练样本集中的所述输入向量作为预训练模型的输入,根据对应的二级标签构建预训练模型的输出向量,对所述预训练模型进行训练,以得到第二分类模型;第二获取模块,用于获取所述训练文本集中所述训练样本集之外的训练文本,作为扩充文本;输入模块,用于将所述扩充文本对应的输入向量分别输入至所述第一分类模型和所述第二分类模型,以得到所述第一分类模型输出的一级标签概率向量和所述第二分类模型输出的二级标签概率向量;计算模块,用于计算所述二级标签概率向量中每个元素与所述一级标签概率向量中对应元素的乘积;确定模块,用于根据所述二级标签概率向量中每个元素对应乘积的大小,确定所述扩充文本对应的分类结果;处理模块,用于将所述扩充文本对应的输入向量和分类结果加入至所述训练样本集。
又一方面,为实现上述目的,本发明还提供一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述方法的步骤。
又一方面,为实现上述目的,本发明还提供计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
本发明提供的文本分类样本的构建方法和文本分类模型的训练方法,在该实施例提供的文本分类样本的构建方法中,在获取到训练文本集后,将其中的训练文本转化为输入向量,然后对训练文本集中一小部分的训练文本进行分类结果标注,以得到初始的训练样本集,其中的分类结果包括对应的训练文本所属的一级标签和二级标签,二级标签属于在一级标签下进一步分类的标签,然后通过初始的训练样本集训练预训练模型,得到对应一级标签的第一分类模型和对应二级标签的第二分类模型,最后利用第一分类模型和第二分类模型对训练文本集中未标注的训练文本进行自动标注,并根据标注后的结果得到新的样本,加入至训练样本集,实现了训练样本集的快速扩充,同时,可通过迭代上述训练过程以及利用第一分类模型和第二分类模型进行自动标注的过程,实现训练样本集的准确扩充。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本发明实施例一提供的文本分类样本的构建方法的流程图;
图2为本发明实施例二提供的文本分类模型的训练方法的流程图;
图3为本发明实施例三提供的文本分类方法的流程图;
图4为本发明实施例四提供的文本分类样本的构建装置的框图;
图5为本发明实施例五提供的计算机设备的硬件结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
本发明实施例一提供了一种文本分类样本的构建方法,通过该方法,利用至少两个分层模型迭代选取样本,能够较为快速可靠地获取有标注文本样本,构建训练集。具体地,图1为本发明实施例一提供的文本分类样本的构建方法的流程图,如图1所示,该实施例提供的文本分类样本的构建方法包括如下的步骤S101至步骤S109。
步骤S101:获取训练文本集。
其中,训练文本集中包括多个训练文本。具体地,可通过网络爬虫、数据接口访问、数据库的读写等方式,获取大量的目标文本,每个目标文本作为训练样本,也即获取到的训练文本集。例如,对于提取ESG投资需要利用到的投资主体的非财务部分信息,可以从海量新闻、公告、监管等公开文本中,获取训练文本。
步骤S102:将训练文本转化为输入向量。
具体地,根据文本分类模型的架构需求,将训练文本转化为输入向量,例如,从训练文本中提取能够体现文本特征的部分作为输入向量,又如,将训练文本进行分词,通过词向量来构建输入向量等,本申请对具体构建输入向量的方式并不进行限定。
可选地,在一种实施方式中,该步骤S102,也即将训练文本转化为输入向量的步骤包括:提取训练文本的标题,以得到标题文本;确定训练文本的来源,以得到来源文本;构建训练文本的摘要,以得到摘要文本;根据标题文本、来源文本和摘要文本得到输入向量。通过标题文本、来源文本和摘要文本三个方向的内容来构建输入向量,能够全面准确的表达出训练文本的特征,同时,与直接根据训练文本生成输入向量相比,能够减少输入向量的维数,降低模型的复杂度。
进一步可选地,在一种实施方式中,在构建训练文本的摘要,得到摘要文本时,具体执行以下步骤:在标题文本、来源文本和训练文本的正文中,提取满足预设条件的多个关键词;根据关键词的词频和关键词的位置权重,计算每个关键词的重要度;根据重要度在多个关键词中确定目标关键词;在训练文本的正文中,提取包括目标关键词的内容作为摘要,以得到摘要文本。
具体地,可根据分类目标设置关键词,同时,设置关键词出现在不同位置时,对应不同的位置权重,可设置管关键词在标题文本和来源文本中出现的位置权重大于在训练文本的正文中出现的位置权重。例如,对于提取ESG投资需要利用到的投资主体的非财务部分信息,可以设置公司名和地名作为关键词,在标题文本、来源文本和训练文本的正文中,分别提取公司名和地名。当提取到多个关键词时,根据关键词出现的频率,也即词频和上述位置权重,计算每个关键词的重要度,其中,词频越高,重要度越大,位置权重越大,重要度也越大,例如可设置词频与位置权重的乘积作为关键词的重要度。在计算得到重要度之后,根据重要度在多个关键词中确定目标关键词时,可以确定一个目标关键词,也可以确定多个,本申请在此并不进行限定,例如,对重要度按照从大到小的顺序排列后,取前N个重要度对应的关键词作为目标关键词,最后在训练文本的正文中,提取包括目标关键词的内容作为摘要,以得到摘要文本。例如,利用实体词库,对已有标题文本、来源文本和训练文本的正文进行分词,并提取其中的公司名、地名等实体,其中,识别出最高重要度的公司名称,提取正文中提及该核心公司的语句作为摘要文本。
进一步可选地,在另一种实施方式中,在构建训练文本的摘要,得到摘要文本时,可利用text-rank等摘要算法生成摘要文本。
步骤S103:对训练文本集中第一数量的训练文本进行分类结果标注,以得到训练样本集。
其中,训练样本集包括第一数量的训练样本,训练样本包括输入向量和分类结果的对应关系,分类结果包括对应的训练文本所属的一级标签和二级标签,二级标签属于在一级标签下进一步分类的标签。
具体地,首先根据分类目标设置分层标签框架,以及设置两层或两层以上的标签,以进行分类结果标注,在本申请中,对于两层标签框架,将较高一级的标签定义为一级标签,将该一级标签的下级标签定义为二级标签。需要说明的是,该出的一级标签和二级标签仅用于标识两者之间的上下级关系,并不构成标签框架的限定,例如,当设置三层标签框架时,如果最高级的标签为一级标签,则中级的标签为二级标签,如果中级的标签为一级标签,则最低级的标签为二级标签。
例如,对于提取ESG投资需要利用到的投资主体的非财务部分信息,基于ESG信息设置标签,具体地,一级标签包含“环境”、“社会”、“治理”、“内部”、“外部”、“市场”等六个一级分类,进一步,对六个一级分类进一步进行拆分,如“环境”下再细分成“污染”,“排放”,“投入”,“制度”,“生态”等数个二级标签,按照实际需求如此类推,得到每个一级标签下对应的二级标签。
从训练文本集中随机获取一定数量的训练文本,利用多个简单规则结合人工复核的方式,标注原始训练样本,最终满足每个二级标签下有数十条训练样本实现分类结果标注,得到初始的训练文本集。
可选地,在一种实施方式中,如果一级标签和二级标签均为基于ESG信息设置的标签,关键词包括公司名和地名,则在上述步骤S102中,根据标题文本、来源文本和摘要文本得到输入向量的步骤包括:将标题文本、来源文本和摘要文本中的公司名和地名分别替换为占位符;将替换占位符后的标题文本、来源文本和摘要文本拼接,得到输入向量。采用该种实施方式,利用标题文本、来源文本和摘要文本拼接,得到输入向量,输入向量的构建方式简单,降低数据处理的复杂度,同时,利用中性化的占位符替换公司名和地名,能够避免在输入向量中出现公司名和地名而导致模型训练的过拟合,提升模型训练的效果。
步骤S104:将训练样本集中的输入向量作为预训练模型的输入,根据对应的一级标签构建预训练模型的输出向量,对预训练模型进行训练,以得到第一分类模型。
具体地,该步骤中的预训练模型可以为roberta模型,也可以是bert、gpt等其他预训练模型。在构建分层标签框架时,如果一级标签包括X1个标签时,则第一分类模型对应的输出向量为X1维向量,该X1维向量中的每个元素对应一个一级标签的概率,若某输入向量对应的一级标签为该X1个标签中的第x个标签时,在根据对应的一级标签构建预训练模型的输出向量时,X1维向量中第x个标签对应的元素为1,其他元素均为0。
将输入向量输入预训练模型,将构建的X1维向量作为预训练模型的输出向量,对预训练模型进行训练,利用预训练好的模型对输入向量进行嵌入后获得特征向量,然后连接全连接层进行后续的微调训练,迭代稳定后可得到第一分类模型。
步骤S105:将训练样本集中的输入向量作为预训练模型的输入,根据对应的二级标签构建预训练模型的输出向量,对预训练模型进行训练,以得到第二分类模型。
具体地,该步骤中的预训练模型也可以为roberta模型,也可以是bert、gpt等其他预训练模型。在构建分层标签框架时,如果所有的二级标签共包括X2个标签时,则第二分类模型对应的输出向量为X2维向量,该X2维向量中的每个元素对应一个二级标签的概率,若某输入向量对应的二级标签为该X2个标签中的第y个标签时,在根据对应的二级标签构建预训练模型的输出向量时,X2维向量中第y个标签对应的元素为1,其他元素均为0。
将输入向量输入预训练模型,将构建的X2维向量作为预训练模型的输出向量,对预训练模型进行训练,利用预训练好的模型对输入向量进行嵌入后获得特征向量,然后连接全连接层进行后续的微调训练,迭代稳定后可得到第二分类模型。
步骤S106:获取训练文本集中训练样本集之外的训练文本,作为扩充文本。
步骤S107:将扩充文本对应的输入向量分别输入至第一分类模型和第二分类模型,以得到第一分类模型输出的一级标签概率向量和第二分类模型输出的二级标签概率向量。
步骤S108:计算二级标签概率向量中每个元素与一级标签概率向量中对应元素的乘积。
步骤S109:根据二级标签概率向量中每个元素对应乘积的大小,确定扩充文本对应的分类结果。
可选地,在该步骤S109中,根据二级标签概率向量中每个元素对应乘积的大小,确定扩充文本对应的分类结果时,具体执行的步骤包括:当二级标签概率向量中每个元素对应乘积均大于预设阈值时,将最大乘积对应的一级标签和二级标签,作为扩充文本对应的分类结果。
步骤S110:将扩充文本对应的输入向量和分类结果加入至训练样本集。
在通过步骤S105得到第一分类模型和第二分类模型后,通过该步骤S106至步骤S110,为已经标注的训练样本集增加样本。具体地,在还未标注分类结果的训练文本中选择一个训练文本,利用第一分类模型和第二分类模型进行预测,并基于第一分类模型输出的一级标签概率向量和第二分类模型输出的二级标签概率向量得到预测结果,实现了自动标注,然后将自动标注得到的样本加入至训练样本集,可继续在还未标注分类结果的训练文本中选择一个训练文本,再次进行自动标注,并将再次自动标注得到的样本加入至训练样本集,当自动标注的数量满足数量要求时,可返回至步骤S104,重新进行模型的训练,得到新的第一分类模型和第二分类模型,再利用该新的第一分类模型和第二分类模型机型自动标注,以此类推,循环迭代该过程,直到训练样本集中的训练样本扩充至目标数量和目标分布。
例如,得到的第一分类模型输出6维的一级标签概率向量,第二分类模型输出24维的二级标签概率向量,对于每一个样本,计算二级标签概率向量中的每个元素乘以对应一级标签概率向量中的元素,得到一个新的24维向量,若该新的24维向量所有维度标量值均少于0.9,则舍弃该扩充文本,否则确定该新的24维向量中最大元素对应的标签为该扩充文本对应的分类结果,然后将该扩充文本对应的输入向量和分类结果作为新的样本,加入至训练样本集。
在该实施例提供的文本分类样本的构建方法中,在获取到训练文本集后,将其中的训练文本转化为输入向量,然后对训练文本集中一小部分的训练文本进行分类结果标注,以得到初始的训练样本集,其中的分类结果包括对应的训练文本所属的一级标签和二级标签,二级标签属于在一级标签下进一步分类的标签,然后通过初始的训练样本集训练预训练模型,得到对应一级标签的第一分类模型和对应二级标签的第二分类模型,最后利用第一分类模型和第二分类模型对训练文本集中未标注的训练文本进行自动标注,并根据标注后的结果得到新的样本,加入至训练样本集,实现了训练样本集的快速扩充,同时,可通过迭代上述训练过程以及利用第一分类模型和第二分类模型进行自动标注的过程,实现训练样本集的准确扩充。
综上,采用该实施例提供的文本分类样本的构建方法,从原始的文本数据中,通过提取处理关键的要素,利用小部分标注样本以及标签体系的分层性质,迭代训练辅助生成标注样本,可较快地实现样本的标注;通过分层模型迭代选取样本,较为快速可靠地获取有标注文本样本。结合不同级别标签分别建模融合,模型可学习到初级分类较为“抽象”的特征以及高级分类较为“具象”的特征,有利于提升文本分类的准确性。
可选地,在一种实施例中,文本分类样本的构建方法还包括:将训练样本集通过回译、同义词替换、句子扩充和句子缩写中任意一种或多种方式进行扩充。例如,通过将标题、来源、摘要翻译成不同语言的文本后重新翻译成中文,使标注样本数量增加。采用该实施例的文本分类样本的构建方法,一方面,可以实现样本的扩充,保证训练样本集的多样化,另一方面,可采用该方式平和样本训练集中不同训练样本的比例,使得训练样本集中的样本类别尽可能平衡,有利于提升文本分类模型的训练效果。
实施例二
本发明实施例二提供了一种文本分类模型的训练方法,该训练方法中使用的训练集采用本申请提供的任意一种文本分类样本的构建方法构建,相关技术特征和对应的技术效果可参考上述实施例一,该处不再赘述。图2为本发明实施例二提供的文本分类模型的训练方法的流程图,如图2所示,该实施例提供的文本分类模型的训练方法包括如下的步骤S201至步骤S203。
步骤S201:构建训练集。
步骤S202:将训练集中的输入向量作为预训练模型的输入,根据对应的一级标签构建预训练模型的输出向量,对预训练模型进行训练,以得到一级分类模型。
步骤S203:将训练集中的输入向量作为预训练模型的输入,根据对应的二级标签构建预训练模型的输出向量,对预训练模型进行训练,以得到二级分类模型。
其中,采用上述实施例一的方法,可实现样本的全量标注,得到训练集,在该实施例中采用该训练集进行训练,具体地,输入向量输入至预训练模型进入句嵌入后,对全连接层进行fine-tune训练得到一级分类模型和二级分类模型。
可选地,基于上述两个模型,可以对测试集样本进行分类,利用一级分类模型输出的一级标签概率向量和二级分类模型输出的二级标签概率向量得到测试结果,然后可对人工标注的已有的规则进行测试,测试每条规则的准确率,保留准确率达到0.95以上的单条规则,实现对先验知识规则的验证。
实施例三
本发明实施例三提供了一种文本分类方法,该文本分类方法中使用的分类模型采用本申请提供的任意一种文本分类模型的训练方法进行训练,相关技术特征和对应的技术效果可参考上述实施例二,该处不再赘述。图3为本发明实施例三提供的文本分类方法的流程图,如图3所示,该实施例提供的文本分类方法包括如下的步骤S301至步骤S305。
步骤S301:获取待预测文本。
步骤S302:将待预测文本转化为输入向量。
具体地,将待预测文本转化为输入向量的具体方法可采用上述步骤S102中所述的转化输入向量的方法,该处不再详述。
步骤S303:将输入向量分别输入至预设的一级分类模型和二级分类模型,以得到一级分类模型输出的一级标签预测概率向量和二级分类模型输出的二级标签预测概率向量。
其中,一级分类模型和二级分类模型通过上述的文本分类模型的训练方法训练得到。
步骤S304:计算二级标签预测概率向量中每个元素与一级标签预测概率向量中对应元素的乘积,以得到多个预测乘积。
步骤S305:将最大的预测乘积对应的一级标签和二级标签,作为待预测文本的分类结果。
实施例四
对应于上述实施例一,本发明实施例四提供了一种文本分类样本的构建装置,相应地技术特征细节和对应的技术效果可参考上述实施例一,在该实施例中不再赘述。图4为本发明实施例四提供的文本分类样本的构建装置的框图,如图4所示,该文本分类样本的构建装置包括:第一获取模块401、映射模块402、标注模块403、第一训练模块404、第二训练模块405、第二获取模块406、输入模块407、计算模块408、确定模块409和处理模块410。
第一获取模块401用于获取训练文本集,其中,所述训练文本集中包括多个训练文本;映射模块402用于将所述训练文本转化为输入向量;标注模块403用于对所述训练文本集中第一数量的训练文本进行分类结果标注,以得到训练样本集,其中,所述训练样本集包括所述第一数量的训练样本,所述训练样本包括输入向量和分类结果的对应关系,所述分类结果包括对应的所述训练文本所属的一级标签和二级标签,所述二级标签属于在所述一级标签下进一步分类的标签;第一训练模块404用于将所述训练样本集中的所述输入向量作为预训练模型的输入,根据对应的一级标签构建预训练模型的输出向量,对所述预训练模型进行训练,以得到第一分类模型;第二训练模块405用于将所述训练样本集中的所述输入向量作为预训练模型的输入,根据对应的二级标签构建预训练模型的输出向量,对所述预训练模型进行训练,以得到第二分类模型;第二获取模块406用于获取所述训练文本集中所述训练样本集之外的训练文本,作为扩充文本;输入模块407用于将所述扩充文本对应的输入向量分别输入至所述第一分类模型和所述第二分类模型,以得到所述第一分类模型输出的一级标签概率向量和所述第二分类模型输出的二级标签概率向量;计算模块408用于计算所述二级标签概率向量中每个元素与所述一级标签概率向量中对应元素的乘积;确定模块409用于根据所述二级标签概率向量中每个元素对应乘积的大小,确定所述扩充文本对应的分类结果;处理模块410用于将所述扩充文本对应的输入向量和分类结果加入至所述训练样本集。
进一步地,映射模块402包括:提取单元,用于提取所述训练文本的标题,以得到标题文本;确定单元,用于确定所述训练文本的来源,以得到来源文本;构建单元,用于构建所述训练文本的摘要,以得到摘要文本;处理单元,用于根据所述标题文本、所述来源文本和所述摘要文本得到所述输入向量。
进一步地,构建单元在构建所述训练文本的摘要,以得到摘要文本时,具体执行的步骤包括:在所述标题文本、所述来源文本和所述训练文本的正文中,提取满足预设条件的多个关键词;根据所述关键词的词频和所述关键词的位置权重,计算每个所述关键词的重要度;根据所述重要度在所述多个关键词中确定目标关键词;在所述训练文本的正文中,提取包括所述目标关键词的内容作为所述摘要,以得到所述摘要文本。
进一步地,所述一级标签和所述二级标签均为基于ESG信息设置的标签;在所述标题文本、所述来源文本和所述训练文本的正文中,提取满足预设条件的多个关键词的步骤包括:在所述标题文本、所述来源文本和所述训练文本的正文中,提取公司名和地名;处理单元在根据所述标题文本、所述来源文本和所述摘要文本得到所述输入向量时,具体的步骤包括:将所述标题文本、所述来源文本和所述摘要文本中的公司名和地名分别替换为占位符;将替换占位符后的标题文本、来源文本和摘要文本拼接,得到所述输入向量。
进一步地,确定模块409根据所述二级标签概率向量中每个元素对应乘积的大小,确定所述扩充文本对应的分类结果时,具体执行的步骤包括:当所述二级标签概率向量中每个元素对应乘积均大于预设阈值时,将最大乘积对应的一级标签和二级标签,作为所述扩充文本对应的分类结果。
进一步地,所述文本分类样本的构建装置还包括:扩充模块,用于将所述训练样本集通过回译、同义词替换、句子扩充和句子缩写中任意一种或多种方式进行扩充。
实施例五
本实施例五还提供一种计算机设备,如可以执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。如图5所示,本实施例的计算机设备01至少包括但不限于:可通过系统总线相互通信连接的存储器012、处理器011,如图5所示。需要指出的是,图5仅示出了具有组件存储器012和处理器011的计算机设备01,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
本实施例中,存储器012(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器012可以是计算机设备01的内部存储单元,例如该计算机设备01的硬盘或内存。在另一些实施例中,存储器012也可以是计算机设备01的外部存储设备,例如该计算机设备01上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器012还可以既包括计算机设备01的内部存储单元也包括其外部存储设备。本实施例中,存储器012通常用于存储安装于计算机设备01的操作系统和各类应用软件,例如实施例二的文本分类样本的构建装置的程序代码等。此外,存储器012还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器011在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器011通常用于控制计算机设备01的总体操作。本实施例中,处理器011用于运行存储器012中存储的程序代码或者处理数据,例如文本分类样本的构建方法、文本分类模型的训练方法和文本分类方法等。
实施例六
本实施例六还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储文本分类样本的构建装置,被处理器执行时实现实施例的文本分类样本的构建方法、文本分类模型的训练方法和文本分类方法。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种文本分类样本的构建方法,其特征在于,包括:
获取训练文本集,其中,所述训练文本集中包括多个训练文本;
将所述训练文本转化为输入向量;
对所述训练文本集中第一数量的训练文本进行分类结果标注,以得到训练样本集,其中,所述训练样本集包括所述第一数量的训练样本,所述训练样本包括输入向量和分类结果的对应关系,所述分类结果包括对应的所述训练文本所属的一级标签和二级标签,所述二级标签属于在所述一级标签下进一步分类的标签;
将所述训练样本集中的所述输入向量作为预训练模型的输入,根据对应的一级标签构建预训练模型的输出向量,对所述预训练模型进行训练,以得到第一分类模型;
将所述训练样本集中的所述输入向量作为预训练模型的输入,根据对应的二级标签构建预训练模型的输出向量,对所述预训练模型进行训练,以得到第二分类模型;
获取所述训练文本集中所述训练样本集之外的训练文本,作为扩充文本;
将所述扩充文本对应的输入向量分别输入至所述第一分类模型和所述第二分类模型,以得到所述第一分类模型输出的一级标签概率向量和所述第二分类模型输出的二级标签概率向量;
计算所述二级标签概率向量中每个元素与所述一级标签概率向量中对应元素的乘积;
根据所述二级标签概率向量中每个元素对应乘积的大小,确定所述扩充文本对应的分类结果;
将所述扩充文本对应的输入向量和分类结果加入至所述训练样本集。
2.根据权利要求1所述的文本分类样本的构建方法,其特征在于,将所述训练文本转化为输入向量的步骤包括:
提取所述训练文本的标题,以得到标题文本;
确定所述训练文本的来源,以得到来源文本;
构建所述训练文本的摘要,以得到摘要文本;
根据所述标题文本、所述来源文本和所述摘要文本得到所述输入向量。
3.根据权利要求2所述的文本分类样本的构建方法,其特征在于,构建所述训练文本的摘要,以得到摘要文本的步骤包括:
在所述标题文本、所述来源文本和所述训练文本的正文中,提取满足预设条件的多个关键词;
根据所述关键词的词频和所述关键词的位置权重,计算每个所述关键词的重要度;
根据所述重要度在所述多个关键词中确定目标关键词;
在所述训练文本的正文中,提取包括所述目标关键词的内容作为所述摘要,以得到所述摘要文本。
4.根据权利要求3所述的文本分类样本的构建方法,其特征在于,
所述一级标签和所述二级标签均为基于ESG信息设置的标签;
在所述标题文本、所述来源文本和所述训练文本的正文中,提取满足预设条件的多个关键词的步骤包括:在所述标题文本、所述来源文本和所述训练文本的正文中,提取公司名和地名;
根据所述标题文本、所述来源文本和所述摘要文本得到所述输入向量的步骤包括:将所述标题文本、所述来源文本和所述摘要文本中的公司名和地名分别替换为占位符;将替换占位符后的标题文本、来源文本和摘要文本拼接,得到所述输入向量。
5.根据权利要求2所述的文本分类样本的构建方法,其特征在于,
根据所述二级标签概率向量中每个元素对应乘积的大小,确定所述扩充文本对应的分类结果的步骤包括:当所述二级标签概率向量中每个元素对应乘积均大于预设阈值时,将最大乘积对应的一级标签和二级标签,作为所述扩充文本对应的分类结果;
和/或
所述文本分类样本的构建方法还包括:将所述训练样本集通过回译、同义词替换、句子扩充和句子缩写中任意一种或多种方式进行扩充。
6.一种文本分类模型的训练方法,其特征在于,包括:
采用权利要求1至5中任一项所述的文本分类样本的构建方法构建训练集;
将所述训练集中的输入向量作为预训练模型的输入,根据对应的一级标签构建预训练模型的输出向量,对所述预训练模型进行训练,以得到一级分类模型;
将所述训练集中的输入向量作为预训练模型的输入,根据对应的二级标签构建预训练模型的输出向量,对所述预训练模型进行训练,以得到二级分类模型。
7.一种文本分类方法,其特征在于,包括:
获取待预测文本;
将所述待预测文本转化为输入向量;
将所述输入向量分别输入至预设的一级分类模型和二级分类模型,以得到所述一级分类模型输出的一级标签预测概率向量和所述二级分类模型输出的二级标签预测概率向量,其中,所述一级分类模型和所述二级分类模型通过所述权利要求6所述的文本分类模型的训练方法训练得到;
计算所述二级标签预测概率向量中每个元素与所述一级标签预测概率向量中对应元素的乘积,以得到多个所述预测乘积;
将最大的所述预测乘积对应的一级标签和二级标签,作为所述待预测文本的分类结果。
8.一种文本分类样本的构建装置,其特征在于,包括:
第一获取模块,用于获取训练文本集,其中,所述训练文本集中包括多个训练文本;
映射模块,用于将所述训练文本转化为输入向量;
标注模块,用于对所述训练文本集中第一数量的训练文本进行分类结果标注,以得到训练样本集,其中,所述训练样本集包括所述第一数量的训练样本,所述训练样本包括输入向量和分类结果的对应关系,所述分类结果包括对应的所述训练文本所属的一级标签和二级标签,所述二级标签属于在所述一级标签下进一步分类的标签;
第一训练模块,用于将所述训练样本集中的所述输入向量作为预训练模型的输入,根据对应的一级标签构建预训练模型的输出向量,对所述预训练模型进行训练,以得到第一分类模型;
第二训练模块,用于将所述训练样本集中的所述输入向量作为预训练模型的输入,根据对应的二级标签构建预训练模型的输出向量,对所述预训练模型进行训练,以得到第二分类模型;
第二获取模块,用于获取所述训练文本集中所述训练样本集之外的训练文本,作为扩充文本;
输入模块,用于将所述扩充文本对应的输入向量分别输入至所述第一分类模型和所述第二分类模型,以得到所述第一分类模型输出的一级标签概率向量和所述第二分类模型输出的二级标签概率向量;
计算模块,用于计算所述二级标签概率向量中每个元素与所述一级标签概率向量中对应元素的乘积;
确定模块,用于根据所述二级标签概率向量中每个元素对应乘积的大小,确定所述扩充文本对应的分类结果;
处理模块,用于将所述扩充文本对应的输入向量和分类结果加入至所述训练样本集。
9.一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011593010.2A CN112711660B (zh) | 2020-12-29 | 2020-12-29 | 文本分类样本的构建方法和文本分类模型的训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011593010.2A CN112711660B (zh) | 2020-12-29 | 2020-12-29 | 文本分类样本的构建方法和文本分类模型的训练方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112711660A CN112711660A (zh) | 2021-04-27 |
CN112711660B true CN112711660B (zh) | 2023-09-26 |
Family
ID=75546232
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011593010.2A Active CN112711660B (zh) | 2020-12-29 | 2020-12-29 | 文本分类样本的构建方法和文本分类模型的训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112711660B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113297380A (zh) * | 2021-05-27 | 2021-08-24 | 长春工业大学 | 基于自注意力机制和卷积神经网络的文本分类算法 |
CN113313211B (zh) * | 2021-06-28 | 2023-10-17 | 中国平安财产保险股份有限公司 | 文本分类方法、装置、电子设备及存储介质 |
CN113516196B (zh) * | 2021-07-20 | 2024-04-12 | 云知声智能科技股份有限公司 | 命名实体识别数据增强的方法、装置、电子设备和介质 |
CN113342943B (zh) * | 2021-08-05 | 2021-12-07 | 北京明略软件系统有限公司 | 一种分类模型的训练方法和装置 |
CN114637824B (zh) * | 2022-03-18 | 2023-12-01 | 马上消费金融股份有限公司 | 数据增强处理方法及装置 |
CN114996464B (zh) * | 2022-07-19 | 2022-10-21 | 北京语言大学 | 一种利用有序信息的文本分级方法及装置 |
CN115329740B (zh) * | 2022-10-11 | 2023-01-06 | 深圳擎盾信息科技有限公司 | 合同文书的数据增广方法、装置、计算机设备及存储介质 |
CN115544258B (zh) * | 2022-11-25 | 2023-04-07 | 北京信立方科技发展股份有限公司 | 文本分类模型的样本构建方法及装置、文本分类方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111723209A (zh) * | 2020-06-28 | 2020-09-29 | 上海携旅信息技术有限公司 | 半监督文本分类模型训练方法、文本分类方法、系统、设备及介质 |
CN112084337A (zh) * | 2020-09-17 | 2020-12-15 | 腾讯科技(深圳)有限公司 | 文本分类模型的训练方法、文本分类方法及设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10896385B2 (en) * | 2017-07-27 | 2021-01-19 | Logmein, Inc. | Real time learning of text classification models for fast and efficient labeling of training data and customization |
-
2020
- 2020-12-29 CN CN202011593010.2A patent/CN112711660B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111723209A (zh) * | 2020-06-28 | 2020-09-29 | 上海携旅信息技术有限公司 | 半监督文本分类模型训练方法、文本分类方法、系统、设备及介质 |
CN112084337A (zh) * | 2020-09-17 | 2020-12-15 | 腾讯科技(深圳)有限公司 | 文本分类模型的训练方法、文本分类方法及设备 |
Non-Patent Citations (1)
Title |
---|
张晓辉 ; 于双元 ; 王全新 ; 徐保民 ; .基于对抗训练的文本表示和分类算法.计算机科学.2020,(S1),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN112711660A (zh) | 2021-04-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112711660B (zh) | 文本分类样本的构建方法和文本分类模型的训练方法 | |
CN107679039B (zh) | 用于确定语句意图的方法和装置 | |
CN109858010B (zh) | 领域新词识别方法、装置、计算机设备和存储介质 | |
EP2812883B1 (en) | System and method for semantically annotating images | |
CN112347758B (zh) | 文本摘要的生成方法、装置、终端设备及存储介质 | |
CN112052684A (zh) | 电力计量的命名实体识别方法、装置、设备和存储介质 | |
CN110968725B (zh) | 图像内容描述信息生成方法、电子设备及存储介质 | |
CN112818093A (zh) | 基于语义匹配的证据文档检索方法、系统及存储介质 | |
US10963647B2 (en) | Predicting probability of occurrence of a string using sequence of vectors | |
CN111274822A (zh) | 语义匹配方法、装置、设备及存储介质 | |
CN112183102A (zh) | 基于注意力机制与图注意力网络的命名实体识别方法 | |
CN112818091A (zh) | 基于关键词提取的对象查询方法、装置、介质与设备 | |
CN114995903B (zh) | 一种基于预训练语言模型的类别标签识别方法及装置 | |
JP2022020543A (ja) | 技能用語評定方法および装置、電子機器、コンピュータ読み取り可能な媒体 | |
CN116501898A (zh) | 适用于少样本和有偏数据的金融文本事件抽取方法和装置 | |
CN110826315B (zh) | 使用神经网络系统识别短文本时效性的方法 | |
CN115526171A (zh) | 一种意图识别方法、装置、设备及计算机可读存储介质 | |
CN116861269A (zh) | 工程领域的多源异构数据融合及分析方法 | |
CN113723077A (zh) | 基于双向表征模型的句向量生成方法、装置及计算机设备 | |
CN116415562B (zh) | 用于解析金融数据的方法、设备和介质 | |
CN112487263A (zh) | 一种信息处理方法、系统、设备及计算机可读存储介质 | |
CN115062619B (zh) | 中文实体链接方法、装置、设备及存储介质 | |
CN114254622B (zh) | 一种意图识别方法和装置 | |
CN115827871A (zh) | 互联网企业分类的方法、装置和系统 | |
CN110705287B (zh) | 一种用于文本摘要的生成方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |