CN113849644A - 文本分类模型的配置方法、装置、计算机设备及存储介质 - Google Patents
文本分类模型的配置方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN113849644A CN113849644A CN202111138390.5A CN202111138390A CN113849644A CN 113849644 A CN113849644 A CN 113849644A CN 202111138390 A CN202111138390 A CN 202111138390A CN 113849644 A CN113849644 A CN 113849644A
- Authority
- CN
- China
- Prior art keywords
- text
- word information
- classification model
- directed graph
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013145 classification model Methods 0.000 title claims abstract description 107
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000012549 training Methods 0.000 claims abstract description 86
- 230000011218 segmentation Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000002372 labelling Methods 0.000 abstract description 5
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 125000002015 acyclic group Chemical group 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及模型配置领域,揭示了一种文本分类模型的配置方法、装置、计算机设备及存储介质,方法包括:获取待标注的文本库,从所述文本库中提取一段文本;识别所述文本包含的词信息,根据所述词信息建立所述文本对应的有向图;所述有向图的各节点为所述文本包含的各所述词信息;计算有向图中的各节点与预设定文档的相似度;从所述有向图中选取满足相似度要求的目标节点,将所述目标节点对应的词信息作为待选标签;计算各个所述待选标签的置信度,选取所述置信度满足预设值的待选标签作为核心标签;将所述文本及所述核心标签配置训练数据,并输入至所述文本分类模型以训练所述文本分类模型。本申请能够提高模型训练数据的标注效率及准确率。
Description
技术领域
本申请涉及到模型配置领域,特别是涉及到一种文本分类模型的配置方法、装置、计算机设备及存储介质。
背景技术
随着人工智能的不断发展,希望通过人工智能能够准确识别文本的含义,自然语言文本蕴含着内容、语境、情感倾向等方面的复杂信息,需要对文本进行精细的分类才能进行模型的训练,而大部分的现有方法依赖大规模人工标注数据来训练文本分类器,其数据获取耗费了大量的人力物力,数据获取效率低,且导致模型训练的效率低。
发明内容
本申请的主要目的为提供一种文本分类模型的配置方法、装置、计算机设备及存储介质,旨在解决目前文本分类模型的数据获取效率低,模型训练效率低的问题。
为了实现上述发明目的,本申请提出一种文本分类模型的配置方法,包括:
获取待标注的文本库,所述文本库中包含若干段文本,从所述文本库中提取一段文本;
识别所述文本包含的词信息,根据所述词信息建立所述文本对应的有向图;所述有向图的各节点为所述文本包含的各所述词信息;
计算有向图中的各节点与预设定文档的相似度;
从所述有向图中选取满足相似度要求的目标节点,将所述目标节点对应的词信息作为待选标签;
计算各个所述待选标签的置信度,选取所述置信度满足预设值的待选标签作为核心标签;
将所述文本及对应的所述核心标签配置为文本分类模型的训练数据,并将所述训练数据输入至所述文本分类模型以训练所述文本分类模型。
进一步地,所述识别所述文本包含的词信息,根据所述词信息建立所述文本对应的有向图,包括:
识别所述文本,将所述文本进行若干种不同方式的切词,得到所述文本包含的若干种不同组合的词信息;
建立所述文本的根节点,依次将每一种组合中包含的词信息作为所述根节点的子节点,生成对应组合的路径图,直至生成所有组合的路径图,以建立所述文本对应的有向图。
进一步地,所述建立所述文本的根节点,包括:
获取所述文本的若干种不同组合的词信息中的相同词信息;
从所述相同词信息中选取文本的主词信息;
根据所述主词信息建立所述文本的根节点。
进一步地,所述计算有向图中的各节点与预设定文档的相似度,包括:
从所述有向图的根节点自顶向下地逐层访问所述有向图中的子节点,得到多条路径;
依次计算每条路径上的子节点与预设定文档的相似度,得到每一条路径的相似度;
所述从所述有向图中选取满足相似度要求的目标节点,包括:
选取所述路径的相似度满足阈值的路径作为目标路径,从所述目标路径的节点中选取满足相似度要求的节点作为目标节点。
进一步地,所述计算各个所述待选标签的置信度,选取所述置信度满足预设值的待选标签作为核心标签之后,包括:
将所述文本与对应的核心标签关联后作为区块信息写入区块链中,并存储至已标注的文本库。
进一步地,所述从所述有向图中选取满足相似度要求的目标节点,将所述目标节点对应的词信息作为待选标签,包括:
获取文本分类模型训练的当前阶段;
根据所述当前阶段匹配所述对应精度的目标相似度要求;
从所述有向图中选取满足目标相似度要求的目标节点,将所述目标节点对应的词信息作为待选标签。
进一步地,所述将所述文本及对应的所述核心标签配置为文本分类模型的训练数据,并将所述训练数据输入至所述文本分类模型以训练所述文本分类模型之后,还包括:
获取所述文本分类模型的训练结果;
若所述训练结果不满足预期结果,修改所述相似度要求和/或置信度的预设值。
本申请还提供一种文本分类模型的配置装置,包括:
文本获取模块,用于获取待标注的文本库,所述文本库中包含若干段文本,从所述文本库中提取一段文本;
文本建立模块,用于识别文本包含的词信息,根据所述词信息建立所述文本对应的有向图;所述有向图的各节点为所述文本包含的各所述词信息;
相似计算模块,用于计算有向图中的各节点与预设定文档的相似度;
候选标签模块,用于从所述有向图中选取满足相似度要求的目标节点,将所述目标节点对应的词信息作为待选标签;
置信计算模块,用于计算各个所述待选标签的置信度,选取所述置信度满足预设值的待选标签作为核心标签;
训练配置模块,用于将所述文本及对应的所述核心标签配置为文本分类模型的训练数据,并将所述训练数据输入至所述文本分类模型以训练所述文本分类模型。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述文本分类模型的配置方法的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述文本分类模型的配置方法的步骤。
本申请例提供了一种自动识别文本的核心标签以配置训练文本分类模型的方法,首先获取待标注的文本库,所述文本库中包含若干段文本,然后从所述文本库中提取一段文本,识别所述文本包含的词信息,根据所述词信息建立所述文本对应的有向图;所述有向图的各节点为所述文本包含的各所述词信息,所述有向图包含的层级化的词信息,计算有向图中的各节点与预设定文档的相似度,从所述有向图中选取满足相似度要求的目标节点,将所述目标节点对应的词信息作为待选标签,计算各个所述待选标签的置信度,选取所述置信度满足预设值的待选标签作为核心标签,将所述文本及对应的所述核心标签进行关联,生成数据对,即所述文本及对应的所述核心标签配置为文本分类模型的训练数据,并将所述训练数据输入至所述文本分类模型以训练所述文本分类模型,通过上述步骤依次将待标注的文本库中的所有文本进行标注,得到每段文本及对应的核心标签,能够快速地得到高置信度的训练数据,从而提高模型训练数据的标注效率及准确率,通过所述训练数据进行对所述文本分类模型的训练,使用高置信度的核心标签训练文本分类模型,能够有效地提高文本分类模型的准确率。
附图说明
图1为本申请文本分类模型的配置方法的一实施例流程示意图;
图2为本申请步骤S20的另一实施例流程示意图;
图3为本申请文本分类模型的配置装置的一实施例结构示意图;
图4为本申请计算机设备的一实施例结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请实施例提供一种文本分类模型的配置方法,包括步骤S10-S60,对于所述文本分类模型的配置方法的各个步骤的详细阐述如下。
S10、获取待标注的文本库,所述文本库中包含若干段文本,从所述文本库中提取一段文本。
本实施例中应用于自然语言文本分类模型的训练场景,模型训练需要原始数据,然后对所述原始数据进行标注,确定所述原始数据对应的分类,本实施例获取待标注的文本库,所述文本库中的数据即为原始数据,所述文本库中包含若干段文本,然后从所述文本库中提取一段文本,基于下述方法对一段文本进行标注,下述以一段文本为例进行说明,所述文本库中的所有文本均以同样的方式进行标注。
S20、识别所述文本包含的词信息,根据所述词信息建立所述文本对应的有向图;所述有向图的各节点为所述文本包含的各所述词信息。
本实施例中,在获取待标注的文本库中的一段文本后,识别所述文本包含的词信息,即先对所述文本进行切词处理,得到所述本文包含的词信息,在一种实施方式中,基于自然语言处理算法识别所述文本包含的词信息,然后根据所述词信息建立所述文本对应的有向图,将所述文本包含的词信息建立为一个有向图,所述有向图的各节点为所述文本包含的各所述词信息,通过该方式,可以为文本库中的每一段文本分别建立对应的一个有向图。在一种实施方式中,依据各词信息在所述文本中的出现顺序建立有向图,所述有向图为表征所述文本中的各词信息及各词信息对应的层级关系的非循环有向图。
S30、计算有向图中的各节点与预设定文档的相似度。
本实施例中,在根据所述词信息建立所述文本对应的有向图;所述有向图的各节点为各段文本包含的各所述词信息后,并且,不同的分词使得所述有向图包含的各节点的词信息不同,将所述有向图中的各节点与预设定文档进行相似度计算,具体的,统计所述有向图中的各节点的词信息在所述预设定文档中的出现的频次,得到各节点的相似度,进一步的,在统计所述有向图中的各节点的词信息在所述预设定文档中的出现的频次的过程中,基于机器学习收集的词性特征对词信息先进行筛选,把非必要的词信息剔除不进行频次的统计,例如将词信息“的”,“了”先进行剔除,然后再统计剩余的词信息在所述预设定文档中的出现的频次,从而得到所统计的此信息对应的节点的相似度,而已先剔除的词信息对应的节点的相似度可以配置为0,在其他因素相同的情况下,一个节点的相似度越大,则该节点对应的词信息在文本中越重要,越可能成为文本的核心标签。
S40、从所述有向图中选取满足相似度要求的目标节点,将所述目标节点对应的词信息作为待选标签。
本发明中,在计算得到有向图中的各节点与预设定文档的相似度,即可确定有向图中各节点对应的词信息的重要程度,然后从所述有向图中选取满足相似度要求的目标节点,例如选取相似度高于预设值的节点作为目标节点,在一种实施方式中,根据所述相似度从高到底对各节点进行排列,然后选取排列前预设个的节点作为目标节点,将所述目标节点对应的词信息作为待选标签。
S50、计算各个所述待选标签的置信度,选取所述置信度满足预设值的待选标签作为核心标签。
本实施例中,在选定了所述文本的待选标签之后,计算各个所述待选标签的置信度,具体的,所述置信度通过计算待选标签与预设场景下的语义匹配度而得到,当所述语义匹配度越高,则该待选标签的置信度越高,然后选取所述置信度满足预设值的待选标签作为核心标签,即确定一段文本的核心标签,通过上述方式从而为每一段文本选取了能够表征该段文本核心内容的词信息。
S60、将所述文本及对应的所述核心标签配置为文本分类模型的训练数据,并将所述训练数据输入至所述文本分类模型以训练所述文本分类模型。
本实施例中,在选取置信度满足预设值的待选标签作为核心标签,即为一段文本选取了能够表征该文本核心的词信息之后,将所述文本及对应的所述核心标签配置为文本分类模型的训练数据,即将所述文本及对应的所述核心标签进行关联,生成数据对,然后配置为文本分类模型的训练数据,并将所述训练数据输入至所述文本分类模型,进一步的,将所述文本库中的其他段文本同样执行上述步骤,得到每一段文本的核心标签,从而对所述文本进行标注后得到训练数据,通过所述训练数据进行对所述文本分类模型的训练,使用高置信度的核心标签训练文本分类模型,能够有效地提高文本分类模型的准确率。
本实施例提供了一种自动识别文本的核心标签以配置训练文本分类模型的方法,首先获取待标注的文本库,所述文本库中包含若干段文本,然后从所述文本库中提取一段文本,识别所述文本包含的词信息,根据所述词信息建立所述文本对应的有向图;所述有向图的各节点为所述文本包含的各所述词信息,所述有向图包含的层级化的词信息,计算有向图中的各节点与预设定文档的相似度,从所述有向图中选取满足相似度要求的目标节点,将所述目标节点对应的词信息作为待选标签,计算各个所述待选标签的置信度,选取所述置信度满足预设值的待选标签作为核心标签,将所述文本及对应的所述核心标签进行关联,生成数据对,即所述文本及对应的所述核心标签配置为文本分类模型的训练数据,并将所述训练数据输入至所述文本分类模型以训练所述文本分类模型,通过上述步骤依次将待标注的文本库中的所有文本进行标注,得到每段文本及对应的核心标签,能够快速地得到高置信度的训练数据,从而提高模型训练数据的标注效率及准确率,通过所述训练数据进行对所述文本分类模型的训练,使用高置信度的核心标签训练文本分类模型,能够有效地提高文本分类模型的准确率。
在一个实施例中,如图2所示,所述步骤S20中的识别所述文本包含的词信息,根据所述词信息建立所述文本对应的有向图,包括:
S21:识别所述文本,将所述文本进行若干种不同方式的切词,得到所述文本包含的若干种不同组合的词信息;
S22:建立所述文本的根节点,依次将每一种组合中包含的词信息作为所述根节点的子节点,生成对应组合的路径图,直至生成所有组合的路径图,以建立所述文本对应的有向图。
本实施例中,在识别每一段文本包含的词信息,根据所述词信息建立各段文本对应的有向图的过程中,不同的分词方式能够对同一文本进行不同的分词,例如文本AABCCDEEFF,可以分词为AA、B、CC、D、EE、FF,也可以分词为AA、BCC、D、EEFF,即识别一段文本,将一段文本进行若干种不同方式的切词,得到一段文本包含的若干种不同组合的词信息,通过不同的分词算法对所述文本进行切词,在一种实施方式中,基于字符串匹配的分词方法对所述文本进行切词,具体的,从左到右将待切分所述文本的m个字符作为匹配字符,将匹配字符与预设词典进行匹配,若能成功匹配,则将该词切分出来;在另一种实施方式中,通过基于统计的分词对所述文本进行切词。然后建立一段文本的根节点,依次将每一种组合中包含的词信息作为所述根节点的子节点,生成对应组合的路径图,从而生成具有层级化的路径图,直至生成所有组合的路径图,从而建立所述文本对应的有向图,通过不同方式的切词,得到不同组合的路径图,使得生成的有向图具有更多的词信息组合,从而提高核心标签的选择范围,提高模型的泛化能力。
在一个实施例中,所述建立所述文本的根节点,包括:
获取所述文本的若干种不同组合的词信息中的相同词信息;
从所述相同词信息中选取文本的主词信息;
根据所述主词信息建立所述文本的根节点。
本实施例中,在建立一段文本的根节点的过程中,获取一段文本的若干种不同组合的词信息中的相同词信息,即从若干种不同组合的词信息选取一个或多个相同的词信息,定义为相同词信息,然后从所述相同词信息中选取文本的主词信息,所述主词信息为所述文本的主语对应的词信息,再根据所述主词信息建立该段文本的根节点,即将所述主词信息作为该段文本的根节点,依次将每一种组合中包含的词信息作为所述根节点的子节点,生成对应组合的路径图,直至生成所有组合的路径图,以建立该段文本对应的有向图,例如例如文本AABCCDEEFF,可以分词为AA、B、CC、D、EE、FF,也可以分词为AA、BCC、D、EEFF,将AA作为该段文本的根节点,从而保证不同文本间的关联性,提高模型的泛化能力。
在一个实施例中,所述计算有向图中的各节点与预设定文档的相似度,包括:
从所述有向图的根节点自顶向下地逐层访问所述有向图中的子节点,得到多条路径;
依次计算每条路径上的子节点与预设定文档的相似度,得到每一条路径的相似度;
所述从所述有向图中选取满足相似度要求的目标节点,包括:
选取所述路径的相似度满足阈值的路径作为目标路径,从所述目标路径的节点中选取满足相似度要求的节点作为目标节点。
本实施例中,在计算有向图中的各节点与预设定文档的相似度时,从所述有向图的根节点自顶向下地逐层访问所述有向图中的子节点,得到多条路径,依次计算每条路径上的子节点与预设定文档的相似度,即统计每条路径上的子节点在所述预设定文档中的出现的频次,得到每条路径上的各子节点的相似度,然后将每一条路径上的节点的相似度进行累加,得到每一条路径的相似度,在选取的过程中,选取所述路径的相似度满足阈值的路径作为目标路径,从所述目标路径的节点中选取满足相似度要求的节点作为目标节点,即先选取相似度高的路径,再从相似度高的路径的节点中选取相似度高的节点,从而提高选取核心标签的准确率。
在一个实施例中,所述计算各个所述待选标签的置信度,选取所述置信度满足预设值的待选标签作为核心标签之后,包括:
将所述文本与对应的核心标签关联后作为区块信息写入区块链中,并存储至已标注的文本库。
本实施例中,在计算各个所述待选标签的置信度,选取所述置信度满足预设值的待选标签作为核心标签之后,即完成了每一段文本的核心标签的识别,然后将所述文本与对应的核心标签关联后作为区块信息写入区块链中,保证数据的可追溯性,并将所述信息存储至已标注的文本库,保证数据的不可篡改,提高数据的安全性。
在一个实施例中,所述从所述有向图中选取满足相似度要求的目标节点,将所述目标节点对应的词信息作为待选标签,包括:
获取文本分类模型训练的当前阶段;
根据所述当前阶段匹配所述对应精度的目标相似度要求;
从所述有向图中选取满足目标相似度要求的目标节点,将所述目标节点对应的词信息作为待选标签。
本实施例中,在从所述有向图中选取满足相似度要求的目标节点,将所述目标节点对应的词信息作为待选标签的过程中,模型的不同阶段所需使用的数据不同,包括,在初始训练阶段,存在数据不足的情况,需要保证有足够的数据进行模型训练;在中期训练阶段,需要有效地提升模型的精度;本实施例中,获取文本分类模型训练的当前阶段,根据所述当前阶段匹配所述对应精度的目标相似度要求,即不同阶段匹配不同的要求,从所述有向图中选取满足目标相似度要求的目标节点,将所述目标节点对应的词信息作为待选标签,从而提升不同阶段模型训练的准确率。
在一个实施例中,所述将所述文本及对应的所述核心标签配置为文本分类模型的训练数据,并将所述训练数据输入至所述文本分类模型以训练所述文本分类模型之后,还包括:
获取所述文本分类模型的训练结果;
若所述训练结果不满足预期结果,修改所述相似度要求和/或置信度的预设值。
本实施例中,在将所述文本及对应的所述核心标签配置为文本分类模型的训练数据,并将所述训练数据输入至所述文本分类模型以训练所述文本分类模型之后,需要检验模型的训练结果,获取所述文本分类模型的训练结果;若所述训练结果不满足预期结果,修改所述相似度要求和/或置信度的预设值,例如当所述训练结果的精度不足,则提高所述相似度要求和/或置信度的预设值,使得筛选得到的核心标签更加可信;若所述训练结果因数据量不足而导致泛化能力较低时,则降低所述相似度要求和/或置信度的预设值,使得筛选得到更多的核心标签数据,保证模型的训练,从而提高模型训练的准确率和效率。
参照图3,本申请还提供一种文本分类模型的配置装置,包括:
文本获取模块10,用于获取待标注的文本库,所述文本库中包含若干段文本,从所述文本库中提取一段文本;
文本建立模块20,用于识别文本包含的词信息,根据所述词信息建立所述文本对应的有向图;所述有向图的各节点为所述文本包含的各所述词信息;
相似计算模块30,用于计算有向图中的各节点与预设定文档的相似度;
候选标签模块40,用于从所述有向图中选取满足相似度要求的目标节点,将所述目标节点对应的词信息作为待选标签;
置信计算模块50,用于计算各个所述待选标签的置信度,选取所述置信度满足预设值的待选标签作为核心标签;
训练配置模块60,用于将所述文本及对应的所述核心标签配置为文本分类模型的训练数据,并将所述训练数据输入至所述文本分类模型以训练所述文本分类模型。
如上所述,可以理解地,本申请中提出的所述文本分类模型的配置装置的各组成部分可以实现如上所述文本分类模型的配置方法任一项的功能。
在一个实施例中,所述文本建立模块20包括有向图建立单元,用于执行:
识别所述文本,将所述文本进行若干种不同方式的切词,得到所述文本包含的若干种不同组合的词信息;
建立所述文本的根节点,依次将每一种组合中包含的词信息作为所述根节点的子节点,生成对应组合的路径图,直至生成所有组合的路径图,以建立所述文本对应的有向图。
在一个实施例中,所述有向图建立单元,还用于执行:
获取所述文本的若干种不同组合的词信息中的相同词信息;
从所述相同词信息中选取文本的主词信息;
根据所述主词信息建立所述文本的根节点。
在一个实施例中,所述相似计算模块30包括路径相似计算单元,用于执行:
从所述有向图的根节点自顶向下地逐层访问所述有向图中的子节点,得到多条路径;
依次计算每条路径上的子节点与预设定文档的相似度,得到每一条路径的相似度;
所述候选标签模块40包括路径节点单元,用于执行:
选取所述路径的相似度满足阈值的路径作为目标路径,从所述目标路径的节点中选取满足相似度要求的节点作为目标节点。
在一个实施例中,所述装置还包括存储模块,用于执行:
将所述文本与对应的核心标签关联后作为区块信息写入区块链中,并存储至已标注的文本库。
在一个实施例中,所述候选标签模块40包括阶段选取单元,用于执行:
获取文本分类模型训练的当前阶段;
根据所述当前阶段匹配所述对应精度的目标相似度要求;
从所述有向图中选取满足目标相似度要求的目标节点,将所述目标节点对应的词信息作为待选标签。
在一个实施例中,所述装置还包括修改模块,用于执行:
获取所述文本分类模型的训练结果;
若所述训练结果不满足预期结果,修改所述相似度要求和/或置信度的预设值。
参照图4,本申请实施例中还提供一种计算机设备,该计算机设备可以是移动终端,其内部结构可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和显示装置及输入装置。其中,该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机设备的输入装置用于接收用户的输入。该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括存储介质。该存储介质存储有操作系统、计算机程序和数据库。该计算机设备的数据库用于存放数据。该计算机程序被处理器执行时以实现一种文本分类模型的配置方法。
上述处理器执行上述的文本分类模型的配置方法,包括:获取待标注的文本库,所述文本库中包含若干段文本,从所述文本库中提取一段文本;识别所述文本包含的词信息,根据所述词信息建立所述文本对应的有向图;所述有向图的各节点为所述文本包含的各所述词信息;计算有向图中的各节点与预设定文档的相似度;从所述有向图中选取满足相似度要求的目标节点,将所述目标节点对应的词信息作为待选标签;计算各个所述待选标签的置信度,选取所述置信度满足预设值的待选标签作为核心标签;将所述文本及对应的所述核心标签配置为文本分类模型的训练数据,并将所述训练数据输入至所述文本分类模型以训练所述文本分类模型。
所述计算机设备提供了一种自动识别文本的核心标签以配置训练文本分类模型的方法,首先获取待标注的文本库,所述文本库中包含若干段文本,然后从所述文本库中提取一段文本,识别所述文本包含的词信息,根据所述词信息建立所述文本对应的有向图;所述有向图的各节点为所述文本包含的各所述词信息,所述有向图包含的层级化的词信息,计算有向图中的各节点与预设定文档的相似度,从所述有向图中选取满足相似度要求的目标节点,将所述目标节点对应的词信息作为待选标签,计算各个所述待选标签的置信度,选取所述置信度满足预设值的待选标签作为核心标签,将所述文本及对应的所述核心标签进行关联,生成数据对,即所述文本及对应的所述核心标签配置为文本分类模型的训练数据,并将所述训练数据输入至所述文本分类模型以训练所述文本分类模型,通过上述步骤依次将待标注的文本库中的所有文本进行标注,得到每段文本及对应的核心标签,能够快速地得到高置信度的训练数据,从而提高模型训练数据的标注效率及准确率,通过所述训练数据进行对所述文本分类模型的训练,使用高置信度的核心标签训练文本分类模型,能够有效地提高文本分类模型的准确率。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被所述处理器执行时实现一种文本分类模型的配置方法,包括步骤:获取待标注的文本库,所述文本库中包含若干段文本,从所述文本库中提取一段文本;识别所述文本包含的词信息,根据所述词信息建立所述文本对应的有向图;所述有向图的各节点为所述文本包含的各所述词信息;计算有向图中的各节点与预设定文档的相似度;从所述有向图中选取满足相似度要求的目标节点,将所述目标节点对应的词信息作为待选标签;计算各个所述待选标签的置信度,选取所述置信度满足预设值的待选标签作为核心标签;将所述文本及对应的所述核心标签配置为文本分类模型的训练数据,并将所述训练数据输入至所述文本分类模型以训练所述文本分类模型。
所述计算机可读存储介质提供了一种自动识别文本的核心标签以配置训练文本分类模型的方法,首先获取待标注的文本库,所述文本库中包含若干段文本,然后从所述文本库中提取一段文本,识别所述文本包含的词信息,根据所述词信息建立所述文本对应的有向图;所述有向图的各节点为所述文本包含的各所述词信息,所述有向图包含的层级化的词信息,计算有向图中的各节点与预设定文档的相似度,从所述有向图中选取满足相似度要求的目标节点,将所述目标节点对应的词信息作为待选标签,计算各个所述待选标签的置信度,选取所述置信度满足预设值的待选标签作为核心标签,将所述文本及对应的所述核心标签进行关联,生成数据对,即所述文本及对应的所述核心标签配置为文本分类模型的训练数据,并将所述训练数据输入至所述文本分类模型以训练所述文本分类模型,通过上述步骤依次将待标注的文本库中的所有文本进行标注,得到每段文本及对应的核心标签,能够快速地得到高置信度的训练数据,从而提高模型训练数据的标注效率及准确率,通过所述训练数据进行对所述文本分类模型的训练,使用高置信度的核心标签训练文本分类模型,能够有效地提高文本分类模型的准确率。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。
本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。
非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围。
凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种文本分类模型的配置方法,其特征在于,包括:
获取待标注的文本库,所述文本库中包含若干段文本,从所述文本库中提取一段文本;
识别所述文本包含的词信息,根据所述词信息建立所述文本对应的有向图;所述有向图的各节点为所述文本包含的各所述词信息;
计算有向图中的各节点与预设定文档的相似度;
从所述有向图中选取满足相似度要求的目标节点,将所述目标节点对应的词信息作为待选标签;
计算各个所述待选标签的置信度,选取所述置信度满足预设值的待选标签作为核心标签;
将所述文本及对应的所述核心标签配置为文本分类模型的训练数据,并将所述训练数据输入至所述文本分类模型以训练所述文本分类模型。
2.根据权利要求1所述的文本分类模型的配置方法,其特征在于,所述识别所述文本包含的词信息,根据所述词信息建立所述文本对应的有向图,包括:
识别所述文本,将所述文本进行若干种不同方式的切词,得到所述文本包含的若干种不同组合的词信息;
建立所述文本的根节点,依次将每一种组合中包含的词信息作为所述根节点的子节点,生成对应组合的路径图,直至生成所有组合的路径图,以建立所述文本对应的有向图。
3.根据权利要求2所述的文本分类模型的配置方法,其特征在于,所述建立所述文本的根节点,包括:
获取所述文本的若干种不同组合的词信息中的相同词信息;
从所述相同词信息中选取文本的主词信息;
根据所述主词信息建立所述文本的根节点。
4.根据权利要求2所述的文本分类模型的配置方法,其特征在于,所述计算有向图中的各节点与预设定文档的相似度,包括:
从所述有向图的根节点自顶向下地逐层访问所述有向图中的子节点,得到多条路径;
依次计算每条路径上的子节点与预设定文档的相似度,得到每一条路径的相似度;
所述从所述有向图中选取满足相似度要求的目标节点,包括:
选取所述路径的相似度满足阈值的路径作为目标路径,从所述目标路径的节点中选取满足相似度要求的节点作为目标节点。
5.根据权利要求1所述的文本分类模型的配置方法,其特征在于,所述计算各个所述待选标签的置信度,选取所述置信度满足预设值的待选标签作为核心标签之后,包括:
将所述文本与对应的核心标签关联后作为区块信息写入区块链中,并存储至已标注的文本库。
6.根据权利要求1所述的文本分类模型的配置方法,其特征在于,所述从所述有向图中选取满足相似度要求的目标节点,将所述目标节点对应的词信息作为待选标签,包括:
获取文本分类模型训练的当前阶段;
根据所述当前阶段匹配所述对应精度的目标相似度要求;
从所述有向图中选取满足目标相似度要求的目标节点,将所述目标节点对应的词信息作为待选标签。
7.根据权利要求1所述的文本分类模型的配置方法,其特征在于,所述将所述文本及对应的所述核心标签配置为文本分类模型的训练数据,并将所述训练数据输入至所述文本分类模型以训练所述文本分类模型之后,还包括:
获取所述文本分类模型的训练结果;
若所述训练结果不满足预期结果,修改所述相似度要求和/或置信度的预设值。
8.一种文本分类模型的配置装置,其特征在于,包括:
文本获取模块,用于获取待标注的文本库,所述文本库中包含若干段文本,从所述文本库中提取一段文本;
文本建立模块,用于识别文本包含的词信息,根据所述词信息建立所述文本对应的有向图;所述有向图的各节点为所述文本包含的各所述词信息;
相似计算模块,用于计算有向图中的各节点与预设定文档的相似度;
候选标签模块,用于从所述有向图中选取满足相似度要求的目标节点,将所述目标节点对应的词信息作为待选标签;
置信计算模块,用于计算各个所述待选标签的置信度,选取所述置信度满足预设值的待选标签作为核心标签;
训练配置模块,用于将所述文本及对应的所述核心标签配置为文本分类模型的训练数据,并将所述训练数据输入至所述文本分类模型以训练所述文本分类模型。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述文本分类模型的配置方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述文本分类模型的配置方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111138390.5A CN113849644A (zh) | 2021-09-27 | 2021-09-27 | 文本分类模型的配置方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111138390.5A CN113849644A (zh) | 2021-09-27 | 2021-09-27 | 文本分类模型的配置方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113849644A true CN113849644A (zh) | 2021-12-28 |
Family
ID=78980203
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111138390.5A Pending CN113849644A (zh) | 2021-09-27 | 2021-09-27 | 文本分类模型的配置方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113849644A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114724146A (zh) * | 2022-05-12 | 2022-07-08 | 北京百度网讯科技有限公司 | 异常文本识别方法及装置、电子设备和存储介质 |
CN116882416A (zh) * | 2023-09-08 | 2023-10-13 | 江西省精彩纵横采购咨询有限公司 | 一种招标文件的信息识别方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111309912A (zh) * | 2020-02-24 | 2020-06-19 | 深圳市华云中盛科技股份有限公司 | 文本分类方法、装置、计算机设备及存储介质 |
CN112328798A (zh) * | 2020-11-27 | 2021-02-05 | 中国银联股份有限公司 | 文本分类方法以及装置 |
CN113128536A (zh) * | 2019-12-31 | 2021-07-16 | 奇安信科技集团股份有限公司 | 无监督学习方法、系统、计算机设备及可读存储介质 |
-
2021
- 2021-09-27 CN CN202111138390.5A patent/CN113849644A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113128536A (zh) * | 2019-12-31 | 2021-07-16 | 奇安信科技集团股份有限公司 | 无监督学习方法、系统、计算机设备及可读存储介质 |
CN111309912A (zh) * | 2020-02-24 | 2020-06-19 | 深圳市华云中盛科技股份有限公司 | 文本分类方法、装置、计算机设备及存储介质 |
CN112328798A (zh) * | 2020-11-27 | 2021-02-05 | 中国银联股份有限公司 | 文本分类方法以及装置 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114724146A (zh) * | 2022-05-12 | 2022-07-08 | 北京百度网讯科技有限公司 | 异常文本识别方法及装置、电子设备和存储介质 |
CN116882416A (zh) * | 2023-09-08 | 2023-10-13 | 江西省精彩纵横采购咨询有限公司 | 一种招标文件的信息识别方法及系统 |
CN116882416B (zh) * | 2023-09-08 | 2023-11-21 | 江西省精彩纵横采购咨询有限公司 | 一种招标文件的信息识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110765265B (zh) | 信息分类抽取方法、装置、计算机设备和存储介质 | |
CN110059320B (zh) | 实体关系抽取方法、装置、计算机设备和存储介质 | |
CN112651238A (zh) | 训练语料扩充方法及装置、意图识别模型训练方法及装置 | |
CN111553164A (zh) | 命名实体识别模型的训练方法、装置、计算机设备 | |
KR20190085098A (ko) | 키워드 추출 방법, 컴퓨터 장치, 및 저장 매체 | |
CN110765235B (zh) | 训练数据的生成方法、装置、终端及可读介质 | |
CN108038544B (zh) | 基于大数据和深度学习的神经网络深度学习方法和系统 | |
CN111723569A (zh) | 一种事件抽取方法、装置和计算机可读存储介质 | |
CN112766319B (zh) | 对话意图识别模型训练方法、装置、计算机设备及介质 | |
CN112711660A (zh) | 文本分类样本的构建方法和文本分类模型的训练方法 | |
KR20210106372A (ko) | 새로운 카테고리 라벨의 마이닝 방법 및 장치, 전자 기기 및 컴퓨터 판독 가능 매체 및 컴퓨터 프로그램 제품 | |
CN109508458A (zh) | 法律实体的识别方法及装置 | |
CN113536735B (zh) | 一种基于关键词的文本标记方法、系统和存储介质 | |
CN112699923A (zh) | 文档分类预测方法、装置、计算机设备及存储介质 | |
CN113849644A (zh) | 文本分类模型的配置方法、装置、计算机设备及存储介质 | |
CN109933671A (zh) | 构建个人知识图谱的方法、装置、计算机设备和存储介质 | |
CN108399157B (zh) | 实体与属性关系的动态抽取方法、服务器及可读存储介质 | |
CN113255343A (zh) | 标签数据的语义识别方法、装置、计算机设备及存储介质 | |
Leonandya et al. | A semi-supervised algorithm for Indonesian named entity recognition | |
CN114492429A (zh) | 文本主题的生成方法、装置、设备及存储介质 | |
CN116127013A (zh) | 一种个人敏感信息知识图谱查询方法和装置 | |
CN111581346A (zh) | 一种事件抽取方法和装置 | |
CN112487154B (zh) | 一种基于自然语言的智能搜索方法 | |
CN114510923A (zh) | 基于人工智能的文本主题生成方法、装置、设备及介质 | |
CN110781310A (zh) | 目标概念图谱的构建方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |