CN110941958B - 一种文本类目标注方法、装置、电子设备及存储介质 - Google Patents
一种文本类目标注方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN110941958B CN110941958B CN201911122451.1A CN201911122451A CN110941958B CN 110941958 B CN110941958 B CN 110941958B CN 201911122451 A CN201911122451 A CN 201911122451A CN 110941958 B CN110941958 B CN 110941958B
- Authority
- CN
- China
- Prior art keywords
- text
- category
- keywords
- keyword
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 184
- 238000012545 processing Methods 0.000 claims abstract description 158
- 230000011218 segmentation Effects 0.000 claims abstract description 85
- 238000000034 method Methods 0.000 claims abstract description 56
- 230000010365 information processing Effects 0.000 claims description 50
- 238000013507 mapping Methods 0.000 claims description 11
- 230000005540 biological transmission Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 4
- 238000012549 training Methods 0.000 description 24
- 239000013598 vector Substances 0.000 description 18
- 230000006870 function Effects 0.000 description 15
- 238000013528 artificial neural network Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 11
- 230000014509 gene expression Effects 0.000 description 10
- 230000008569 process Effects 0.000 description 10
- 230000000694 effects Effects 0.000 description 8
- 238000013519 translation Methods 0.000 description 8
- 230000002457 bidirectional effect Effects 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 5
- 230000007547 defect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000003062 neural network model Methods 0.000 description 4
- 235000019800 disodium phosphate Nutrition 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 239000010931 gold Substances 0.000 description 3
- 229910052737 gold Inorganic materials 0.000 description 3
- 229910000856 hastalloy Inorganic materials 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 241000282326 Felis catus Species 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000009849 deactivation Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000004549 pulsed laser deposition Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 102100024607 DNA topoisomerase 1 Human genes 0.000 description 1
- 241000989913 Gunnera petaloidea Species 0.000 description 1
- 101000830681 Homo sapiens DNA topoisomerase 1 Proteins 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 208000027697 autoimmune lymphoproliferative syndrome due to CTLA4 haploinsuffiency Diseases 0.000 description 1
- 238000013529 biological neural network Methods 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 210000003169 central nervous system Anatomy 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000007636 ensemble learning method Methods 0.000 description 1
- 238000012905 input function Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3335—Syntactic pre-processing, e.g. stopword elimination, stemming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种文本类目标注方法,包括:获取目标文本,并对目标文本进行分词处理,形成分词处理结果;对目标文本进行去停用词处理,以形成与目标文本相匹配的文本关键词;对与目标文本相匹配的层级类目进行处理,以形成与层级类目对应的类目关键词;对文本关键词和类目关键词进行处理,以确定文本关键词和类目关键词的相关度;根据文本关键词和类目关键词的相关度,对获取的待处理文本的文本类目进行标注。本发明还提供了类目标注装置、电子设备及存储介质。本发明能够实现对文本类目进行自动标注,节省了传统方式中人工标注类目的环节,提升文本类目标注的准确性。
Description
技术领域
本发明涉及信息处理技术,尤其涉及文本类目标注方法、装置、电子设备及存储介质。
背景技术
机器阅读理解技术是指给定一个自然语言问题Q(Question)以及相应的文本段落P(Paragraph),利用机器学习的方法让模型预测出问题的答案A(Answer)。抽取式机器阅读理解要求答案A为来自段落P的一个连续片段。
预训练的语言模型在机器阅读理解任务上取得了突破性进展。其核心思想是在大规模无监督文本语料上预训练语言模型,得到文本的语义表示。这些语义表示可以进一步以特征或微调的方式应用于包括机器阅读理解在内的一系列自然语言理解任务,而这一理解过程需要基于文本的类目标注;文本类目标注,是指将文本标注为一个类目体系中的一个或多个类目。文本类目标注在广告、推荐、搜索等大量业务场景中有着广泛的应用。确定文本所属的类目是文本类目标注中的重要环节。传统的文本类目的确定方式中,先由人工标注若干文本所属的类目,得到训练样本,再根据训练样本对神经网络等机器学习模型进行训练得到映射模型,进而将待处理文本输入至映射模型中,通过映射模型确定待处理文本的类目。然而,人工标注得到训练样本的过程,耗费了大量的人力。并且,映射模型是根据人工标注的训练样本训练得到,因此确定待处理文本所属的类目的质量对人工标注的质量具有严重的依赖性。
发明内容
有鉴于此,本发明实施例提供一种文本类目标注方法、装置、电子设备及存储介质,本发明实施例的技术方案是这样实现的:
本发明提供了一种文本类目标注方法所述方法包括:
获取目标文本,并对所述目标文本进行分词处理,形成分词处理结果;
响应于所述分词处理结果,对所述目标文本进行去停用词处理,以形成与所述目标文本相匹配的文本关键词;
通过文本处理模型中的类目标注网络,对与所述目标文本相匹配的层级类目进行处理,以形成与所述层级类目对应的类目关键词;
对所述文本关键词和所述类目关键词进行处理,以确定所述文本关键词和所述类目关键词的相关度;
通过文本处理模型中的类目标注网络,根据所述文本关键词和所述类目关键词的相关度,对获取的待处理文本的文本类目进行标注。
本发明实施例还提供了一种文本类目标注装置,所述装置包括:
信息传输模块,用于获取目标文本;
信息处理模块,用于对所述目标文本进行分词处理,形成分词处理结果;
所述信息处理模块,用于响应于所述分词处理结果,对所述目标文本进行去停用词处理,以形成与所述目标文本相匹配的文本关键词;
所述信息处理模块,用于通过文本处理模型中的类目标注网络,对与所述目标文本相匹配的层级类目进行处理,以形成与所述层级类目对应的类目关键词;
所述信息处理模块,用于基于与所述文本关键词相对应的文本关键词知识类目标注网络,对所述文本关键词和所述类目关键词进行处理,以确定所述文本关键词和所述类目关键词的相关度;
所述信息处理模块,用于通过文本处理模型中的类目标注网络,根据所述文本关键词和所述类目关键词的相关度,对获取的待处理文本的文本类目进行标注。
上述方案中,
所述信息处理模块,用于确定与所述文本处理模型的使用环境相匹配的动态噪声阈值;
所述信息处理模块,用于根据所述动态噪声阈值对所述目标文本集合进行去噪处理,并触发与所述动态噪声阈值相匹配的第一分词策略;
所述信息处理模块,用于根据与所述动态噪声阈值相匹配的第一分词策略,对所述目标文本进行分词处理,形成分词处理结果;
所述信息处理模块,用于确定与所述文本处理模型相对应的固定噪声阈值;
所述信息处理模块,用于根据所述固定噪声阈值对所述目标文本集合进行去噪处理,并触发与所述固定噪声阈值相匹配的第二分词策略;
所述信息处理模块,用于根据与所述固定噪声阈值相匹配的第二分词策略,对所述目标文本进行分词处理,形成分词处理结果。
上述方案中,
所述信息处理模块,用于通过文本处理模型中的类目标注网络,确定与所述目标文本相匹配的层级类目;
所述信息处理模块,用于通过文本处理模型中的类目标注网络,对与所述目标文本相匹配的层级类目进行字符串替换与提取处理,以形成至少一个类目关键词集合,其中,所述至少一个类目关键词集合包括相应层级类目对应的类目关键词。
上述方案中,
所述信息处理模块,用于确定所述文本关键词在所述类目关键词所对应的类目中出现的第一数量;
所述信息处理模块,用于确定所述文本关键词在所有目标文本中所出现的第二数量;
所述信息处理模块,用于基于与所述文本关键词相对应的文本关键词知识类目标注网络,对所述第一数量和所述第二数量进行处理,以确定所述文本关键词和所述类目关键词的相关度。
上述方案中,
所述信息处理模块,用于基于与所述文本关键词相对应的文本关键词知识类目标注网络,将所述文本关键词和所述类目关键词的相关度转换为所述类目关键词的后验概率;
所述信息处理模块,用于确定所述文本关键词、所述类目关键词和所述后验概率的映射关系;
所述信息处理模块,用于基于与所述文本关键词相对应的文本关键词知识类目标注网络,将所述文本关键词、所述类目关键词和所述后验概率的映射关系,转换为与所述文本处理模型中的类目标注网络相对应的先验知识。
上述方案中,
所述信息处理模块,用于确定与所述文本处理模型的使用环境相匹配的关键词知识图谱;
所述信息处理模块,用于基于所述文本处理模型中的类目标注网络,通过所述关键词知识图谱,对所述待处理文本进行编码与加权平均处理;
所述信息处理模块,用于根据所述文本关键词和所述类目关键词的相关度,触发与所述类目标注网络相对应的先验知识;
所述信息处理模块,用于根据与所述类目标注网络相对应的先验知识,对经过编码与加权平均处理的待处理文本的文本类目进行标注。
上述方案中,
所述信息处理模块,用于基于所述文本处理模型中的类目标注网络,确定所述待处理文本中的关键词;
所述信息处理模块,用于基于所述文本处理模型中的类目标注网络,根据与所述类目标注网络相对应的先验知识,确定所述待处理文本中的每一个关键词和相应类目关键词的相关度;
所述信息处理模块,用于对所述待处理文本中的每一个关键词和相应类目关键词的相关度进行排序;
所述信息处理模块,用于根据所述待处理文本中的每一个关键词和相应类目关键词的相关度的排序结果,确定所述待处理文本的文本类目标注结果。
本发明实施例还提供了一种电子设备,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于运行所述存储器存储的可执行指令时,实现前序的文本类目标注方法。
本发明实施例还提供了一种计算机可读存储介质,存储有可执行指令,所述可执行指令被处理器执行时实现前序的文本类目标注方法。
本发明实施例具有以下有益效果:
通过获取目标文本,并对所述目标文本进行分词处理,形成分词处理结果;响应于所述分词处理结果,对所述目标文本进行去停用词处理,以形成与所述目标文本相匹配的文本关键词;通过文本处理模型中的类目标注网络,对与所述目标文本相匹配的层级类目进行处理,以形成与所述层级类目对应的类目关键词;对所述文本关键词和所述类目关键词进行处理,以确定所述文本关键词和所述类目关键词的相关度;通过文本处理模型中的类目标注网络,根据所述文本关键词和所述类目关键词的相关度,对获取的待处理文本的文本类目进行标注。这一过程,不但可以在不具有任何所属类目已知的文本的情况下,由运行计算机设备通过基于文本关键词和所述类目关键词的相关度的方式确定任何文本所属的类目,对文本类目进行标注,而且节省了传统方式中人工标注类目的环节,节省了人力成本,减少了确定待处理文本所属的类目的质量对人工标注的质量的依赖性,提升文本类目标注的准确性与通用性。
附图说明
图1为本发明实施例提供的文本类目标注方法的使用场景示意图;
图2为本发明实施例提供的文本类目标注装置的组成结构示意图;
图3为现有技术中,基于RNN的Seq2Seq模型生成文本类目标注结果的示意图;
图4为现有技术中,基于双向注意力神经网络模(BERT Bidirectional EncoderRepresentations from Transformers)生成文本类目标注结果的示意图;
图5为本发明实施例提供的文本类目标注方法一个可选的流程示意图;
图6为本发明实施例提供的文本类目标注方法一个可选的流程示意图;
图7为本发明实施例提供的文本类目标注方法一个可选的流程示意图;
图8为本发明实施例中文本类目标注方法的数据结构示意图;
图9为本发明实施例中文本类目标注方法一个可选的的过程示意图;
图10为本发明实施例中文本类目标注方法的使用环境示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,所描述的实施例不应视为对本发明的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
对本发明实施例进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。
1)响应于,用于表示所执行的操作所依赖的条件或者状态,当满足所依赖的条件或状态时,所执行的一个或多个操作可以是实时的,也可以具有设定的延迟;在没有特别说明的情况下,所执行的多个操作不存在执行先后顺序的限制。
2)神经网络(Neural Network,NN):人工神经网络(Artificial Neural Network,ANN),简称神经网络或类神经网络,在机器学习和认知科学领域,是一种模仿生物神经网络(动物的中枢神经系统,特别是大脑)的结构和功能的数学模型或计算模型,用于对函数进行估计或近似。
3)语音识别(SR Speech Recognition):也被称为自动语音识别(ASR AutomaticSpeech Recognition)、计算机语音识别(CSR Computer Speech Recognition)或者语音转文本识别(STT Speech To Text),其目标是使用计算机自动将人类的语音内容转换为相应的文字。
4)机器翻译(Machine Translation,MT):属于计算语言学的范畴,其研究借由计算机程序将文字或演说从一种自然语言翻译成另一种自然语言。神经网络机器翻译(Neural Machine Translation,NMT)是使用神经网络技术进行机器翻译的一种技术。
5)编码器-解码器结构:机器翻译技术常用的网络结构。由编码器和解码器两部分组成,编码器将输入的文本转换为一系列能够表达输入文本特征的上下文向量,解码器接收编码器输出的结果作为自己的输入,输出对应的另一种语言的文本序列。
6)双向注意力神经网络模(BERT Bidirectional Encoder Representationsfrom Transformers)谷歌提出的双向注意力神经网络模型。
7)token:词单元,对输入文本做任何实际处理前,都需要将其分割成诸如词、标点符号、数字或纯字母数字等语言单元。这些单元被称为词单元。
8)Softmax:归一化指数函数,是逻辑函数的一种推广。它能将一个含任意实数的K维向量“压缩”到另一个K维实向量中,使得每一个元素的范围都在[0,1]之间,并且所有元素的和为1。
9)类目体系:将文本类别的目标领域进行规定和划分后所形成的体系,包含多个类目。
10)文本分类:将文本分到一个类目体系中一个目标类目。
11)文本类目标注:将文本标注为一个类目体系中的一个或多个类目的任务,包含文本分类。
12)多层级类目:在类目体系中,类目具有层级关系。
13)词向量:对词或者词组用固定维度的分布向量表示。融合算法:将多种算法融合,包括算法层融合和结果层融合。无监督算法:学习不带标签数据内部特征。关键词知识:在知识图谱中,与关键词存在等价和属于关系的关键词集合。
14)K-means:无监督的聚类方法,通过计算文本之间相似度,不断迭代将文本集合聚成指定数量的簇。
15)Light GBM:一种使用基于树的学习算法的梯度提升框架,可以实现文本分类。
16)深度学习文本分类:使用神经网络对文本进行编码,然后对编码后的文本进行分类。
17)分词:使用中文分词工具切分中文文本,得到细粒度词的集合。停用词:对于文本的语义没有贡献或者贡献可以不计的字或词。Cosin相似度:两个文本表示成向量之后的余弦相似度。
18)Transformers:一种新的网络结构,采用注意力机制,代替传统的编码器-解码器必须依赖其它神经网络的模式。字向量:对单个字用固定维度的分布向量表示。复合词:由细粒度的关键词组成的粒度较粗的关键词,其语义相对细粒度关键词更加丰富和完整。
19)文本关键词:文本经过分词生成的关键词。
20)层级类目:在类目体系中,类目具有层级关系。
21)类目关键词:在层级类目体系中,每个层级类目对应的名称。
22)半监督学习:使用少量的带标签的训练数据和大量无标签数据,学习数据内部特征,然后对数据进行标注(或者分类)。
23)聚类:根据数据的特征,将数据分成几个簇,每个簇包含一条或者多条数据。
24)无监督学习:只使用大量无标签数据,学习无标签数据的特征,对数据进行聚类。
25)有监督学习:通过训练学习大量带标签数据中标签和数据之间的关系,将训练得到的模型应用到不带标签的数据中。
26)支持向量机:找到一个最优超平面(高维向量中)分隔数据,可用于文本分类。
27)集成学习:将多个学习器(分类器)按照某种规则组合起来达到更好的学习效果,可用于文本分类。
28)停用词:对于文本的语义没有贡献或者贡献可以不计的字或词
图1为本发明实施例提供的文本类目标注方法的使用场景示意图,参见图1,终端(包括终端10-1和终端10-2)上设置有关于文本输入功能的应用软件的客户端,用户通过所设置的文本输入客户端可以输入相应的问题语句,文本输入客户端也可以接收相应的文本类目标注结果,并将所接收的文本类目标注结果向用户进行展示;终端通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合,使用无线链路实现数据传输。
作为一个示例,服务器200用于布设所述文本处理模型并通过文本处理模型中的类目标注网络,根据所述文本关键词和所述类目关键词的相关度,对获取的待处理文本的文本类目进行标注,并通过终端(终端10-1和/或终端10-2)展示文本处理模型所生成的文本类目标注结果进行展示。
当然在通过文本处理模型对目标问题语句进行处理以生成相应的文本类目标注结果之前,还需要确定所述文本关键词和所述类目关键词的相关度,进而基于与所述文本关键词相对应的文本关键词知识类目标注网络,将所述文本关键词、所述类目关键词和所述后验概率的映射关系,转换为与所述文本处理模型中的类目标注网络相对应的先验知识,以实现相应的文本标注处理,具体包括:获取目标文本,并对所述目标文本进行分词处理,形成分词处理结果;响应于所述分词处理结果,对所述目标文本进行去停用词处理,以形成与所述目标文本相匹配的文本关键词;通过文本处理模型中的类目标注网络,对与所述目标文本相匹配的层级类目进行处理,以形成与所述层级类目对应的类目关键词;对所述文本关键词和所述类目关键词进行处理,以确定所述文本关键词和所述类目关键词的相关度;通过文本处理模型中的类目标注网络,根据所述文本关键词和所述类目关键词的相关度,对获取的待处理文本的文本类目进行标注。
下面对本发明实施例的文本类目标注装置的结构做详细说明,文本类目标注装置可以各种形式来实施,如带有文本处理文本类目标注功能的专用终端,也可以为设置有文本处理文本类目标注功能的服务器,例如前序图1中的服务器200。图2为本发明实施例提供的文本类目标注装置的组成结构示意图,可以理解,图2仅仅示出了文本类目标注装置的示例性结构而非全部结构,根据需要可以实施图2示出的部分结构或全部结构。
本发明实施例提供的文本类目标注装置包括:至少一个处理器201、存储器202、用户接口203和至少一个网络接口204。文本类目标注装置中的各个组件通过总线系统205耦合在一起。可以理解,总线系统205用于实现这些组件之间的连接通信。总线系统205除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统205。
其中,用户接口203可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。
可以理解,存储器202可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。本发明实施例中的存储器202能够存储数据以支持终端(如10-1)的操作。这些数据的示例包括:用于在终端(如10-1)上操作的任何计算机程序,如操作系统和应用程序。其中,操作系统包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序。
在一些实施例中,本发明实施例提供的文本类目标注装置可以采用软硬件结合的方式实现,作为示例,本发明实施例提供的文本类目标注装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本发明实施例提供的文本类目标注方法。例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application SpecificIntegrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件。
作为本发明实施例提供的文本类目标注装置采用软硬件结合实施的示例,本发明实施例所提供的文本类目标注装置可以直接体现为由处理器201执行的软件模块组合,软件模块可以位于存储介质中,存储介质位于存储器202,处理器201读取存储器202中软件模块包括的可执行指令,结合必要的硬件(例如,包括处理器201以及连接到总线205的其他组件)完成本发明实施例提供的文本类目标注方法。
作为示例,处理器201可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
作为本发明实施例提供的文本类目标注装置采用硬件实施的示例,本发明实施例所提供的装置可以直接采用硬件译码处理器形式的处理器201来执行完成,例如,被一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable GateArray)或其他电子元件执行实现本发明实施例提供的文本类目标注方法。
本发明实施例中的存储器202用于存储各种类型的数据以支持文本类目标注装置的操作。这些数据的示例包括:用于在文本类目标注装置上操作的任何可执行指令,如可执行指令,实现本发明实施例的从文本类目标注方法的程序可以包含在可执行指令中。
在另一些实施例中,本发明实施例提供的文本类目标注装置可以采用软件方式实现,图2示出了存储在存储器202中的文本类目标注装置,其可以是程序和插件等形式的软件,并包括一系列的模块,作为存储器202中存储的程序的示例,可以包括文本类目标注装置,文本类目标注装置中包括以下的软件模块:信息传输模块2081,信息处理模块2082。当文本类目标注装置中的软件模块被处理器201读取到RAM中并执行时,将实现本发明实施例提供的文本类目标注方法,接下来说明文本类目标注装置中各个软件模块的功能,其中,
信息传输模块2081,用于获取目标文本;
信息处理模块2082,用于对所述目标文本进行分词处理,形成分词处理结果;
所述信息处理模块2082,用于响应于所述分词处理结果,对所述目标文本进行去停用词处理,以形成与所述目标文本相匹配的文本关键词;
所述信息处理模块2082,用于通过文本处理模型中的类目标注网络,对与所述目标文本相匹配的层级类目进行处理,以形成与所述层级类目对应的类目关键词;
所述信息处理模块2082,用于对所述文本关键词和所述类目关键词进行处理,以确定所述文本关键词和所述类目关键词的相关度;
所述信息处理模块2082,用于通过文本处理模型中的类目标注网络,根据所述文本关键词和所述类目关键词的相关度,对获取的待处理文本的文本类目进行标注。
结合图2示出的文本类目标注装置说明本发明实施例提供的文本类目标注方法,在介绍本发明实施例提供的文本类目标注方法之前,首先介绍相关技术中,通过传统的文本处理模型根据问题文本生成相应文本类目标注结果的过程中,其中,图3为现有技术中,基于RNN的Seq2Seq模型生成文本类目标注结果的示意图,其中,eq2seq模型是以编码器(Encode)和解码器(Decode)为代表的架构方式,seq2seq模型是根据输入序列X来生成输出序列Y。编码器(Encode)和解码器(Decode)为代表的seq2seq模型中,编码器(Encode)是将输入序列转化成一个固定长度的向量,解码器(Decode)将输入的固定长度向量解码成输出序列。如图3所示,编码器(Encoder)对输入的问题语句进行编码,得到问题语句的文本特征;解码器(Decoder)对文本特征进行解码后输出生成相应的回复,其中,编码器(Encode)和解码器(Decode)是一一对应的。
可见,对于图3所示的相关技术来说基于Seq2Seq模型的文本标注系统的缺点在于,相关技术中的模型本身只对训练数据目标文本y-标注信息建立一对一的关系,并且使用MLE进行模型的优化,这导致了模型会生成很多高频的重复标注,这些标注通常没有意义且很短。同时,很多实际场景中,同一个目标文本y可以有很多种标注信息,现有的Seq2Seq模型由于编码器(Encode)和解码器(Decode)是一一对应的,并不能够有效对这种一对多问题进行处理,用户体验差。
另外,继续参考图4,图4为现有技术中,基于双向注意力神经网络模(BERTBidirectional Encoder Representations from Transformers)生成文本类目标注结果的示意图,其中,Encoder包括:N=6个相同的layers组成,每一层包含两个sub-layers。第一个sub-layer就是多头注意力层(multi-head attention layer)然后是一个简单的全连接层。其中每个sub-layer都加了残差连接(residual connection)和归一化(normalisation)。
Decoder包括:由N=6个相同的Layer组成,其中layer和encoder并不相同,这里的layer包含了三个sub-layers,其中有一个self-attention layer,encoder-decoderattention layer最后是一个全连接层。前两个sub-layer都是基于multi-head attentionlayer。其中,encoder和decoder部分都包含了6个encoder和decoder。进入到第一个encoder的inputs结合embedding和positional embedding。通过了6个encoder之后,输出到了decoder部分的每一个decoder中;输入目标为“我是一个学生t”经过文本处理模型的处理,输出的文本类目标注结果为:“学生”。但是图4所示的基于双向注意力神经网络模(BERT Bidirectional Encoder Representations from Transformers)生成文本类目标注结果的过程中,仅从数据本身出发,计算文本之间的相似度,经过不断迭代形成多个不同的簇,在实际的业务场景中效果不佳,因为它不能获取除了文本相似度之外的信息。比如无监督方法不能预先获取“独立日”属于科幻电影的知识,或者,“非诚勿扰”属于电视娱乐节目的知识,“水浒传”在不同的业务场景中既可以表示游戏的知识,也可以表示电视剧或者电影的知识。
为解决前序相关技术中的缺陷,参见图5,图5为本发明实施例提供的文本类目标注方法一个可选的流程示意图,可以理解地,图5所示的步骤可以由运行文本类目标注装置的各种电子设备执行,例如可以是如带有文本类目标注功能的专用终端、带有文本处理文本类目标注功能的服务器或者服务器集群。下面针对图5示出的步骤进行说明。
步骤501:文本类目标注装置获取目标文本,并对所述目标文本进行分词处理,形成分词处理结果。
在本发明的一些实施例中,对所述目标文本进行分词处理,形成分词处理结果;可以通过以下方式实现:
确定与所述文本处理模型的使用环境相匹配的动态噪声阈值;根据所述动态噪声阈值对所述目标文本集合进行去噪处理,并触发与所述动态噪声阈值相匹配的第一分词策略;根据与所述动态噪声阈值相匹配的第一分词策略,对所述目标文本进行分词处理,形成分词处理结果。其中由于文本处理模型的使用环境不同,与所述文本处理模型的使用环境相匹配的动态噪声阈值也不相同,例如,学术翻译的使用环境中,与所述文本处理模型的使用环境相匹配的动态噪声阈值需要小于文章阅读环境中的动态噪声阈值。
在本发明的一些实施例中,对所述目标文本进行分词处理,形成分词处理结果;可以通过以下方式实现:
确定与所述文本处理模型相对应的固定噪声阈值;根据所述固定噪声阈值对所述目标文本集合进行去噪处理,并触发与所述固定噪声阈值相匹配的第二分词策略;根据与所述固定噪声阈值相匹配的第二分词策略,对所述目标文本进行分词处理,形成分词处理结果。其中,当文本处理模型固化于相应的硬件机构中,使用环境为口语化翻译时,通过固定文本处理模型相对应的固定噪声阈值,能够有效提神文本处理模型的文本类目标注速度,减少用户的等待时间,提升用户的使用体验。
在本发明的一些实施例中,关键词对应的语义描述信息可以根据相关人员整理的、用于描述该关键词的信息(以下简称为专家描述信息)确定,相关人员可以是相关领域的专家。具体地,可以由专家针对各候选关键词整理各自对应的专家描述信息,再根据各候选关键词、各专家描述信息、以及各候选关键词及各专家描述信息之间的匹配关系,构建专家知识库,据此,需要得到关键词的语义描述信息时,在专家知识库中查找与该关键词对应的候选关键词,该关键词的语义描述信息可以包括查找到的候选关键词所匹配的专家描述信息。进一步地,语义表达式可以包括正向语义表达式和负向语义表达式,语义关系包括正向语义关系和负向语义关系。此外,还包括限定语义表达式,限定语义表达式是描述类目语义中限定关系的表达式。限定语义表达式包括限定关键词。限定关键词用于对关键词进行限定,可以更加精确地表达类目语义。比如,对于“游戏—水浒传”与“图书—水浒传”这两个类目,因为两者都有“水浒传”这个共有关键词,其关键词层面的相关度是很高的。但是从语义上来说,一个是“游戏”,另一个则是“图书”,它们之间的相关度则很低。通过限定语义表达式表述后,即可反映出它们之间在语义层面的相关度。
步骤502:响应于所述分词处理结果,对所述目标文本进行去停用词处理,以形成与所述目标文本相匹配的文本关键词。
步骤503:通过文本处理模型中的类目标注网络,对与所述目标文本相匹配的层级类目进行处理,以形成与所述层级类目对应的类目关键词。
在本发明的一些实施例中,所述通过文本处理模型中的类目标注网络,对与所述目标文本相匹配的层级类目进行处理,以形成与所述层级类目对应的类目关键词,可以通过以下方式实现:
通过文本处理模型中的类目标注网络,确定与所述目标文本相匹配的层级类目;通过文本处理模型中的类目标注网络,对与所述目标文本相匹配的层级类目进行字符串替换与提取处理,以形成至少一个类目关键词集合,其中,所述至少一个类目关键词集合包括相应层级类目对应的类目关键词。其中,对于每个层级类目,相应的需要通过字符串替换提取层级类目对应的名称作为类目关键词。比如类目“娱乐—电影—灾难电影”,经过步骤503的处理生成“娱乐/电影/灾难电影”三个类目关键词组成的关键词集合,类目“娱乐—游戏—地下城与勇士—法师”,经过步骤503的处理生成“娱乐/游戏/地下城与勇士/法师”四个类目关键词组成的关键词集合。
步骤504:基于与所述文本关键词相对应的文本关键词知识类目标注网络,对所述文本关键词和所述类目关键词进行处理。
由此,以确定所述文本关键词和所述类目关键词的相关度。
在本发明的一些实施例中,所述基于与所述文本关键词相对应的文本关键词知识类目标注网络,对所述文本关键词和所述类目关键词进行处理,以确定所述文本关键词和所述类目关键词的相关度,可以通过以下方式实现:
确定所述文本关键词在所述类目关键词所对应的类目中出现的第一数量;确定所述文本关键词在所有目标文本中所出现的第二数量;基于与所述文本关键词相对应的文本关键词知识类目标注网络,对所述第一数量和所述第二数量进行处理,以确定所述文本关键词和所述类目关键词的相关度。其中,目标文本关键词到类目关键词概率可以等于文本关键词到类目概率。具体的概率计算公式包括:关键词ki到类目关键词的相关概率=关键词ki所在类目中ki出现的次数/ki在全部数据中出现的次数。比如文本关键词“金毛”在类目“宠物—狗—金毛”(对应类目关键词集合为“宠物/狗/金毛”)中出现了7次,在全部的数据中文本关键词“金毛”出现了10次。通过上述公式计算得三条文本关键词“金毛”与类目关键词的相关概率知识:“金毛—宠物—0.7”,“金毛—狗—0.7”,“金毛—宠物—狗=0.7”。我们将得到的全部的三元组保存到计算机数据库表中的“keyword—cateword—confidence”三个对应列中。
在本发明的一些实施例中,所述方法还包括:
基于与所述文本关键词相对应的文本关键词知识类目标注网络,将所述文本关键词和所述类目关键词的相关度转换为所述类目关键词的后验概率;确定所述文本关键词、所述类目关键词和所述后验概率的映射关系;基于与所述文本关键词相对应的文本关键词知识类目标注网络,将所述文本关键词、所述类目关键词和所述后验概率的映射关系,转换为与所述文本处理模型中的类目标注网络相对应的先验知识。其中,在真实业务场景中,面对复杂多层级的类目体系,引入先验知识可以更加简单有效帮助理解类目,通过上述的知识获取方法积累类目关键词相关知识。通过循环积累高质量的相关先验知识,最终可以实现利用先验知识进行无监督的文本类目标注。对于新的技术领域,仅需要少量训练数据,即可高效提高真实业务场景中文本到类目的标注准确率。
步骤505:通过文本处理模型中的类目标注网络,根据所述文本关键词和所述类目关键词的相关度,对获取的待处理文本的文本类目进行标注。
参见图6,图6为本发明实施例提供的文本类目标注方法一个可选的流程示意图,可以理解地,图6所示的步骤可以由运行文本类目标注装置的各种电子设备执行,例如可以是如带有文本类目标注功能的专用终端、带有文本处理文本类目标注功能的服务器或者服务器集群。下面针对图6示出的步骤进行说明。
步骤5051:确定与所述文本处理模型的使用环境相匹配的关键词知识图谱。
其中,在真实业务场景中,文本处理模型往往需要语义更加精确的知识,比如“哈士奇是一种狗”,“狗属于宠物”。因此,模型通过人工构建小型的类目体系知识图谱。这个类目体系对应的知识图谱是带权重的图,图的节点为关键词对应的实体(比如上面提到的哈士奇、狗、宠物),图的边表示节点之间的关系。在这个类目体系知识图谱中,模型有“属于”关系和“等价”关系,“属于”关系表示实体之间存在形如“哈士奇-属于→狗”和“狗-属于→宠物”等关系。“等价”关系则有“西伯利亚雪橇犬-等价于→哈士奇”,“哈士奇-等价于→二哈”,这些关系的权重默认都为1。知识图谱的构建主要通过机器辅助人工构建,首先机器匹配存在“实体a属于实体b”、“a包含b”和“a等价于b”等模式匹配大量的文本,然后人工过滤正确关系加入到图谱中。在数据库中创建两个关系表,一个为等价关系表,主要保存存在“等价”关系的实体对和相关权重,如关系“史蒂芬库里-库里-1.0”,模型将“史蒂芬库里,库里,1.0”分别存储到关系表的“实体1,实体2,权重”三个字段中。在文本类目标注时,模型首先对待标注文本去停用词和分词处理,然后将分词得到的关键词匹配知识图谱中实体,即上述两个关系表中的实体1和实体2字段,获取关键词在知识图谱中的“等价”关系和“属于”关系的实体关键词组合。接着文本处理模型将这些关键词组合一一与类目关键词进行匹配,计算得分(匹配一级类目得1分,二级类目得2分,以此类推)。比如对于待标注的文本“史蒂芬库里是个史诗级射手”,分词、去停用词得到“史蒂夫库里;史诗级;射手”三个关键词。当前知识图谱中存在等价的关系有“史蒂芬库里-等价-库里”,“史蒂芬库里-等价-萌神库里”,“射手-等价-三分射手”,“射手-等价-狙击手”,通过匹配图谱中“等价”关系关键词得“库里;萌神库里;三分射手;狙击手”关键词集合;对于属于关系,图谱中存在“史蒂芬库里-属于-球员”,“史蒂芬库里-属于-篮球运动员”,通过匹配图谱中“属于”关系关键词得“球员;篮球运动员”,然后,模型通过篮球运动员与类目体系中的“篮球”进行匹配,得到类目体系中的类目“体育运动-球类运动-篮球”的得分为3,且在所有类目中最高。因此可以得到该文本的标注类目为“体育运动-球类运动-篮球”。
步骤5052:基于所述文本处理模型中的类目标注网络,通过所述关键词知识图谱,对所述待处理文本进行编码与加权平均处理。
步骤5053:根据所述文本关键词和所述类目关键词的相关度,触发与所述类目标注网络相对应的先验知识。
步骤5054:根据与所述类目标注网络相对应的先验知识,对经过编码与加权平均处理的待处理文本的文本类目进行标注。
参见图7,图7为本发明实施例提供的文本类目标注方法一个可选的流程示意图,可以理解地,图7所示的步骤可以由运行文本类目标注装置的各种电子设备执行,例如可以是如带有文本类目标注功能的专用终端、带有文本处理文本类目标注功能的服务器或者服务器集群。下面针对图7示出的步骤进行说明。
步骤5055:基于所述文本处理模型中的类目标注网络,确定所述待处理文本中的关键词。
步骤5056:基于所述文本处理模型中的类目标注网络,根据与所述类目标注网络相对应的先验知识,确定所述待处理文本中的每一个关键词和相应类目关键词的相关度。
步骤5057:对所述待处理文本中的每一个关键词和相应类目关键词的相关度进行排序。
步骤5058:根据所述待处理文本中的每一个关键词和相应类目关键词的相关度的排序结果,确定所述待处理文本的文本类目标注结果。其中,可以根据预设值,选取排序结果中正序第一位的结果作为所述待处理文本的文本类目标注结果。
下面根据具体的使用场景,对本发明实施例所提供的文本类目标注方法进行说明,其中,在真实的文本分类业务场景中,文本对应的类目体系往往是多层级、丰富且复杂的。传统的处理方式是通过人工标注数据,根据标注好的数据训练分类器学习数据的特征,然后把学习好的分类器应用到未标记的数据中。这种方法在存在大量标注样本情况下能达到较好的分类效果。但是这一过程中,对于真实业务场景中出现的大量复杂多层级类目,标注人员需要在完全理解全部复杂层级类目情况下进行数据标注,同时他们需要标注大量数据。如此费时费力,还容易出现大量标注结果不准确的情况。
现有文本类目标注方法主要分两大方向:有监督学习方法和无监督学习方法。常见的有监督方法有支持向量机、集成学习方法和神经网络等。常见的无监督学习方法主要有无监督聚类方法(K-means、层次聚类等)。基于有监督方法的文本类目标注方法的主要思想是首先人工标注大量训练数据。对于中文文本,先对文本进行分词(部分神经网络模型可以不分词)。将文本经过分词得到的关键词表示成向量,对于支持向量机和集成学习方法,关键词对应的向量通常为高维稀疏的向量,即向量的很多位置的值都为0,而神经网络的关键词向量为稠密向量。它们通过复杂的非线性变换找到文本关键词集合和文本对应标签之间的关系,也就是模型训练。最后将这些模型应用到不带标签的数据中,对不带标签数据进行标签预测。基于无监督方法的文本类目标注方法的主要思想是将文本分词后用稀疏的向量进行表示,然后计算文本之间的相似度,找到每条数据所属的距离最相近的簇,不断迭代直至满足程序终止条件。聚类结果的簇的数量通常由用户指定。
上述传统技术方案主要存在以下缺陷,即:
1)传统的有监督训练方法不能实现跨领域的学习,其中,有监督方法仅能够在具体的细分领域学习独立的模型,当领域切换时,必须重新训练模型学习新领域中的数据特征,例如,生物医学领域的文本分类模型与新闻文本的分类模型有很大的差别(其作为先验知识的文本关键词—类目关键词—后验概率可能完全不同)。在新闻文本数据上训练的模型运用到生物医学文本中会出现大量的类目标注错误,这使得领域切换频繁的真实业务场景中传统的有监督训练方法的错误率远高出可以适配的错误率阈值。
2)传统的人工标注训练样本耗费大量的人力和财力。在真实业务场景中,实际需要的类目体系通常复杂多样,比如对于不同电影,相应的层级类目有“娱乐—电影—灾难电影”、“娱乐—电影—科幻电影”和“娱乐—电影—剧情电影”等。对于复杂的多层级类目(真实业务场景中类目数量包含几百甚至上千类目),标注的人员需要具备各个细分领域的知识,确保准确地对数据进行标注。同时,基于有监督方法的训练需要大量训练数据,训练数据不足将导致模型效果差,无法满足业务需求。
3)传统的基于无监督文本类目标注方法效果不佳。基于无监督类目标注的方法能够很好地解决人工标注训练数据的问题。但是,仅仅从数据本身出发,计算文本之间的相似度,经过不断迭代形成多个不同的簇,在实际的业务场景中效果不佳,因为它不能获取除了文本相似度之外的信息。比如无监督方法不能预先获取“独立日”属于科幻电影的知识,或者,“非诚勿扰”属于电视娱乐节目的知识。
综上所述,现有的文本类目标注方法,由于上述的种种问题,无法真正满足真实业务场景中复杂多层级类目的文本类目标注需要,也存在着仅能够在具体的细分领域学习独立的模型,当领域切换时,必须重新训练模型学习新领域中的数据特征的缺陷。
下面对本发明实施例所提供的文本类目标注方法进行说明,参考图8和图9,图8为本发明实施例中文本类目标注方法的数据结构示意图,其中,可以由当前用户输入带标签的中文文本数据和相应的类目体系,对所输入的文本进行文本分词和文本去停用词的处理;对输入的类目体系处理层级类目,生成类目关键词;之后由后验概率生成概率知识并保存在数据库中,以利用相关概率知识进行文本类目标注。
图9为本发明实施例中文本类目标注方法一个可选的的过程示意图,可以理解地,图9所示的步骤可以由运行文本类目标注装置的各种电子设备执行,例如可以是如带有文本类目标注功能的专用终端、带有文本处理文本类目标注功能的服务器或者服务器集群。下面针对图9示出的步骤进行说明,具体包括:
步骤901:服务器对文本进行分词和去停用词处理。
其中,与英文直接将空格作为词之间的间隔不同,对于中文文本,相应的需要对中文文本进行分词,因为在汉语里面词语才能包含完整的信息。相应的使用中文分词工具Jieba对中文文本进行分词。另外,相应的需要对分词后的关键词集合去停用词处理,因为类似“是的”,“可以”这类词语对于相应的的类目标注任务没有信息帮助。比如对于文本“是的,我喜欢哈士奇”,分词,去停用词得到“喜欢/哈士奇”(使用/作为分隔符,以下相同)两个关键词组成的集合。
步骤902:服务器处理层级类目生成类目关键词。
其中,对于每个层级类目,相应的需要通过字符串替换提取层级类目对应的名称作为类目关键词。比如类目“娱乐—电影—灾难电影”,经过处理生成“娱乐/电影/灾难电影”三个类目关键词组成的集合。
步骤903:服务器通过后验概率计算带标签文本分词后关键词到类目关键词的相关概率知识。
具体的,首先,相应的计算文本关键词到每个类目的相关概率。然后对于类目中包含的类目关键词,相应的取文本关键词到类目关键词概率=文本关键词到类目概率。其中,相关概率计算公式:关键词ki到类目关键词的相关概率=关键词ki所在类目中ki出现的次数与ki在全部数据中出现的次数的比值。比如文本关键词“二哈”在类目“宠物—狗—哈士奇”(对应类目关键词集合为“宠物/狗/哈士奇”)中出现了9次,在全部的数据中文本关键词“二哈”出现了10次。通过上述公式计算得三条文本关键词“二哈”与类目关键词的相关概率知识:“二哈—宠物—0.9”,“二哈—狗—0.9”,“二哈—哈士奇—0.9”。相应的将得到的全部的三元组保存到计算机数据库表中的“keyword—cateword—confidence”三个对应列中。
步骤904:服务器利用关键词之间的相关概率知识进行文本类目标注。
其中,利用步骤903统计处理后保存的知识计算每个文本关键词到类目关键词的相关度得分,从而获取文本到类目的得分,对全部类目得分进行排序,取得分TOPN的类目作为文本类目标注结果。比如,文本“可爱的二哈”,经过分词和去停用词后得到文本关键词集合“可爱/二哈”。文本关键词“可爱”在相应的的知识中有“可爱—宠物—0.6”,“可爱—狗—0.4”,“可爱—哈士奇—0.3”,“可爱—猫—0.4”,“可爱—柴犬—0.4”,“可爱—波斯猫—0.3”等。文本关键词“二哈”在相应的的知识库中有“二哈—宠物—0.9”,“二哈—狗—0.9”,“二哈—哈士奇—0.9”,“二哈—猫—0.1”,“二哈—波斯猫—0.06”,“二哈—柴犬—0.2”。因此文本关键词集合“可爱/二哈”到类目“宠物—狗—哈士奇”的得分为:
“可爱—宠物”+“可爱—狗”+“可爱—哈士奇”+“二哈—宠物”+“二哈—狗”+“二哈—哈士奇”=0.6+0.4+0.3+0.9+0.9+0.9=4。
文本关键词集合“可爱/二哈”到类目“宠物—狗—柴犬”的得分为:
“可爱—宠物”+“可爱—狗”+“可爱—柴犬”+“二哈—宠物”+“二哈—狗”+“二哈—柴犬”=0.6+0.4+0.4+0.9+0.9+0.2=3.4。
文本关键词集合“可爱/二哈”到类目“宠物—猫—波斯猫”的得分为:
“可爱—宠物”+“可爱—猫”+“可爱—波斯猫”+“二哈—宠物”+“二哈—猫”+“二哈—波斯猫”=0.6+0.4+0.3+0.9+0.1+0.06=2.36。
具体参照表一;
表一
步骤905:计算“可爱/二哈”到全部类目的得分后排序取TOPN得到其标注的结果,本实施例中中取TOP1为类目“宠物—狗—哈士奇”,由此,确定相应的文本的类目标注结果。
继续参考图10,图10为本发明实施例中文本类目标注方法的使用环境示意图,其中,结合前序图9所示的处理过程,首先通过分词处理,计算每个文本关键词到标签对应类目关键词的后验概率。相应的将得到的“文本关键词—类目关键词—后验概率”作为先验知识存储到计算机数据库表格的对应“keyword,cateword,confidence”三列中。在对文本进行类目标注时,相应的只需要计算文本分词后的关键词集合到层级类目关键词集合相关度得分,选取得分TOPN类目即可确定相应的文本的类目标注结果。对于容易获取到文本对应类目的数据源,比如电商商品描述(可以直接获取商品所属类目),相应的可以通过上述的知识获取方法积累类目关键词相关知识。通过循环积累高质量的相关概率知识,最终可以实现利用知识进行无监督的文本类目标注。对于新领域,相应的只需要少量训练数据,即可高效提高真实业务场景中文文本到类目的标注准确率,避免了传统技术中基于有监督方法的训练需要大量训练数据,训练数据不足将导致模型效果差,无法满足业务需求的缺陷。
通过本实施例所提供的文本类目标注方法,使用1万条训练数据生成相关概率知识,在1万条测试集上,基于相关概率知识的半监督文本类目标注方法应用于文本分类问题,测试准确率为84.3%,应用于文本标注问题,测试准确率为87.2%。
有益技术效果:
通过获取目标文本,并对所述目标文本进行分词处理,形成分词处理结果;响应于所述分词处理结果,对所述目标文本进行去停用词处理,以形成与所述目标文本相匹配的文本关键词;通过文本处理模型中的类目标注网络,对与所述目标文本相匹配的层级类目进行处理,以形成与所述层级类目对应的类目关键词;对所述文本关键词和所述类目关键词进行处理,以确定所述文本关键词和所述类目关键词的相关度;通过文本处理模型中的类目标注网络,根据所述文本关键词和所述类目关键词的相关度,对获取的待处理文本的文本类目进行标注。这一过程,不但可以在不具有任何所属类目已知的文本的情况下,由运行计算机设备通过基于文本关键词和所述类目关键词的相关度的方式确定任何文本所属的类目,对文本类目进行标注,而且节省了传统方式中人工标注类目的环节,节省了人力成本,减少了确定待处理文本所属的类目的质量对人工标注的质量的依赖性,提升文本类目标注的准确性与通用性。
以上所述,仅为本发明的实施例而已,并非用于限定本发明的保护范围,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (14)
1.一种文本类目标注方法,其特征在于,所述方法包括:
获取目标文本,并对所述目标文本进行分词处理,形成分词处理结果;
响应于所述分词处理结果,对所述目标文本进行去停用词处理,以形成与所述目标文本相匹配的文本关键词;
通过文本处理模型中的类目标注网络,对与所述目标文本相匹配的层级类目进行处理,以形成与所述层级类目对应的类目关键词;
对所述文本关键词和所述类目关键词进行处理,以确定所述文本关键词和所述类目关键词的相关度;
基于所述文本处理模型中的类目标注网络,通过与所述文本处理模型的使用环境相匹配的关键词知识图谱,对待处理文本进行编码与加权平均处理;
根据所述文本关键词和所述类目关键词的相关度,触发与所述类目标注网络相对应的先验知识;
根据与所述类目标注网络相对应的先验知识,对经过编码与加权平均处理的待处理文本的文本类目进行标注。
2.根据权利要求1所述的方法,其特征在于,所述对所述目标文本进行分词处理,形成分词处理结果;包括:
确定与所述文本处理模型的使用环境相匹配的动态噪声阈值;
根据所述动态噪声阈值对所述目标文本集合进行去噪处理,并触发与所述动态噪声阈值相匹配的第一分词策略;
根据与所述动态噪声阈值相匹配的第一分词策略,对所述目标文本进行分词处理,形成分词处理结果。
3.根据权利要求1所述的方法,其特征在于,所述对所述目标文本进行分词处理,形成分词处理结果;包括:
确定与所述文本处理模型相对应的固定噪声阈值;
根据所述固定噪声阈值对所述目标文本集合进行去噪处理,并触发与所述固定噪声阈值相匹配的第二分词策略;
根据与所述固定噪声阈值相匹配的第二分词策略,对所述目标文本进行分词处理,形成分词处理结果。
4.根据权利要求1所述的方法,其特征在于,所述通过文本处理模型中的类目标注网络,对与所述目标文本相匹配的层级类目进行处理,以形成与所述层级类目对应的类目关键词,包括:
通过文本处理模型中的类目标注网络,确定与所述目标文本相匹配的层级类目;
通过文本处理模型中的类目标注网络,对与所述目标文本相匹配的层级类目进行字符串替换与提取处理,以形成至少一个类目关键词集合,其中,所述至少一个类目关键词集合包括相应层级类目对应的类目关键词。
5.根据权利要求1所述的方法,其特征在于,所述对所述文本关键词和所述类目关键词进行处理,以确定所述文本关键词和所述类目关键词的相关度,包括:
基于与所述文本关键词相对应的文本关键词知识类目标注网络,确定所述文本关键词在所述类目关键词所对应的类目中出现的第一数量;
确定所述文本关键词在所有目标文本中所出现的第二数量;
基于与所述文本关键词相对应的文本关键词知识类目标注网络,对所述第一数量和所述第二数量进行处理,以确定所述文本关键词和所述类目关键词的相关度。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
基于与所述文本关键词相对应的文本关键词知识类目标注网络,将所述文本关键词和所述类目关键词的相关度转换为所述类目关键词的后验概率;
确定所述文本关键词、所述类目关键词和所述后验概率的映射关系;
基于与所述文本关键词相对应的文本关键词知识类目标注网络,将所述文本关键词、所述类目关键词和所述后验概率的映射关系,转换为与所述文本处理模型中的类目标注网络相对应的先验知识。
7.根据权利要求1所述的方法,其特征在于,所述根据与所述类目标注网络相对应的先验知识,对经过编码与加权平均处理的待处理文本的文本类目进行标注,包括:
基于所述文本处理模型中的类目标注网络,确定所述待处理文本中的关键词;
基于所述文本处理模型中的类目标注网络,根据与所述类目标注网络相对应的先验知识,确定所述待处理文本中的每一个关键词和相应类目关键词的相关度;
对所述待处理文本中的每一个关键词和相应类目关键词的相关度进行排序;
根据所述待处理文本中的每一个关键词和相应类目关键词的相关度的排序结果,确定所述待处理文本的文本类目标注结果。
8.一种文本类目标注装置,其特征在于,所述装置包括:
信息传输模块,用于获取目标文本;
信息处理模块,用于对所述目标文本进行分词处理,形成分词处理结果;
所述信息处理模块,用于响应于所述分词处理结果,对所述目标文本进行去停用词处理,以形成与所述目标文本相匹配的文本关键词;
所述信息处理模块,用于通过文本处理模型中的类目标注网络,对与所述目标文本相匹配的层级类目进行处理,以形成与所述层级类目对应的类目关键词;
所述信息处理模块,用于对所述文本关键词和所述类目关键词进行处理,以确定所述文本关键词和所述类目关键词的相关度;
所述信息处理模块,用于基于所述文本处理模型中的类目标注网络,通过与所述文本处理模型的使用环境相匹配的关键词知识图谱,对待处理文本进行编码与加权平均处理;根据所述文本关键词和所述类目关键词的相关度,触发与所述类目标注网络相对应的先验知识;根据与所述类目标注网络相对应的先验知识,对经过编码与加权平均处理的待处理文本的文本类目进行标注。
9.根据权利要求8所述的装置,其特征在于,
所述信息处理模块,用于确定与所述文本处理模型的使用环境相匹配的动态噪声阈值;
所述信息处理模块,用于根据所述动态噪声阈值对所述目标文本集合进行去噪处理,并触发与所述动态噪声阈值相匹配的第一分词策略;
所述信息处理模块,用于根据与所述动态噪声阈值相匹配的第一分词策略,对所述目标文本进行分词处理,形成分词处理结果。
10.根据权利要求8所述的装置,其特征在于,
所述信息处理模块,用于确定与所述文本处理模型相对应的固定噪声阈值;
所述信息处理模块,用于根据所述固定噪声阈值对所述目标文本集合进行去噪处理,并触发与所述固定噪声阈值相匹配的第二分词策略;
所述信息处理模块,用于根据与所述固定噪声阈值相匹配的第二分词策略,对所述目标文本进行分词处理,形成分词处理结果。
11.根据权利要求8所述的装置,其特征在于,
所述信息处理模块,用于通过文本处理模型中的类目标注网络,确定与所述目标文本相匹配的层级类目;
所述信息处理模块,用于通过文本处理模型中的类目标注网络,对与所述目标文本相匹配的层级类目进行字符串替换与提取处理,以形成至少一个类目关键词集合,其中,所述至少一个类目关键词集合包括相应层级类目对应的类目关键词。
12.根据权利要求8所述的装置,其特征在于,
所述信息处理模块,用于确定所述文本关键词在所述类目关键词所对应的类目中出现的第一数量;
所述信息处理模块,用于确定所述文本关键词在所有目标文本中所出现的第二数量;
所述信息处理模块,用于基于与所述文本关键词相对应的文本关键词知识类目标注网络,对所述第一数量和所述第二数量进行处理,以确定所述文本关键词和所述类目关键词的相关度。
13.一种电子设备,其特征在于,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于运行所述存储器存储的可执行指令时,实现权利要求1至7任一项所述的文本类目标注方法。
14.一种计算机可读存储介质,存储有可执行指令,其特征在于,所述可执行指令被处理器执行时实现权利要求1至7任一项所述的文本类目标注方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911122451.1A CN110941958B (zh) | 2019-11-15 | 2019-11-15 | 一种文本类目标注方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911122451.1A CN110941958B (zh) | 2019-11-15 | 2019-11-15 | 一种文本类目标注方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110941958A CN110941958A (zh) | 2020-03-31 |
CN110941958B true CN110941958B (zh) | 2024-09-03 |
Family
ID=69907693
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911122451.1A Active CN110941958B (zh) | 2019-11-15 | 2019-11-15 | 一种文本类目标注方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110941958B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111488459B (zh) * | 2020-04-15 | 2022-07-22 | 焦点科技股份有限公司 | 一种基于关键词的产品分类方法 |
CN112487162B (zh) * | 2020-11-25 | 2024-09-03 | 腾讯音乐娱乐科技(深圳)有限公司 | 确定文本语义信息的方法、装置、设备以及存储介质 |
CN113761192B (zh) * | 2021-05-18 | 2024-05-28 | 腾讯云计算(北京)有限责任公司 | 文本处理方法、文本处理装置及文本处理设备 |
CN114860892B (zh) * | 2022-07-06 | 2022-09-06 | 腾讯科技(深圳)有限公司 | 层次类目预测方法、装置、设备和介质 |
CN118312619B (zh) * | 2024-06-05 | 2024-09-06 | 暨南大学 | 基于无监督特征聚类的突发热点事件检测方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109740152A (zh) * | 2018-12-25 | 2019-05-10 | 腾讯科技(深圳)有限公司 | 文本类目的确定方法、装置、存储介质和计算机设备 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7356461B1 (en) * | 2002-01-14 | 2008-04-08 | Nstein Technologies Inc. | Text categorization method and apparatus |
US20110112824A1 (en) * | 2009-11-06 | 2011-05-12 | Craig Peter Sayers | Determining at least one category path for identifying input text |
JP5526199B2 (ja) * | 2012-08-22 | 2014-06-18 | 株式会社東芝 | 文書分類装置および文書分類処理プログラム |
CN105808526B (zh) * | 2016-03-30 | 2019-07-30 | 北京京东尚科信息技术有限公司 | 商品短文本核心词提取方法和装置 |
CN106126734B (zh) * | 2016-07-04 | 2019-06-28 | 北京奇艺世纪科技有限公司 | 文档的分类方法和装置 |
CN107168992A (zh) * | 2017-03-29 | 2017-09-15 | 北京百度网讯科技有限公司 | 基于人工智能的文章分类方法及装置、设备与可读介质 |
CN108334610A (zh) * | 2018-02-06 | 2018-07-27 | 北京神州泰岳软件股份有限公司 | 一种新闻文本分类方法、装置及服务器 |
-
2019
- 2019-11-15 CN CN201911122451.1A patent/CN110941958B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109740152A (zh) * | 2018-12-25 | 2019-05-10 | 腾讯科技(深圳)有限公司 | 文本类目的确定方法、装置、存储介质和计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110941958A (zh) | 2020-03-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110597961B (zh) | 一种文本类目标注方法、装置、电子设备及存储介质 | |
CN111753060B (zh) | 信息检索方法、装置、设备及计算机可读存储介质 | |
CN110941958B (zh) | 一种文本类目标注方法、装置、电子设备及存储介质 | |
CN111324769B (zh) | 视频信息处理模型的训练方法、视频信息处理方法及装置 | |
CN112819023B (zh) | 样本集的获取方法、装置、计算机设备和存储介质 | |
CN113672708B (zh) | 语言模型训练方法、问答对生成方法、装置及设备 | |
CN110704601A (zh) | 利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法 | |
CN112749274B (zh) | 基于注意力机制和干扰词删除的中文文本分类方法 | |
Nasim et al. | Sentiment analysis on Urdu tweets using Markov chains | |
CN109086265A (zh) | 一种语义训练方法、短文本中多语义词消歧方法 | |
CN113282729B (zh) | 基于知识图谱的问答方法及装置 | |
CN115495555A (zh) | 一种基于深度学习的文献检索方法和系统 | |
CN111898704B (zh) | 对内容样本进行聚类的方法和装置 | |
Patel et al. | Dynamic lexicon generation for natural scene images | |
CN113961666A (zh) | 关键词识别方法、装置、设备、介质及计算机程序产品 | |
WO2023134085A1 (zh) | 问题答案的预测方法、预测装置、电子设备、存储介质 | |
CN113934835B (zh) | 结合关键词和语义理解表征的检索式回复对话方法及系统 | |
CN113704434A (zh) | 知识库问答方法、电子设备及可读存储介质 | |
US8214310B2 (en) | Cross descriptor learning system, method and program product therefor | |
CN117217277A (zh) | 语言模型的预训练方法、装置、设备、存储介质及产品 | |
Li et al. | BERTtoCNN: Similarity-preserving enhanced knowledge distillation for stance detection | |
CN113486143A (zh) | 一种基于多层级文本表示及模型融合的用户画像生成方法 | |
CN117216617A (zh) | 文本分类模型训练方法、装置、计算机设备和存储介质 | |
CN112446206A (zh) | 一种菜谱标题的生成方法及装置 | |
CN115827871A (zh) | 互联网企业分类的方法、装置和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40021972 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |