CN115858781A - 一种文本标签提取方法、装置、设备及介质 - Google Patents

一种文本标签提取方法、装置、设备及介质 Download PDF

Info

Publication number
CN115858781A
CN115858781A CN202211511147.8A CN202211511147A CN115858781A CN 115858781 A CN115858781 A CN 115858781A CN 202211511147 A CN202211511147 A CN 202211511147A CN 115858781 A CN115858781 A CN 115858781A
Authority
CN
China
Prior art keywords
service
label
word
corpus
labels
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211511147.8A
Other languages
English (en)
Inventor
谭瑞
罗咏刚
杨俱成
胡小琼
单玉梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Changan Automobile Co Ltd
Original Assignee
Chongqing Changan Automobile Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Changan Automobile Co Ltd filed Critical Chongqing Changan Automobile Co Ltd
Priority to CN202211511147.8A priority Critical patent/CN115858781A/zh
Publication of CN115858781A publication Critical patent/CN115858781A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本申请涉及一种文本标签提取方法、装置、设备及介质,其中,方法包括:获取若干业务语料,根据业务词典对业务语料进行分词处理,得到业务分词;调用语言模型根据相邻词间的搭配信息,对业务分词进行长词组合,得到长词语料;筛选出长词语料中的专业高频词,添加至业务词典,作为更新业务词典;基于更新业务词典对业务语料进行标签提取,并将提取得到的标签集中的高相关性标签添加至业务标签库,以便调用打标模型基于业务标签库对待识别文本进行标签提取,得到文本标签。由此,可结合语言模型根据相邻词间的搭配信息提高专业长词的召回率,保证业务词典的专业性以及全面性,从而可以保证专业长词的有效标签提取。

Description

一种文本标签提取方法、装置、设备及介质
技术领域
本申请涉及自然语言处理技术领域,特别涉及一种文本标签提取方法、装置、设备及介质。
背景技术
随着信息技术的不断发展,各领域产出的信息量都在持续增长,比如汽车智能驾舱软件测试环节中每个环节都会产生大量的测试描述以及测试结果信息。因此如何在海量的信息当中,快速并准确的提取关键核心信息是一个重要的问题。
目前普遍通过文本标签提取来解决这一问题,用标签对文本所表达的核心思想进行描述,以便于文本分类、挖掘,使用户能够方便、快捷的了解事物的重要信息,提高信息访问的效率。如何高效率的从业务文本数据中抽取垂直领域标签,并基于标签对业务数据进行归类和分析对于后续的文本处理显得越来越重要。然而在常用的标签提取方法中对于专业长词无法实现有效抽取,亟待解决。
发明内容
本申请提供一种文本标签提取方法、装置、设备及介质,解决了相关技术中标签提取中对于专业长词无法实现有效抽取的问题,可结合语言模型根据相邻词间的搭配信息提高专业长词的召回率,保证业务词典的专业性以及全面性,从而可以保证专业长词的有效标签提取。
本申请第一方面实施例提供一种文本标签提取方法,包括以下步骤:
获取若干业务语料,根据业务词典对所述业务语料进行分词处理,得到业务分词;调用语言模型根据相邻词间的搭配信息,对所述业务分词进行长词组合,得到长词语料;筛选出所述长词语料中的专业高频词,添加至所述业务词典,作为更新业务词典;基于所述更新业务词典对所述业务语料进行标签提取,并将提取得到的标签集中的高相关性标签添加至业务标签库,以便调用打标模型基于所述业务标签库对所述待识别文本进行标签提取,得到文本标签。
根据上述技术手段,本申请实施例可以在通过对业务语料进行分词处理得到业务分词后,进一步调用语言模型对业务分析进行专用长词的组合,提高专业长词的召回率,得到的专业长词/组合词的语料增加至业务词典中,保证业务词典的专业性以及全面性,则基于更新后的业务词典针对业务语料进行标签提取时可以有效针对语料中的专业长词进行针对性的标签提取,将提取得到的标签集中的高相关性标签添加至业务标签库,可以实现专业长词对应的标签的添加,提升对专业标签的召回率,保证针对待识别文本中专业长词的有效标签提取。
进一步,所述调用语言模型根据相邻词间的搭配信息,对所述业务分词进行长词组合,包括:调用预训练的Bi-gram模型调用语言模型根据相邻词间的搭配信息,对所述业务分词进行长词组合,作为第一组合词;调用预训练的Three-gram模型调用语言模型根据相邻词间的搭配信息,对所述业务分词进行长词组合,作为第二组合词;统计所述第一组合词和所述第二组合词,作为所述长词语料。
根据上述技术手段,可以避免语料长度过长对于标签提取造成的精准度影响,又可以丰富长词语料的类型和数量,从而提高组合词的召回率。
进一步,所述基于所述更新业务词典对所述业务语料进行标签提取,包括:对所述业务语料进行去停用词处理后,根据所述更新业务词典进行分词处理,得到包含更新分词的若干语料文档;根据所述语料文档确定语料类别,并调用LDA模型评估各所述语料类别下所述更新分词对标签的表征概率;筛选出所述表征概率超过表征阈值的标签,作为所述高相关性标签添加至所述业务标签库中。
根据上述技术手段,采用LDA结合词向量的方式可以提高标签抽取的泛化能力。
进一步,所述筛选出所述长词语料中的专业高频词,包括:基于词频和字符数计算各所述长词语料的出现频数;筛选出所述出现频数达到高频阈值的长词语料,作为所述专业高频词。
根据上述技术手段,可以基于词频和字符数进行计算考虑到总词量与字符长度之间的关系,可以适应不同的词量实现精准度量。
进一步,在所述基于所述更新业务词典对所述业务语料进行标签提取之后,还包括:调用预训练的CBOW模型计算第一标签与第二标签间的相似度;其中,所述第一标签为所述高相关性标签,所述第二标签为所述标签集中的非高相关性标签;筛选出相似度超过相似阈值的所述第二标签,并添加至所述业务标签库。
根据上述技术手段,采用词向量的余弦相似度计算标签之间的相似度,并召回相似度大于给定阈值的标签,可以召回更多在字符上差异较大但在语义上相似的标签,丰富标签库。
进一步,还包括:将所述第二标签存入后台数据库;其中,所述第二标签为所述标签集中的非高相关性标签;根据所述后台数据库中的标签对所述打标模型进行定期更新。
根据上述技术手段,可以实现提升打标模型的覆盖率。
本申请第二方面实施例提供一种文本标签提取方法,包括以下步骤:接收待识别文本;调用打标模型基于业务标签库对所述待识别文本进行标签提取,得到文本标签;其中,所述业务标签库为基于更新业务词典对业务语料进行标签提取后,进行高相关性标签添加后得到;所述更新业务词典为调用语言模型根据相邻词间的搭配信息,对业务分词进行长词组合后,筛选出组合后的长词语料中的专业高频词添加至所述业务词典后生成;其中,所述业务分词为调用业务词典对所述业务语料进行分词处理得到。
进一步,所述调用打标模型基于所述业务标签库对所述待识别文本进行标签提取,包括:基于所述业务标签库,调用预训练的AC自动机对所述待识别文本进行标签提取。
根据上述技术手段,通过调用AC自动机进行标签提取可以极大的提高业务标签的提取效率,同时可以实现业务标签半自动提取。
本申请第三方面实施例提供一种离线文本标签提取装置,包括:分词模块,用于获取若干业务语料,根据业务词典对所述业务语料进行分词处理,得到业务分词;组合模块,用于调用语言模型根据相邻词间的搭配信息,对所述业务分词进行长词组合,得到长词语料;更新模块,用于筛选出所述长词语料中的专业高频词,添加至所述业务词典,作为更新业务词典;标签模块,用于基于所述更新业务词典对所述业务语料进行标签提取,并将提取得到的标签集中的高相关性标签添加至业务标签库,以便调用打标模型基于所述业务标签库对所述待识别文本进行标签提取,得到文本标签。
进一步,所述组合模块,具体包括:第一组合子模块,用于调用预训练的Bi-gram模型调用语言模型根据相邻词间的搭配信息,对所述业务分词进行长词组合,作为第一组合词;第二组合子模块,用于调用预训练的Three-gram模型调用语言模型根据相邻词间的搭配信息,对所述业务分词进行长词组合,作为第二组合词;统计子模块,用于统计所述第一组合词和所述第二组合词,作为所述长词语料。
进一步,所述标签模块,具体包括:更新分词子模块,用于对所述业务语料进行去停用词处理后,根据所述更新业务词典进行分词处理,得到包含更新分词的若干语料文档;表征评估子模块,用于根据所述语料文档确定语料类别,并调用LDA模型评估各所述语料类别下所述更新分词对标签的表征概率;标签筛选子模块,用于筛选出所述表征概率超过表征阈值的标签,作为所述高相关性标签添加至所述业务标签库中。
进一步,所述更新模块,具体包括:频数计算子模块,用于基于词频和字符数计算各所述长词语料的出现频数;频数筛选子模块,用于筛选出所述出现频数达到高频阈值的长词语料,作为所述专业高频词。
进一步,上述文本标签提取装置,还包括连接于所述标签模块输出端的标签召回模块;所述标签召回模块,具体用于:调用预训练的CBOW模型计算第一标签与第二标签间的相似度;其中,所述第一标签为所述高相关性标签,所述第二标签为所述标签集中的非高相关性标签;筛选出相似度超过相似阈值的所述第二标签,并添加至所述业务标签库。
进一步,上述文本标签提取装置,还包括回溯模块;所述回溯模块包括:标签存储子模块,用于将所述第二标签存入后台数据库;其中,所述第二标签为所述标签集中的非高相关性标签;标签更新子模块,用于根据所述后台数据库中的标签对所述打标模型进行定期更新。
本申请第四方面实施例提供一种在线文本标签提取装置,包括:接收模块,用于接收待识别文本;提取模块,用于调用打标模型基于业务标签库对所述待识别文本进行标签提取,得到文本标签;其中,所述业务标签库为基于更新业务词典对业务语料进行标签提取后,进行高相关性标签添加后得到;所述更新业务词典为调用语言模型根据相邻词间的搭配信息,对业务分词进行长词组合后,筛选出组合后的长词语料中的专业高频词添加至所述业务词典后生成;其中,所述业务分词为调用业务词典对所述业务语料进行分词处理得到。
进一步,所述提取模块,具体为:自动机提取模块;所述自动机提取模块,用于基于所述业务标签库,调用预训练的AC自动机对所述待识别文本进行标签提取。
本申请第五方面实施例提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如上述实施例所述的在线的文本标签提取方法和/或离线的文本标签提取方法。
本申请第六方面实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上述实施例所述的在线的文本标签提取方法和/或离线的文本标签提取方法。
本申请实施例可以在通过对业务语料进行分词处理得到业务分词后,进一步调用语言模型对业务分析进行专用长词的组合,提高专业长词的召回率,得到的专业长词/组合词的语料增加至业务词典中,保证业务词典的专业性以及全面性,则基于更新后的业务词典针对业务语料进行标签提取时可以有效针对语料中的专业长词进行针对性的标签提取,将提取得到的标签集中的高相关性标签添加至业务标签库,可以实现专业长词对应的标签的添加,提升对专业标签的召回率,保证针对待识别文本中专业长词的有效标签提取。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本申请实施例提供的一种文本标签提取方法的流程图;
图2为根据本申请一个实施例的LDA模型标签提取流程示意图;
图3为根据本申请一个实施例的标签相似度计算流程示意图;
图4为根据本申请一个实施例的CBOW模型结构示意图;
图5为根据本申请一个实施例的词向量模型架构图;
图6为根据本申请一个实施例的分词和词频统计流程示意图;
图7为根据本申请实施例的离线文本标签提取装置的示意图;
图8为根据本申请实施例的在线文本标签提取装置的示意图;
图9为根据本申请实施例的电子设备的示例图。
具体实施方式
下面详细描述本申请的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的文本标签提取方法、装置、设备及介质。针对上述背景技术中心提到的对于专业长词无法实现有效抽取的问题,本申请提供了一种文本标签提取方法,在该方法中,可以在通过对业务语料进行分词处理得到业务分词后,进一步调用语言模型对业务分析进行专用长词的组合,提高专业长词的召回率,得到的专业长词/组合词的语料增加至业务词典中,保证业务词典的专业性以及全面性,则基于更新后的业务词典针对业务语料进行标签提取时可以有效针对语料中的专业长词进行针对性的标签提取,将提取得到的标签集中的高相关性标签添加至业务标签库,可以实现专业长词对应的标签的添加,提升对专业标签的召回率,保证针对待识别文本中专业长词的有效标签提取。
本申请提供一种文本标签的提取方法,该方法包括离线处理部分以及在线提取部分,为加深理解,本实施例中统一进行介绍。图1为本申请实施例所提供的一种文本标签提取方法的流程示意图。
如图1所示,该文本标签提取方法包括以下步骤:
步骤S101、获取若干业务语料,根据业务词典对业务语料进行分词处理,得到业务分词;
采用分词模型对若干业务语料(用于文本标签提取训练)进行分词处理,对分词后的文本按文本顺序以指定分隔符分隔,比如:顿号、空格等,生成的分词本实施例中称为业务分词。其中,分词处理可以调用jieba分词模型,也可以调用ltp分词工具或者ir分词模型,本实施例中对于分词的具体处理步骤不做限定,可以参照相关现有技术。
在一些实施例中,为保证后续生成的长词语料的全面性以及丰富性,在对业务语料进行分词处理之前可以不做去停用词(指缺乏实际含义的词,例如助词、语气词等)处理。
在一些实施例中,在分词处理之后,为进一步避免与业务分类无关的高频词影响识别精准度,可以根据预定义的高频过滤词表过滤掉业务分词中行业常见的无用的高频词,比如:在汽车智能驾舱测试过程中的测试描述词“压测”、“测试”等。
步骤S102、调用语言模型根据相邻词间的搭配信息,对业务分词进行长词组合,得到长词语料;
对分词得到的所有业务分词根据相邻词间的搭配信息进行长词重组,生成新的组合词/专业长词语料,本实施例中将生成的组合词/专业长词语料称为长词语料。其中,可调用的常见语言模型(Language Model)比如N-gram模型(大词汇连续语音识别中常用的一种语言模型)、HMM模型(Hidden Markov Model,隐马尔可夫模型)等,本实施例中对此不做限定。
对业务分词进行长词组合后,生成的每个长词语料中都包含若干连续(指按照原业务语料中的顺序)的业务分词。通过对业务分词进行长词组合,在业务分词之外,可以进一步扩充长词语料数量,从而有效提高组合词的召回率,提升标签抽取的泛化能力。
在一些实施例中,可以调用N-gram模型结合统计方法抽取组合词/专业长词,具体地,步骤S102可以按照以下步骤来执行:
步骤S21、调用预训练的Bi-gram模型(一种二阶N-gram模型)调用语言模型根据相邻词间的搭配信息,对业务分词进行长词组合,作为第一组合词;
步骤S22、调用预训练的Tri-gram模型(一种三阶N-gram模型)调用语言模型根据相邻词间的搭配信息,对业务分词进行长词组合,作为第二组合词;
步骤S23、统计第一组合词和第二组合词,作为长词语料。
通过调用Bi-gram模型进行一阶相邻分词重组(指仅依赖它之前的一个词进行分词重组),同时调用Tri-gram模型进行二阶相邻分词重组(指仅依赖它之前的两个词进行分词重组),可以避免语料长度过长对于标签提取造成的精准度影响,又可以丰富长词语料的类型和数量,从而提高组合词的召回率。由于Bi-gram模型和Tri-gram模型为常见的N-gram模型,本实施例中对于其训练、模型结构以及模型原理不再赘述,均可参照相关技术。需要说明的是,本实施例中仅以S21至S23所示的步骤为例进行长词组合的介绍,其他组合方式下的实现方式均可参照本实施例的介绍,均可算作本发明的保护范围,在此不再赘述。
步骤S103、筛选出长词语料中的专业高频词,添加至业务词典,作为更新业务词典;
对组合后生成的长词语料进行词频统计,并做降序排序,根据实际情况选择前N(任意正整数)个词作为候选集,还可以进一步通过业务专家对其进行核查,根据预定义的无用高频词表对高频词中与标签分类无关的词进行过滤,过滤掉不符合业务的复合词,生成专业高频词。将专业高频词添加至业务词典中,本实施例中将添加后的业务词典称为“更新业务词典”,以区分添加前的业务词典。将更新业务词典加载至分词工具的自定义词典,以便分词工具调用自定义词典用于对组合词/专业长词进行分隔。需要说明的是,分词工具调用的词典包括但不限于自定义词典,且自定义词典包括但不限于专业高频词,具体可以根据实际使用需要进行词典和词的添加,在此不再赘述。
其中,筛选专业高频词需要根据词出现频数来确定,词出现频数可以单纯的统计词出现总次数,在一些基于词频和字符数进行计算的实施例中,词出现频数可以按照以下计算方式实现:
Fword=fword*Wweight,Wweight=lword 2
其中,Fword表示word词出现的频数,fword表示词word在语料中出现的频率,lword表示词word的字符长度,word词可以为任意长词语料。
基于词频和字符数进行计算考虑到总词量与字符长度之间的关系,可以适应不同的词量实现精准度量。
步骤S104、基于更新业务词典对业务语料进行标签提取,并将提取得到的标签集中的高相关性标签添加至业务标签库;
基于更新业务词典重新对每一个业务语料进行标签提取,具体可以包括:去停用词和分词操作;对分词后的每个业务语料文档采用主题学习模型学习M(任意正整数)个主题,将每个主题的高相关性关键词作为提取的标签;可以进一步辅以人工过滤去掉与业务关联不大的标签几个步骤,可以适应性进行调整,在此不做限定。其中,提取得到的高相关性标签指与对应的业务语料的相关程度高,可以更突出地表现业务语料的主题,而且对于业务语料有较大的的覆盖率的标签(或关键词),具体可以提取每个主题下Top-N(前N位)关键词作为高相关性关键词,当然,也可以根据采用的不同关键词提取方式进行适应性调整,在此不做限定。
在一些实施例中,主题学习模型可以为LDA模型(基于两个狄利克雷分布的文档生成模型),采用LDA用于提取各类别下的代表性词汇,结合词向量的方式可以提高标签抽取的泛化能力。相应地,步骤S104具体可以按照以下步骤来执行:
步骤S41、对业务语料进行去停用词处理后,根据更新业务词典进行分词处理,得到包含更新分词的若干语料文档;
重新对业务语料去停用词,去除缺乏实际含义的词,以免提取的标签中包含停用词影响主题提取效率以及主题表征准确度。当然,也可以不进行去停用词处理,本实施例中对此不做限定。
去停用词后根据更新有专业高频词的业务词典进行分词处理,可以显著提升分词精准度,在此将每个业务语料对应的分词称为更新分词,以区分更新业务词典前的分词结果。
步骤S42、根据语料文档确定语料类别,并调用LDA模型评估各语料类别下更新分词对标签的表征概率;
将表征概率作为标签与业务语料的相关性的评判标准,表征概率高意味相关性高。
步骤S43、筛选出表征概率超过表征阈值的标签,作为高相关性标签添加至业务标签库中。
LDA模型是一种文档生成模型,LDA模型理论下,一篇文章是有多个主题的,而每个主题又对应着不同的词,一篇文章的构造过程,首先是以一定的概率选择某个主题,然后在这个主题下以一定的概率选出某一个词,这样就生成了这篇文章的第一个词。不断重复这个过程,就生成了整片文章。本实施例可以利用上述文档生成的逆过程,将根据一篇得到的文章,反推这篇文章的主题,以及这些主题对应的词,作为标签。
其中,LDA模型进行标签提取的流程示意图如图2所示,其中Doc指分词后的业务语料文档,Tag指提取出来的主题(即标签)。模型的输入包括:分词后的文档集、主题数M、两个狄利克雷分布超参数α和β;输出包括:每篇文章的主题概率分布、每个主题下的词概率分布、每个主题下的词概率从低至高Top-N特征词,将Top-N特征词作为表征概率超过表征阈值的标签,添加至业务标签库中。采用LDA结合词向量的方式可以提高标签抽取的泛化能力。
具体地,LDA主题分布推导过程如下:
Figure BDA0003969118730000081
Figure BDA0003969118730000082
其中,A为文档数量,M为主题数量,α和β为两个狄利克雷分布参数,p(z|α)表示在参数为α的狄利克雷分布下的主题概率分布,p(w,z|α,β)表示在参数为α和β的狄利克雷分布下主题和主题下词的概率分布。
需要说明的是,本实施例中仅以主题学习模型为LDA模型为例进行介绍,其他模型下的实现方式均可参照上述介绍,在此不再赘述。
步骤S105、接收待识别文本;
步骤S106、调用打标模型,基于业务标签库对待识别文本进行标签提取,得到文本标签。
待识别文本为待提取标签的文本,与训练所用业务语料属同业务(或行业)文本。比如训练所用的业务语料为汽车智能驾舱软件测试环节的测试描述,则待识别文本也应为汽车智能驾舱软件测试领域的文本。
根据扩充后的业务词典训练的业务标签库,对待识别文本进行标签提取,以提升对业务数据的认知维度。由于本实施例中对于标签提取工具不做限定,不同工具下对于标签提取的步骤可能不同,因此本实施例中对此不做限定,可以根据实际使用情况进行相应的设定。
在一些实施例中,可以基于业务标签库,调用预训练的AC自动机(ACtree)对待识别文本进行标签提取。采用python的AC自动机的ahocorasick,使用AC自动机可实现自动批量匹配字符串的作用,可一次返回该条字符串中命中的所有关键词,实现业务数据标签提取。调用AC自动机解决了KMP和trie树每次匹配失败都需要进行回溯的问题,将事件复杂度优化到了o(n),其中n为字符串长度,因此调用该模型进行标签提取可以极大的提高标签提取效率;同时AC自动机为无监督模型,因此可以进一步实现业务标签半自动提取。
进一步地,在一些实施例中,在执行步骤S104基于更新业务词典对业务语料进行标签提取之后,执行步骤S106之前,还可以如图3所示执行以下步骤:
步骤S107、调用预训练的CBOW模型计算第一标签与第二标签间的相似度;
其中,第一标签指高相关性标签,第二标签指标签集中的非高相关性标签。比如标签集中包括五个标签,其中标签1和标签2被选为高相关性标签,则标签1和标签2为第一标签,标签3、标签4和标签5为第二标签,分别计算每个第一标签和其他所有第二标签之间的相似度,基于所有业务数据采用基于CBOW(连续词袋模型)的word2vector模型(指基于CBOW的词向量模型)计算所有词的词向量,通过词向量的余弦相似度计算未抽取的关键词与已抽取标签库中每一个标签的相似度,得到每个非高相关性标签与筛选出来的高相关性标签之间的相似程度。
其中,基于CBOW的word2vector模型通过给定词上下文来预测给定词的模式构建三层神经网络。所采用的CBOW模型是指通过给定窗口的上下文通过深度网络模型预测中间单词的方式,若选定的窗口长度为5,表示通过给定单词的前两个单词和后两个单词预测给定单词。其结构示意图如图4所示。
基于CBOW所采用的word2vector模型本质上是只具有一个隐含层的神经元网络。输入层(inputlayer)大小为所有单词词表的大小;隐藏层(hiddenlayer)为词向量维度,可自行设定,实验中设置为512维;输出层(outputlayer)大小为所有单词词表的大小。模型训练完成后选择输入层和隐藏层之间的隐层参数矩阵作为单词词向量矩阵。模型的结构框图如图5所示。
步骤S108、筛选出相似度超过相似阈值的第二标签,并添加至业务标签库。
相似度超过相似阈值的第二标签为与在字符上差异较大但在语义上相似的标签,将其添加至业务标签库可以解决现有技术对相关领域的标签召回率低的问题,在不增加样本数量,不改变标签提取方式的前提下,提升有效标签的数量以及表达丰富程度。
本实施例在上述步骤的基础上进一步采用词向量的余弦相似度计算标签之间的相似度,并召回相似度大于给定阈值的标签,可以召回更多在字符上差异较大但在语义上相似的标签,丰富标签库。
为进一步提升标签丰富度,在上述步骤的基础上可以进一步增加一个数据闭关机制。具体地,第二标签(未打标出来的标签)经过业务人员确认后可存入后台数据库,基于该数据库的标签,(每周)定时更新补充打标模型(比如AC自动机的trie模型),以实现逐步提高打标模块的覆盖率。
为使得本领域技术人员进一步了解本申请实施例的文本标签提取方法,下面结合具体实施例进行详细说明。
具体地,以座舱软件测试描述快速定位故障模块或子系统实例下生成的业务语料为例进行介绍,文本标签提取的过程具体包括以下步骤:
(1)收集历史所有测试工单详细描述。
一种测试工单例如:语音调节座椅通风调到最小,TTS播报有误。
(2)对收集的工单描述数据进行分词,每个工单分词后的词与词之前用空格分隔,工单与工单之间用换行符分隔,分词和词频统计流程如图6所示。
一种用空格分隔的分词例如:语音调节座椅通风调到最小,TTS播报有误。
(3)对所有语料采用Bi-gram和Three-gram分别对每一个工单的分词进行重组。
一种调用Bi-gram进行分词重组的结果例如:语音调节调节座椅座椅通风通风调调到到最小最小TTS TTS播报播报有有误
一种调用Three-gram进行分词重组的结果例如:语音调节座椅调节座椅通风座椅通风调通风调到调到最小到最小TTS最小TTS播报TTS播报有播报有误
(4)分别对Bi-gram和Three-gram组合后的结果进行词频统计,并做降序排序,根据实际情况选择前N个组合词作为候选集,并通过业务专家对其进行核查,过滤掉不符合业务的复合词,最终形成业务词典。
(5)将业务词典加载至分词模型的自定义词典,定义特有的行业词性(例如:CAR_TAG),并将该词典的分词优先级设置为最高。
(6)采用加载第(5)步业务词典的分词模型,进行第(2)步操作。
(7)基于语料内容定义语料总类别数,采用LDA模型评估对每个类别下词对主题的表征概率(其中,表征概率越大,越能体现该类别的主题)。
(8)基于所有语料,采用CBOW模型的word2vec训练行业词向量,用于计算词与词之间的相似度。
(9)基于第(7)步的结果通过业务专家筛选一批行业标签,并通过第(8)步计算每一个行业标签和其余未选中的标签间的相似度,并按相似度进行降序排序,结合业务专家进一步扩充行业标签。
(10)在已有行业标签的基础上,定期重复第(1)步至第(9)步将新增加行业标签推送至业务专家进行评审,升级维护行业标签库。
(11)基于行业标签库,采用ACtree对工单描述进行标签抽取,自动定位相关模块或子系统,实现工单的自动划分。
其次参照附图描述根据本申请实施例提出的离线文本标签提取装置。
图7是本申请实施例的离线文本标签提取装置的方框示意图。
如图7所示,该文本标签提取装置11包括:分词模块100、组合模块200、更新模块300、标签模块400。
其中,分词模块100主要用于获取若干业务语料,根据业务词典对业务语料进行分词处理,得到业务分词;
组合模块200主要用于调用语言模型根据相邻词间的搭配信息,对业务分词进行长词组合,得到长词语料;
更新模块300主要用于筛选出长词语料中的专业高频词,添加至业务词典,作为更新业务词典;
标签模块400主要用于基于更新业务词典对业务语料进行标签提取,并将提取得到的标签集中的高相关性标签添加至业务标签库,以便调用打标模型基于所述业务标签库对待识别文本进行标签提取,得到文本标签。
调用打标模型基于业务标签库对待识别文本进行标签提取进一步,在一些实施例中,组合模块200具体包括:
第一组合子模块,用于调用预训练的Bi-gram模型调用语言模型根据相邻词间的搭配信息,对业务分词进行长词组合,作为第一组合词;
第二组合子模块,用于调用预训练的Three-gram模型调用语言模型根据相邻词间的搭配信息,对业务分词进行长词组合,作为第二组合词;
统计子模块,用于统计第一组合词和第二组合词,作为长词语料。
进一步,在一些实施例中,标签模块400具体包括:
更新分词子模块,用于对业务语料进行去停用词处理后,根据更新业务词典进行分词处理,得到包含更新分词的若干语料文档;
表征评估子模块,用于根据语料文档确定语料类别,并调用LDA模型评估各语料类别下更新分词对标签的表征概率;
标签筛选子模块,用于筛选出表征概率超过表征阈值的标签,作为高相关性标签添加至业务标签库中。
进一步,在一些实施例中,更新模块300具体包括:
频数计算子模块,用于基于词频和字符数计算各长词语料的出现频数;
频数筛选子模块,用于筛选出出现频数达到高频阈值的长词语料,作为专业高频词。
进一步,在一些实施例中,文本标签提取装置中还包括连接于标签模块输出端的标签召回模块;
标签召回模块,具体用于:调用预训练的CBOW模型计算第一标签与第二标签间的相似度;其中,第一标签为高相关性标签,第二标签为标签集中的非高相关性标签;筛选出相似度超过相似阈值的第二标签,并添加至业务标签库。
进一步,在一些实施例中,文本标签提取装置中还包括回溯模块;所述回溯模块包括:标签存储子模块,用于将所述第二标签存入后台数据库;其中,所述第二标签为所述标签集中的非高相关性标签;标签更新子模块,用于根据所述后台数据库中的标签对所述打标模型进行定期更新。
需要说明的是,前述对文本标签提取方法实施例的解释说明也适用于该实施例的文本标签提取装置,此处不再赘述。
根据本申请实施例提出的文本标签提取装置,可以在通过对业务语料进行分词处理得到业务分词后,进一步调用语言模型对业务分析进行专用长词的组合,提高专业长词的召回率,得到的专业长词/组合词的语料增加至业务词典中,保证业务词典的专业性以及全面性,则基于更新后的业务词典针对业务语料进行标签提取时可以有效针对语料中的专业长词进行针对性的标签提取,将提取得到的标签集中的高相关性标签添加至业务标签库,可以实现专业长词对应的标签的添加,提升对专业标签的召回率,保证针对待识别文本中专业长词的有效标签提取。
其次参照附图描述根据本申请实施例提出的离线文本标签提取装置。
图8是本申请实施例的在线文本标签提取装置的方框示意图。
如图8所示,该在线文本标签提取装置12包括:接收模块500以及提取模块600。
其中,接收模块500,主要用于接收待识别文本;
提取模块600,主要用于调用打标模型基于业务标签库对所述待识别文本进行标签提取,得到文本标签;其中,所述业务标签库为基于更新业务词典对业务语料进行标签提取后,进行高相关性标签添加后得到;所述更新业务词典为调用语言模型根据相邻词间的搭配信息,对业务分词进行长词组合后,筛选出组合后的长词语料中的专业高频词添加至所述业务词典后生成;其中,所述业务分词为调用业务词典对所述业务语料进行分词处理得到。
进一步,在一些实施例中,提取模块600具体为:自动机提取模块;
自动机提取模块,用于基于业务标签库,调用预训练的AC自动机对待识别文本进行标签提取。
需要说明的是,本实施例提供的在线文本标签提取装置可以参照上述实施例中介绍的离线文本标签提取装置的相关介绍,在此不再赘述。
图9为本申请实施例提供的电子设备的结构示意图。该电子设备可以包括:
存储器601、处理器602及存储在存储器601上并可在处理器602上运行的计算机程序。
处理器602执行程序时实现上述实施例中提供的文本标签提取方法。
进一步地,电子设备还包括:
通信接口603,用于存储器601和处理器602之间的通信。
存储器601,用于存放可在处理器602上运行的计算机程序。
存储器601可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
如果存储器601、处理器602和通信接口603独立实现,则通信接口603、存储器601和处理器602可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(Industry Standard Architecture,简称为ISA)总线、外部设备互连(PeripheralComponent,简称为PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture,简称为EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选地,在具体实现上,如果存储器601、处理器602及通信接口603,集成在一块芯片上实现,则存储器601、处理器602及通信接口603可以通过内部接口完成相互间的通信。
处理器602可能是一个中央处理器(Central Processing Unit,简称为CPU),或者是特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者是被配置成实施本申请实施例的一个或多个集成电路。
本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上的文本标签提取方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“N个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或N个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,N个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (18)

1.一种文本标签提取方法,其特征在于,包括以下步骤:
获取若干业务语料,根据业务词典对所述业务语料进行分词处理,得到业务分词;
调用语言模型根据相邻词间的搭配信息,对所述业务分词进行长词组合,得到长词语料;
筛选出所述长词语料中的专业高频词,添加至所述业务词典,作为更新业务词典;
基于所述更新业务词典对所述业务语料进行标签提取,并将提取得到的标签集中的高相关性标签添加至业务标签库,以便调用打标模型基于所述业务标签库对待识别文本进行标签提取,得到文本标签。
2.根据权利要求1所述的方法,其特征在于,所述调用语言模型根据相邻词间的搭配信息,对所述业务分词进行长词组合,包括:
调用预训练的Bi-gram模型调用语言模型根据相邻词间的搭配信息,对所述业务分词进行长词组合,作为第一组合词;
调用预训练的Three-gram模型调用语言模型根据相邻词间的搭配信息,对所述业务分词进行长词组合,作为第二组合词;
统计所述第一组合词和所述第二组合词,作为所述长词语料。
3.根据权利要求1所述的方法,其特征在于,所述基于所述更新业务词典对所述业务语料进行标签提取,包括:
对所述业务语料进行去停用词处理后,根据所述更新业务词典进行分词处理,得到包含更新分词的若干语料文档;
根据所述语料文档确定语料类别,并调用LDA模型评估各所述语料类别下所述更新分词对标签的表征概率;
筛选出所述表征概率超过表征阈值的标签,作为所述高相关性标签添加至所述业务标签库中。
4.根据权利要求1所述的方法,其特征在于,所述筛选出所述长词语料中的专业高频词,包括:
基于词频和字符数计算各所述长词语料的出现频数;
筛选出所述出现频数达到高频阈值的长词语料,作为所述专业高频词。
5.根据权利要求1至4任一项所述的方法,其特征在于,在所述基于所述更新业务词典对所述业务语料进行标签提取之后,还包括:
调用预训练的CBOW模型计算第一标签与第二标签间的相似度;其中,所述第一标签为所述高相关性标签,所述第二标签为所述标签集中的非高相关性标签;
筛选出相似度超过相似阈值的所述第二标签,并添加至所述业务标签库。
6.根据权利要求5所述的方法,其特征在于,还包括:
将所述第二标签存入后台数据库;其中,所述第二标签为所述标签集中的非高相关性标签;
根据所述后台数据库中的标签对所述打标模型进行定期更新。
7.一种文本标签提取方法,其特征在于,包括以下步骤:
接收待识别文本;
调用打标模型,基于业务标签库对所述待识别文本进行标签提取,得到文本标签;
其中,所述业务标签库为基于更新业务词典对业务语料进行标签提取后,进行高相关性标签添加后得到;所述更新业务词典为调用语言模型根据相邻词间的搭配信息,对业务分词进行长词组合后,筛选出组合后的长词语料中的专业高频词添加至所述业务词典后生成;其中,所述业务分词为调用业务词典对所述业务语料进行分词处理得到。
8.根据权利要求7所述的方法,其特征在于,所述调用打标模型基于所述业务标签库对所述待识别文本进行标签提取,包括:
基于所述业务标签库,调用预训练的AC自动机对所述待识别文本进行标签提取。
9.一种离线文本标签提取装置,其特征在于,包括:
分词模块,用于获取若干业务语料,根据业务词典对所述业务语料进行分词处理,得到业务分词;
组合模块,用于调用语言模型根据相邻词间的搭配信息,对所述业务分词进行长词组合,得到长词语料;
更新模块,用于筛选出所述长词语料中的专业高频词,添加至所述业务词典,作为更新业务词典;
标签模块,用于基于所述更新业务词典对所述业务语料进行标签提取,并将提取得到的标签集中的高相关性标签添加至业务标签库,以便调用打标模型基于所述业务标签库对待识别文本进行标签提取,得到文本标签。
10.根据权利要求9所述的装置,其特征在于,所述组合模块,具体包括:
第一组合子模块,用于调用预训练的Bi-gram模型调用语言模型根据相邻词间的搭配信息,对所述业务分词进行长词组合,作为第一组合词;
第二组合子模块,用于调用预训练的Three-gram模型调用语言模型根据相邻词间的搭配信息,对所述业务分词进行长词组合,作为第二组合词;
统计子模块,用于统计所述第一组合词和所述第二组合词,作为所述长词语料。
11.根据权利要求9所述的装置,其特征在于,所述标签模块,具体包括:
更新分词子模块,用于对所述业务语料进行去停用词处理后,根据所述更新业务词典进行分词处理,得到包含更新分词的若干语料文档;
表征评估子模块,用于根据所述语料文档确定语料类别,并调用LDA模型评估各所述语料类别下所述更新分词对标签的表征概率;
标签筛选子模块,用于筛选出所述表征概率超过表征阈值的标签,作为所述高相关性标签添加至所述业务标签库中。
12.根据权利要求9所述的装置,其特征在于,所述更新模块,具体包括:
频数计算子模块,用于基于词频和字符数计算各所述长词语料的出现频数;
频数筛选子模块,用于筛选出所述出现频数达到高频阈值的长词语料,作为所述专业高频词。
13.根据权利要求9至12任一项所述的装置,其特征在于,还包括连接于所述标签模块输出端的标签召回模块;
所述标签召回模块,具体用于:调用预训练的CBOW模型计算第一标签与第二标签间的相似度;其中,所述第一标签为所述高相关性标签,所述第二标签为所述标签集中的非高相关性标签;筛选出相似度超过相似阈值的所述第二标签,并添加至所述业务标签库。
14.根据权利要求13所述的装置,其特征在于,还包括:回溯模块;
所述回溯模块包括:
标签存储子模块,用于将所述第二标签存入后台数据库;其中,所述第二标签为所述标签集中的非高相关性标签;
标签更新子模块,用于根据所述后台数据库中的标签对所述打标模型进行定期更新。
15.一种在线文本标签提取装置,其特征在于,包括:
接收模块,用于接收待识别文本;
提取模块,用于调用打标模型基于业务标签库对所述待识别文本进行标签提取,得到文本标签;其中,所述业务标签库为基于更新业务词典对业务语料进行标签提取后,进行高相关性标签添加后得到;所述更新业务词典为调用语言模型根据相邻词间的搭配信息,对业务分词进行长词组合后,筛选出组合后的长词语料中的专业高频词添加至所述业务词典后生成;其中,所述业务分词为调用业务词典对所述业务语料进行分词处理得到。
16.根据权利要求15所述的装置,其特征在于,所述提取模块,具体为:自动机提取模块;
所述自动机提取模块,用于基于所述业务标签库,调用预训练的AC自动机对所述待识别文本进行标签提取。
17.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如权利要求1-6任一项所述的文本标签提取方法和/或如权利要求7或8所述的文本标签提取方法。
18.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行,以用于实现如权利要求1-6任一项所述的文本标签提取方法和/或如权利要求7或8所述的文本标签提取方法。
CN202211511147.8A 2022-11-29 2022-11-29 一种文本标签提取方法、装置、设备及介质 Pending CN115858781A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211511147.8A CN115858781A (zh) 2022-11-29 2022-11-29 一种文本标签提取方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211511147.8A CN115858781A (zh) 2022-11-29 2022-11-29 一种文本标签提取方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN115858781A true CN115858781A (zh) 2023-03-28

Family

ID=85667741

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211511147.8A Pending CN115858781A (zh) 2022-11-29 2022-11-29 一种文本标签提取方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN115858781A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116665676A (zh) * 2023-07-31 2023-08-29 枣庄福缘网络科技有限公司 一种用于智能语音外呼系统的语义识别方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116665676A (zh) * 2023-07-31 2023-08-29 枣庄福缘网络科技有限公司 一种用于智能语音外呼系统的语义识别方法
CN116665676B (zh) * 2023-07-31 2023-09-22 枣庄福缘网络科技有限公司 一种用于智能语音外呼系统的语义识别方法

Similar Documents

Publication Publication Date Title
CN108304468B (zh) 一种文本分类方法以及文本分类装置
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN108376151B (zh) 问题分类方法、装置、计算机设备和存储介质
US7412093B2 (en) Hybrid apparatus for recognizing answer type
CN112732934B (zh) 电网设备分词词典和故障案例库构建方法
CN112632980A (zh) 一种基于大数据深度学习的企业分类方法、系统及电子设备
CN109934251B (zh) 一种用于小语种文本识别的方法、识别系统及存储介质
CN111985228A (zh) 文本关键词提取方法、装置、计算机设备和存储介质
CN111191442A (zh) 相似问题生成方法、装置、设备及介质
CN112667806B (zh) 一种使用lda的文本分类筛选方法
CN110704638A (zh) 一种基于聚类算法的电力文本词典构造方法
Farhoodi et al. N-gram based text classification for Persian newspaper corpus
CN111125315B (zh) 一种技术趋势预测方法和系统
CN112417132A (zh) 一种利用谓宾信息筛选负样本的新意图识别方法
CN112632982A (zh) 一种能用于供应商评价的对话文本情感分析方法
CN115858781A (zh) 一种文本标签提取方法、装置、设备及介质
CN114722198A (zh) 产品分类编码确定方法、系统及相关装置
CN115221332A (zh) 一种危化品事故事理图谱的构建方法与系统
CN113868422A (zh) 一种多标签稽查工单问题溯源识别方法及装置
CN115587163A (zh) 一种文本分类方法、装置、电子设备及存储介质
CN115827871A (zh) 互联网企业分类的方法、装置和系统
CN112071304B (zh) 一种语意分析方法及装置
CN114254622A (zh) 一种意图识别方法和装置
CN114610882A (zh) 一种基于电力短文本分类的异常设备编码检测方法和系统
CN112270185A (zh) 一种基于主题模型的文本表示方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination