CN110717040A - 词典扩充方法及装置、电子设备、存储介质 - Google Patents
词典扩充方法及装置、电子设备、存储介质 Download PDFInfo
- Publication number
- CN110717040A CN110717040A CN201910882071.1A CN201910882071A CN110717040A CN 110717040 A CN110717040 A CN 110717040A CN 201910882071 A CN201910882071 A CN 201910882071A CN 110717040 A CN110717040 A CN 110717040A
- Authority
- CN
- China
- Prior art keywords
- classification
- dimension
- target
- category
- phrase
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开涉及人工智能技术领域,具体公开了一种词典扩充方法及装置,包括:获取若干样本文本以及获取为样本文本所标注的标签数据;对于根据样本文本所获得的候选词组,根据标签数据进行统计,获得在每一分类维度的各分类类别上包括候选词组的样本文本数量;根据所获得的样本文本数量,计算候选词组在每一分类维度的各分类类别上的卡方值;对于每一分类维度的各分类类别,根据卡方值进行词组筛选,筛选得到的候选词组作为将文本分类至词组自身所对应分类维度下的分类类别的依据;将筛选得到的候选词组和所对应分类维度下对应分类类别关联存储至词典中。从而实现了词典的自动扩充,提高了词典扩充的速率。
Description
技术领域
本公开涉及人工智能技术领域,具体涉及一种词典扩充方法及装置、电子设备、计算机可读存储介质。
背景技术
随着人工智能技术的发展,依赖人工智能技术进行文本分类的应用场景越来越普遍。
其中,在文本分类的应用中,存在根据设定的词典来对文本进行分类的情况,具体而言,即从文本中提取关键词,根据关键词在词典中所对应的分类类别来对应确定文本所归属的分类类别。
在此种应用中,文本分类的实现基于所构建作为文本分类依据的词典。现有技术中,词典的构建是人工在海量的文本素材中进行词组选取并对词组进行标签标注,所标注的标签即为词组所对应的分类类别,然后将所选取的词组以及对应的分类类别进行存储,实现词典的构建。
而人工构建词典一方面工作量大,另一方面速率慢。因而,亟待一种解决现有技术中词典构建工作量大且速率慢的问题的方法。
发明内容
为了解决现有技术对词典构建工作量大和速率慢的问题,本公开的实施例提供了一种词典扩充方法及装置、电子设备、计算机可读存储介质,以实现自动进行词典扩充。
其中,本申请所采用的技术方案为:
第一方面,一种词典扩充方法,所述词典对应于文本分类模型,所述文本分类模型根据所述词典进行文本分类,所述方法包括:
获取为所述文本分类模型所采集的若干样本文本以及获取为所述样本文本所标注的标签数据,所述标签数据指示所述样本文本在所设定分类维度上所归属的分类类别;
对于根据所述样本文本所获得的候选词组,根据所述标签数据进行统计,获得在每一分类维度的各分类类别上包括所述候选词组的样本文本数量;
根据所获得的所述样本文本数量,计算所述候选词组在每一分类维度的各分类类别上的卡方值;
对于每一分类维度的各分类类别,根据所述卡方值进行词组筛选,筛选得到的候选词组作为将文本分类至所述词组自身所对应分类维度下的分类类别的依据;
将筛选得到的所述候选词组和所对应分类维度下对应分类类别关联存储至所述词典中。
第二方面,一种词典扩充装置,所述词典对应于文本分类模型,所述文本分类模型根据所述词典对文本进行分类,所述装置包括:
获取模块,用于获取为所述文本分类模型所采集的若干样本文本以及获取为所述样本文本所标注的标签数据,所述标签数据指示所述样本文本在所设定分类维度上所归属的分类类别;
统计模块,用于对于根据所述样本文本所获得的候选词组,根据所述标签数据进行统计,获得在每一分类维度的各分类类别上包括所述候选词组的样本文本数量;
计算模块,用于根据所获得的所述样本文本数量,计算所述候选词组在每一分类维度的各分类类别上的卡方值;
筛选模块,用于对于每一分类维度的各分类类别,根据所述卡方值进行词组筛选,筛选得到的候选词组作为将文本分类至所述词组自身所对应分类维度下的分类类别的依据;
存储模块,用于将筛选得到的所述候选词组和所对应分类维度下对应分类类别关联存储至所述词典中。
第三方面,一种电子设备,包括:
处理器;及
存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现如上所述的方法。
第四方面,一种计算机可读存储介质,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行如上所述的方法。
通过本公开的技术方案,实现了根据样本文本以及样本文本的标签数据来自动进行词典的扩充,无需由人员从大量的词组中进行词组筛选来进行词典的扩充,提高了词典扩充的效率和速率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1是示例性示出的一种装置的框图;
图2是根据一示例性实施例示出的一种词典扩充方法的流程图;
图3是图2中步骤330之前步骤在一实施例中的流程图;
图4是图2中步骤350在一实施例中的流程图;
图5是图2中步骤370在一实施例中的流程图;
图6是图2中步骤370之前步骤在一实施例中的流程图;
图7是卡方分布的概率密度函数和卡方分布表的示意图;
图8是根据一示例性实施例示出的一种词典扩充装置的框图;
图9是根据一示例性实施例示出的一种电子设备的框图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述,这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
这里将详细地对示例性实施例执行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
图1根据一示例性实施例示出的一种装置200的框图。装置200可以作为本公开的执行主体,用于实现本公开的词典扩充方法。当然,本公开的方法并不限于以装置200作为执行主体实现,其他具备处理能力的电子设备也可以作为本公开的执行主体,用于实现本公开的词典扩充方法。
需要说明的是,该装置200只是一个适配于本发明的示例,不能认为是提供了对本发明的使用范围的任何限制。该装置也不能解释为需要依赖于或者必须具有图1中示出的示例性的装置200中的一个或者多个组件。
该装置200的硬件结构可因配置或者性能的不同而产生较大的差异,如图3所示,装置200包括:电源210、接口230、至少一存储器250、以及至少一处理器270。
其中,电源210用于为装置200上的各硬件设备提供工作电压。
接口230包括至少一有线或无线网络接口231、至少一串并转换接口233、至少一输入输出接口235以及至少一USB接口237等,用于与外部设备通信。
存储器250作为资源存储的载体,可以是只读存储器、随机存储器、磁盘或者光盘等,其上所存储的资源包括操作系统251、应用程序253及数据255等,存储方式可以是短暂存储或者永久存储。其中,操作系统251用于管理与控制装置200上的各硬件设备以及应用程序253,以实现处理器270对海量数据255的计算与处理,其可以是Windows ServerTM、MacOS XTM、UnixTM、LinuxTM、FreeBSDTM等。应用程序253是基于操作系统251之上完成至少一项特定工作的计算机程序,其可以包括至少一模块(图2中未示出),每个模块都可以分别包含有对装置200的一系列计算机可读指令。数据255可以是存储于磁盘中的样本文本、标签数据等。
处理器270可以包括一个或多个以上的处理器,并设置为通过总线与存储器250通信,用于运算与处理存储器250中的海量数据255。
如上面所详细描述的,适用本发明的装置200将通过处理器270读取存储器250中存储的一系列计算机可读指令的形式来完成词典扩充的方法。
此外,通过硬件电路或者硬件电路结合软件也能同样实现本发明,因此,实现本发明并不限于任何特定硬件电路、软件以及两者的组合。
图2是根据一示例性实施例示出的一种词典扩充方法的流程图,该方法可以由图1所示的服务器执行,也可以由其他具有处理能力的电子设备执行,在此不进行具体限定。如图2所示,其中,词典对应于文本分类模型,文本分类模型根据词典进行文本分类,该方法至少包括以下步骤:
步骤310,获取为文本分类模型所采集的若干样本文本以及获取为样本文本所标注的标签数据,标签数据指示样本文本在所设定分类维度上所归属的分类类别。
现有技术中,为进行文本的自动分类,通过构建文本分类模型来实现。而文本分类模型对文本所实现的自动准确分类,需要先为该文本分类模型进行词典构建,然后通过样本文本以及对样本文本进行标注的标签数据对文本分类模型进行模型训练,完成模型训练之后的文本分类模型即可对文本自动进行准确分类。
在文本分类模型进行分类过程中,根据待分类文本中各词组在该文本分类模型的词典中的属性数据,来对应进行匹配,即在词典中匹配待分类文本中的词组,然后根据所匹配到词组在词典中的属性数据来对应确定该待分类文本的分类类别,其中,词组的属性数据用于指示在词组在对应分类维度下的分类权重。
由于文本分类模型的应用场景不同,则对文本所进行的分类原则不相同,所以,在具体实施例中,根据文本分类模型的应用场景来对应的为文本分类模型构建词典。进一步的,还需要根据文本分类模型的应用场景来对应地进行样本文本采集,并为样本文本标注标签,通过所采集的样本文本和为样本文本所标注得到的标签数据进行样文本分类模型的训练。从而,在文本分类模型训练完成之后,该文本分类模型即可根据所构建的词典,进行文本分类。
在本公开的技术方案中,直接利用文本分类模型的训练数据,即所采集的样本文本和为样本文本所标注的标签数据来进行词典的构建,从而,避免因构建词典,额外进行文本收集。
其中,对样本文本所标注的标签数据用于描述样本文本所归属的分类类别。
进一步的,对文本所进行的分类,可以在多个分类维度上同时进行,换言之,在不同的分类维度上,样本文本有对应所归属的分类类别。在不同的分类维度上对文本进行分类,是以预先为每一分类维度分别设定的若干分类类别为基础实现的。从而,对样本文本所标注的标签数据包括所设定分类维度上所归属的分类类别。
值得一提的是,本公开所指的文本分类,是根据词典中的词组来进行的,具体的,词典中的词组关联了词组在分类维度下所归属的分类类别,从而,为进行文本分类,从文本中提取关键词,并根据关键词在词典中所关联分类维度下所归属的分类类别来确定文本在任一一分类维度下所归属的分类类别。
进一步的,由于对文本所进行的分类包括在至少一个分类维度下进行分类,而对于在多个分类维度下进行分类的场景,词典按照分类维度的数量进行了分词典划分。即每一分类维度对应有一个分词典,该分词典中的词组即作为将文本在对应分类维度下进行分类的依据。
在本公开的技术方案中,为进行词典的扩充,将训练文本分类模型的样本文本作为词典中词组的来源,从而不需要为词典扩充额外进行素材收集。
如上所描述,在不同的分类维度下,样本文本有对应所归属的分类类别。从而,对于样本文本所标注的标签数据,指示了在至少一个分类维度下,该样本文本所归属的分类类别。
在一具体实施例中,对样本文本所标注的标签数据分别指示了在每一分类维度下,该样本文本所归属的分类类别,从而充分利用样本文本的标签数据来进行词典的扩充,以避免将样本文本中的关键词组遗漏补充至词典中。
步骤330,对于根据样本文本所获得的候选词组,根据标签数据进行统计,获得在每一分类维度的各分类类别上包括候选词组的样本文本数量。
样本文本是将词组通过一定的语法规则组合而成的,换言之,样本文本是由多个按照一定顺序排布的词组构成。候选词组是根据样本文本所获得的,换言之,候选词组来源于样本文本中的词组,例如,将样本文本中的全部或者部分词组作为候选词组。
如上所描述,样本文本对应有所标注的标签数据,每一样本文本具有至少一分类维度属性和具有在该分类维度下的分类类别属性。在步骤330中,对于每一候选词组,以分类维度下的分类类别作为对样本文本进行划分的原则,分别统计在每一分类维度的每一分类类别中统计包含该候选词组的样本文本的数量,即样本文本数量。
其中,对于候选词组,候选词组所在样本文本的标签数据同时作为候选词组的标签数据,换言之,候选词组在设定分类维度上所属的分类类别即为该候选词组所来源样本文本在对应分类维度上所述的分类类别。步骤350,根据所获得的样本文本数量,计算候选词组在每一分类维度的各分类类别上的卡方值。
卡方值是非参数检验中的一个统计量,用于非参数统计分析中,通过卡方值来描述两个变量之间的相关性。
在本公开的技术方案中,所计算的卡方值是候选词组在每一分类维度的各分类类别上的,即针对一候选词组,分别计算该候选词组在每一分类维度的每一分类类别上的卡方值。换言之,所计算的卡方值是针对候选词组和一分类维度下的一分类类别来计算的。
因而,将候选词组和一分类维度下的一分类类别作为两个变量,所计算的卡方值即用于描述候选词组(变量A)和一分类维度下的一分类类别(变量B)之间的相关性。
具体而言,卡方值是通过卡方检验来计算的,即,先构建无效假设H0:变量A与变量B是不相关的。假设无效假设H0成立,基于此前提计算出卡方值。
其中,卡方值的计算公式为:
其中,A为实际值,T为理论值,χ2表示卡方值。因而,为了进行卡方值计算,需要进行理论值计算,而实际值即来源于所统计得到在每一分类维度的各分类类别上包括候选词组的样本文本数量;在无效假设H0成立的前提上,进一步根据实际值,即所统计得到在每一分类维度的各分类类别上包括候选词组的样本文本数量来进行理论值的计算,至此,即可根据实际值和理论值进行卡方值的计算。
卡方值表征了实际值与理论值的偏离程度,卡方值越大,表示偏离程度越大,则表明无效假设不成立,即两变量是相关的,且卡方值越大,两变量的相关性越强;反之,卡方值越小,偏离程度越小,越趋于符合无效假设;若卡方值为0,表明与理论值完全符合。
步骤370,对于每一分类维度的各分类类别,根据卡方值进行词组筛选,筛选得到的候选词组作为将文本分类至词组自身所对应分类维度下的分类类别的依据。
如上所描述,为候选词组所计算得到在一分类维度下的一分类类别下的卡方值反映了候选词组与该分类维度下该分类类别的相关性。从而,即可根据卡方值来进行词组筛选,从候选词组中筛选出与该分类维度下该分类类别相关性大的候选词组。
从而,所筛选出与该分类维度下该分类类别相关性大的候选词组即可作为将文本分类至该分类维度下该分类类别的依据。
步骤390,将筛选得到的候选词组和所对应分类维度下对应分类类别关联存储至词典中。
其中,对于筛选所得到的每一候选词组,该候选词组所对应分类维度下的分类类别即作为该候选词组的属性标签。从而,通过步骤390所进行的存储,被存储至词典中的候选词组即对应有相应的属性标签。从而,在通过文本中的关键词在词典中进行查询匹配时,即可根据关键词的属性标签来确定文本在分类维度下所归属的分类类别。
至此即实现了词典的扩充。
通过本公开的技术方案,实现了根据样本文本以及样本文本的标签数据来自动进行词典的扩充,无需由人员从大量的词组中进行词组筛选来进行词典的扩充,提高了词典扩充的效率和速率。
随着人工智能技术的发展,为提高面试效率和降低HR的工作量,期望通过人工智能技术来构建智能面试系统,该智能面试系统可以自动根据面试者的回答语料评价面试者在各个设定能力项上的等级。其中,智能面试系统根据回答语料所进行对面试者在各个设定能力项上的等级的评价是根据为智能面试系统所构建的词典来进行的。换言之,对于词典中的每一词组,预设该词组在设定能力项上的等级,例如在学习能力这一能力项上的等级为优,从而,当面试者的回答语料中出现该词组(或者更进一步的,在出现该词组的同时满足设定的规则),则该面试者在学习能力项上的等级即为优。
从而,对于智能面试系统而言,其功能的实现基于为该智能面试系统所构建的词典。而现有技术中,通过人工定义来进行词典构建,存在工作量大,速度慢的问题。
而本公开的技术方案则可以有效解决这一问题。将智能面试系统的样本数据,其中样本数据包括样本文本和为样本文本标注的标签数据。在此应用场景之下,词典中的词组用于对面试者的回答文本进行分类,通过对回答文本所进行的分类确定面试者在设定能力项上的等级,其中,设定能力项作为对回答文本的分类维度,等级作为在对应分类维度下的分类类别。在具体实施例中,该样本数据可以是智能面试系统的训练数据,从而,不需要额外为词典的构建进行数据收集的标签标注。
在一实施例中,如图3所示,步骤S330之前,该方法还包括:
步骤410,对样本文本进行分词,获得由若干词构成的词序列。
分词是指将连续的字序列按照一定的规范重新组合成词序列的过程,通过为样本文本进行分词,即可获得由若干单独的词构成的词序列。
其中,所进行的分词,可以是基于字符串匹配的分词方法、基于理解的分词方法以及基于统计的分词方法,在此不进行具体限定。
在一具体实施例中,还可以直接调用分词工具进行分词,例如jieba、SnowNLP、THULAC、NLPIR等。
值得一提的是,针对不同的语言,所用于进行分词的方法可能不同,例如,对于英文文本可以直接通过空格和标点进行分词,而对于中文文本,通过字与字之间并没有空格,那么通过空格进行分词是不行的,那么需要采用适应于中文的分词方法进行分词。
步骤430,对每一样本文本所对应词序列中的词进行组合,获得若干短语。
所进行的组合,即是将词序列中词的相邻词和词进行组合生成短语。
举例来说,对于样本文本“今天天气不错”,通过分词得到的词序列为:今天/天气/不错,其中,“今天”、“天气”、“不错”即是通过分词所得到独立的词。那么,对于词序列中的每一词,通过词组合即可得到短语:“今天天气”、“天气不错”、“今天天气不错”。
步骤450,根据词和短语生成候选词组集合,候选词组集合中的词和短语作为候选词组。
在步骤450中,生成候选词组集合,即是将从各样本文本中所获得的词和短语进行筛选,将筛选出来的词和/或短语过程候选词组集合。例如将所获得的全部词和全部短语均作为候选词组集合中的元素;又例如根据设定的筛选规则进行筛选,例如设定候选词组的字符串长度不超过K,则根据所得到的词和短语筛选出字符串长度不超过K的词/短语,并将筛选出的词和短语作为候选词组集合中的元素。
通过分词、词组合,实现了充分利用样本文本来构建候选词组。
在一实施例中,如图4所示,步骤350包括:
步骤351,为进行卡方值计算,将每一分类维度的每一分类类别分别作为目标维度和目标类别,以及将每一候选词组分别作为目标词组。
步骤353,根据样本文本数量,在目标维度上的分类类别为目标类别和在目标维度上的分类类别不是目标类别这两个维度上,分别统计得到包含目标词组的样本文本的第一实际数量和不包含目标词组的样本文本的第二实际数量。
如上所描述,针对候选词组所统计得到的样本文本数量是针对每一分类维度的每一分类类别来统计的。
那么对于目标词组,以及目标维度下的目标类别,则可以根据样本文本数量统计得到:在目标维度上的分类类别为目标类别和在目标维度上的分类类别不是目标类别这两个维度上,分别统计得到包含目标词组的样本文本的第一实际数量和不包含目标词组的样本文本的第二实际数量。
举例来说,目标维度为C,目标类别为D,目标词组为i,则根据所统计得到的样本文本数量即可得到如下表中的数据:
表一
其中,表一又称为目标词组在目标维度C的目标类别D所构建的卡方表。
如上表所示,根据样本文本数量统计获得了在在目标维度C下的分类类别为目标类别D这一维度下的第一实际数量N和第二实际数量P,和,在在目标维度C下的分类类别不是目标类别D这一维度下的第一实际数量M和第二实际数量Q。
步骤355,根据在两个维度上所分别统计得到的第一实际数量和第二实际数量计算目标词组在目标维度的目标类别上的卡方值。
如上所描述,卡方值的计算基于所构建的无效假设H0:变量A与变量B是不相关的,那么对应于上文的举例,变量A即为目标词组i,变量B即为在目标维度C下的分类类别为目标类别D,那么,在所够安静的无效假设H0和在步骤353中所统计分别在两个维度上的第一实际数量、第二实际数量,即N、P、M、Q,即可对应的获得理论数量,从而为目标词组计算在目标维度的目标类别上的卡方值。
在一实施例中,步骤355进一步包括:
根据在两个维度上所分别统计得到的第一实际数量和第二实际数量,在两个维度上,分别计算得到包含目标词组的样本文本的第一理论数量和不包含目标词组的样本文本的第二理论数量。
根据目标词组在两个维度上分别对应的第一实际数量、第二实际数量、第一理论数量和第二理论数量,按照公式进行卡方值的计算,
其中χi 2表示目标词组i的卡方值;
Ni、Pi、ni、pi分别表示目标词组i在在目标维度上的分类类别为目标类别这一维度上的第一实际数量、第二实际数量、第一理论数量和第二理论数量;
Mi、Qi、mi、qi表示目标词组i在在目标维度上的分类类别不是目标类别这一维度上的第一实际数量、第二实际数量、第一理论数量和第二理论数量。
按照表一所对应的举例继续进行说明,根据表一中的数据可以得到表二中的L、R、S、T、W。
表二
从而,根据表二中的数据即可进行理论数量的计算,具体而言:
在目标维度C下的分类类别为目标类别D这一维度上,包括目标词组i的样本文本的第一理论数量
在目标维度上的分类类别为目标类别这一维度上,不包括目标词组i的样本文本的第二理论数量
进而,按照上文代入上文的公式即为目标词组计算得到在目标维度下的目标类别的卡方值。
在一实施例中,如图5所示步骤370包括:
步骤371,在每一分类维度的每一分类类别上,按照卡方值从大到小的顺序对候选词组进行排序,获得词组排序。
步骤373,获取位于词组排序中前设定数量的候选词组,实现词组筛选。
如上所描述,所计算得到卡方值越大,则表明卡方值所对应候选词组与所对应分类维度下的一分类类别的相关性越强。在每一分类维度的每一分类类别上,通过按照卡方值从大到小的顺序对候选词组进行排序、并获取排序中前设定数量个的候选词组,即获得了与对应分类维度下的对应分类类别的相关性强度位于前设定数量位的候选词组。
在一实施例中,如图6所示,步骤370之前还包括:
步骤510,对于候选词组在每一分类维度的每一分类类别上的卡方值,获取卡方值在卡方分布表中所对应的临界值。
步骤530,提取卡方值大于所对应临界值的候选词组,所提取的候选词组作为进行词组筛选的对象。
卡方分布表如表三所示。
表三卡方分布表
为进行卡方值临界值的确定,在构建无效假设H0时,设定分位数α,即将无效假设H0量化为:变量A与变量B不相关的概率为(1-α),例如若1-α=95%,则α=0.05,换言之,无效假设H0即为:变量A与变量B有95%的概率不相关。
对于一卡方值,若该卡方值大于所对应的临界值,若说明无效假设成立,即变量A与变量B有95%的概率不相关;反之,若该卡方值不大于所对应的临界值,则说明无效假设H0不成立。从而,为了保证参与到词组筛选的候选词组均为使无效假设成立的候选词组,提高词组筛选的效率,在步骤370之前,根据卡方值以及所对应的临界值对候选词组进行预筛选。
在卡方分布表中,F表示自由度,其中自由度=(行数-1)*(列数-1),其中,行数以及列数即为卡方表的行数和列数。针对以上为每一候选词组在每一分类维度的每一分类类别所构建的卡方表为2*2的表,因此,F=1。
卡方分布表的第一行表示α的取值,则从卡方分布表中提取对应于α和F的临界值,例如,按照α=0.05和F=1,查卡方分布表,确定临界值为3.84。进而按照为所计算得到的卡方值所提取的卡方值进行预筛选,即执行步骤530。
下述为本公开装置实施例,可以用于执行本公开上述装置200执行的词典扩充方法实施例。对于本公开装置实施例中未披露的细节,请参照本公开词典扩充方法实施例。
图8是根据一示例性实施例示出的一种词典扩充装置的框图,该词典扩充装置可以配置于图1的装置200中,执行以上方法实施例中任一所示的词典扩充方法的全部或者部分步骤。词典对应于文本分类模型,文本分类模型根据词典进行文本分类。如图8所示,该词典扩充装置包括但不限于:
获取模块610,用于获取为文本分类模型所采集的若干样本文本以及获取为样本文本所标注的标签数据,标签数据指示样本文本在所设定分类维度上所归属的分类类别。
统计模块630,用于对于根据样本文本所获得的候选词组,根据标签数据进行统计,获得在每一分类维度的各分类类别上包括候选词组的样本文本数量。
计算模块650,用于根据所获得的样本文本数量,计算候选词组在每一分类维度的各分类类别上的卡方值。
筛选模块670,用于对于每一分类维度的各分类类别,根据卡方值进行词组筛选,筛选得到的候选词组作为将文本分类至词组自身所对应分类维度下的分类类别的依据。
存储模块690,用于将筛选得到的候选词组和所对应分类维度下对应分类类别关联存储至词典中。
上述装置中各个模块的功能和作用的实现过程具体详见上述词典扩充方法中对应步骤的实现过程,在此不再赘述。
可以理解,这些模块可以通过硬件、软件、或二者结合来实现。当以硬件方式实现时,这些模块可以实施为一个或多个硬件模块,例如一个或多个专用集成电路。当以软件方式实现时,这些模块可以实施为在一个或多个处理器上执行的一个或多个计算机程序,例如图1的处理器270所执行的存储在存储器250中的程序。
在一实施例中,词典扩充装置还包括:
分词模块,用于对样本文本进行分词,获得由若干词构成的词序列。
组合模块,用于对每一样本文本所对应词序列中的词进行组合,获得若干短语。
候选词组集合生成模块,用于根据词和短语生成候选词组集合,候选词组集合中的词和短语作为候选词组。
在一实施例中,计算模块包括:
设定单元,用于为进行卡方值计算,将每一分类维度的每一分类类别分别作为目标维度和目标类别,以及将每一候选词组分别作为目标词组。
统计单元,用于根据样本文本数量,在目标维度上的分类类别为目标类别和在目标维度上的分类类别不是目标类别这两个维度上,分别统计得到包含目标词组的样本文本的第一实际数量和不包含目标词组的样本文本的第二实际数量。
计算单元,用于根据在两个维度上所分别统计得到的第一实际数量和第二实际数量计算目标词组在目标维度的目标类别上的卡方值。
在一实施例中,计算单元包括:
第一计算单元,用于根据在两个维度上所分别统计得到的第一实际数量和第二实际数量,在两个维度上,分别计算得到包含目标词组的样本文本的第一理论数量和不包含目标词组的样本文本的第二理论数量。
第二计算单元,用于根据目标词组在两个维度上分别对应的第一实际数量、第二实际数量、第一理论数量和第二理论数量,按照公式进行卡方值的计算
其中χi 2表示目标词组i的卡方值;
Ni、Pi、ni、pi分别表示目标词组i在在目标维度上的分类类别为目标类别这一维度上的第一实际数量、第二实际数量、第一理论数量和第二理论数量;
Mi、Qi、mi、qi表示目标词组i在在目标维度上的分类类别不是目标类别这一维度上的第一实际数量、第二实际数量、第一理论数量和第二理论数量。
在一实施例中,筛选模块包括:
排序单元,用于在每一分类维度的每一分类类别上,按照卡方值从大到小的顺序对候选词组进行排序,获得词组排序;
获取单元,用于获取位于词组排序中前设定数量的候选词组,实现词组筛选。
在一实施例中,词典扩充装置还包括:
临界值获取模块,用于对于候选词组在每一分类维度的每一分类类别上的卡方值,获取卡方值在卡方分布表中所对应的临界值。
提取模块,用于提取卡方值大于所对应临界值的候选词组,所提取的候选词组作为进行词组筛选的对象。
上述装置中各个模块/单元的功能和作用的实现过程具体详见上述词典扩充方法中对应步骤的实现过程,在此不再赘述。
在一具体实施例中,词典中的词组用于对面试者的回答文本进行分类,通过对回答文本所进行的分类确定面试者在设定能力项上的等级,其中,设定能力项作为对回答文本的分类维度,等级作为在对应分类维度下的分类类别。
可选的,本公开还提供一种电子设备,该电子设备可以执行以上方法实施例中任一所示的词典扩充方法的全部或者部分步骤。如图9所示,电子设备包括:
处理器1001;及
存储器1002,存储器1002上存储有计算机可读指令,计算机可读指令被处理器1001执行时实现以上方法实施中任一项的方法。
其中,可执行指令被处理器1001执行时实现以上任一实施例中的方法。其中可执行指令比如是计算机可读指令,在处理器1001执行时,处理器通过与存储器之间所连接的通信线/总线1003读取存储于存储器中的计算机可读指令。
该实施例中的装置的处理器执行操作的具体方式已经在有关该词典扩充方法的实施例中进行了详细描述,此处将不做详细阐述说明。
在示例性实施例中,还提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如上任一方法实施例中的方法。其中计算机可读存储介质例如包括计算机程序的存储器250,上述指令可由装置200的处理器270执行以实现上述任一实施例中的词典扩充方法。
该实施例中的处理器执行操作的具体方式已经在有关该词典扩充方法的实施例中执行了详细描述,此处将不做详细阐述说明。
上述内容,仅为本申请的较佳示例性实施例,并非用于限制本申请的实施方案,本领域普通技术人员根据本申请的主要构思和精神,可以十分方便地进行相应的变通或修改,故本申请的保护范围应以权利要求书所要求的保护范围为准。
Claims (10)
1.一种词典扩充方法,其特征在于,所述词典对应于文本分类模型,所述文本分类模型根据所述词典进行文本分类,所述方法包括:
获取为所述文本分类模型所采集的若干样本文本,以及获取为所述样本文本所标注的标签数据,所述标签数据指示所述样本文本在所设定分类维度上所归属的分类类别;
对于根据所述样本文本所获得的候选词组,根据所述标签数据进行统计,获得在每一分类维度的各分类类别上包括所述候选词组的样本文本数量;
根据所获得的所述样本文本数量,计算所述候选词组在每一分类维度的各分类类别上的卡方值;
对于每一分类维度的各分类类别,根据所述卡方值进行词组筛选,筛选得到的候选词组作为将文本分类至所述词组自身所对应分类维度下的分类类别的依据;
将筛选得到的所述候选词组和所对应分类维度下对应分类类别关联存储至所述词典中。
2.根据权利要求1所述的方法,其特征在于,所述对于根据所述样本文本所获得的候选词组,根据所述标签数据进行统计,获得在每一分类维度的各分类类别上包括所述候选词组的样本文本数量之前,所述方法还包括:
对所述样本文本进行分词,获得由若干词构成的词序列;
对每一所述样本文本所对应词序列中的词进行组合,获得若干短语;
根据所述词和所述短语生成候选词组集合,所述候选词组集合中的词和短语作为所述候选词组。
3.根据权利要求1所述的方法,其特征在于,所述根据所获得的所述样本文本数量,计算所述候选词组在每一分类维度的各分类类别上的卡方值,包括:
为进行卡方值计算,将每一分类维度的每一分类类别分别作为目标维度和目标类别,以及将每一候选词组分别作为目标词组;
根据所述样本文本数量,在所述目标维度上的分类类别为目标类别和在所述目标维度上的分类类别不是目标类别这两个维度上,分别统计得到包含所述目标词组的样本文本的第一实际数量和不包含所述目标词组的样本文本的第二实际数量;
根据在所述两个维度上所分别统计得到的所述第一实际数量和所述第二实际数量计算所述目标词组在所述目标维度的所述目标类别上的卡方值。
4.根据权利要求3所述的方法,其特征在于,所述根据在所述两个维度上所分别统计得到的所述第一实际数量和所述第二实际数量计算所述目标词组在所述目标维度的所述目标类别上的卡方值,包括:
根据在所述两个维度上所分别统计得到的所述第一实际数量和所述第二实际数量,在所述两个维度上,分别计算得到包含所述目标词组的样本文本的第一理论数量和不包含所述目标词组的样本文本的第二理论数量;
根据所述目标词组在所述两个维度上分别对应的所述第一实际数量、第二实际数量、第一理论数量和第二理论数量,按照公式进行卡方值的计算:
其中χi 2表示目标词组i的卡方值;
Ni、Pi、ni、pi分别表示目标词组i在在所述目标维度上的分类类别为目标类别这一维度上的第一实际数量、第二实际数量、第一理论数量和第二理论数量;
Mi、Qi、mi、qi表示目标词组i在在所述目标维度上的分类类别不是目标类别这一维度上的第一实际数量、第二实际数量、第一理论数量和第二理论数量。
5.根据权利要求1所述的方法,其特征在于,所述对于每一分类维度的各分类类别,根据所述卡方值进行词组筛选,包括:
在每一分类维度的每一分类类别上,按照卡方值从大到小的顺序对所述候选词组进行排序,获得词组排序;
获取位于所述词组排序中前设定数量的候选词组,实现词组筛选。
6.根据权利要求1所述的方法,其特征在于,所述对于每一分类维度的各分类类别,根据所述卡方值进行词组筛选之前,所述方法还包括:
对于所述候选词组在每一分类维度的每一分类类别上的卡方值,获取所述卡方值在卡方分布表中所对应的临界值;
提取卡方值大于所对应临界值的候选词组,所提取的候选词组作为进行所述词组筛选的对象。
7.根据权利要求1所述的方法,其特征在于,所述词典中的词组用于对面试者的回答文本进行分类,通过对回答文本所进行的分类确定所述面试者在设定能力项上的等级,其中,所述设定能力项作为对所述回答文本的分类维度,所述等级作为在对应分类维度下的分类类别。
8.一种词典扩充装置,其特征在于,所述词典对应于文本分类模型,所述文本分类模型根据所述词典对文本进行分类,所述装置包括:
获取模块,用于获取为所述样本分类模型所采集的若干样本文本以及获取为所述样本文本所标注的标签数据,所述标签数据指示所述样本文本在所设定分类维度上所归属的分类类别;
统计模块,用于对于根据所述样本文本所获得的候选词组,根据所述标签数据进行统计,获得在每一分类维度的各分类类别上包括所述候选词组的样本文本数量;
计算模块,用于根据所获得的所述样本文本数量,计算所述候选词组在每一分类维度的各分类类别上的卡方值;
筛选模块,用于对于每一分类维度的各分类类别,根据所述卡方值进行词组筛选,筛选得到的候选词组作为将文本分类至所述词组自身所对应分类维度下的分类类别的依据;
存储模块,用于将筛选得到的所述候选词组和所对应分类维度下对应分类类别关联存储至所述词典中。
9.一种电子设备,其特征在于,包括:
处理器;及
存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现如权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行权利要求1-7中的任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910882071.1A CN110717040A (zh) | 2019-09-18 | 2019-09-18 | 词典扩充方法及装置、电子设备、存储介质 |
PCT/CN2020/092895 WO2021051864A1 (zh) | 2019-09-18 | 2020-05-28 | 词典扩充方法及装置、电子设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910882071.1A CN110717040A (zh) | 2019-09-18 | 2019-09-18 | 词典扩充方法及装置、电子设备、存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110717040A true CN110717040A (zh) | 2020-01-21 |
Family
ID=69209902
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910882071.1A Pending CN110717040A (zh) | 2019-09-18 | 2019-09-18 | 词典扩充方法及装置、电子设备、存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110717040A (zh) |
WO (1) | WO2021051864A1 (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111259158A (zh) * | 2020-02-25 | 2020-06-09 | 北京松果电子有限公司 | 一种文本分类方法、装置及介质 |
CN111291560A (zh) * | 2020-03-06 | 2020-06-16 | 深圳前海微众银行股份有限公司 | 样本扩充方法、终端、装置及可读存储介质 |
CN111832294A (zh) * | 2020-06-24 | 2020-10-27 | 平安科技(深圳)有限公司 | 标注数据的选择方法、装置、计算机设备和存储介质 |
CN112328787A (zh) * | 2020-11-04 | 2021-02-05 | 中国平安人寿保险股份有限公司 | 文本分类模型训练方法、装置、终端设备及存储介质 |
WO2021051864A1 (zh) * | 2019-09-18 | 2021-03-25 | 平安科技(深圳)有限公司 | 词典扩充方法及装置、电子设备、存储介质 |
CN113420138A (zh) * | 2021-07-15 | 2021-09-21 | 上海明略人工智能(集团)有限公司 | 用于文本分类的方法及装置、电子设备、存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02285419A (ja) * | 1989-04-27 | 1990-11-22 | Ricoh Co Ltd | 意味分類方法 |
CN102169495A (zh) * | 2011-04-11 | 2011-08-31 | 趣拿开曼群岛有限公司 | 行业词典生成方法及装置 |
WO2015040860A1 (ja) * | 2013-09-18 | 2015-03-26 | 日本電気株式会社 | 分類辞書生成装置、分類辞書生成方法及び記録媒体 |
CN106095996A (zh) * | 2016-06-22 | 2016-11-09 | 量子云未来(北京)信息科技有限公司 | 用于文本分类的方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1652107A1 (en) * | 2003-07-23 | 2006-05-03 | International Business Machines Corporation | Method and system for categorizing arabic text |
CN106897428B (zh) * | 2017-02-27 | 2022-08-09 | 腾讯科技(深圳)有限公司 | 文本分类特征提取方法、文本分类方法及装置 |
CN108959237B (zh) * | 2017-05-23 | 2022-11-22 | 腾讯科技(北京)有限公司 | 一种文本分类方法、装置、介质及设备 |
CN108376151B (zh) * | 2018-01-31 | 2020-08-04 | 深圳市阿西莫夫科技有限公司 | 问题分类方法、装置、计算机设备和存储介质 |
CN110717040A (zh) * | 2019-09-18 | 2020-01-21 | 平安科技(深圳)有限公司 | 词典扩充方法及装置、电子设备、存储介质 |
-
2019
- 2019-09-18 CN CN201910882071.1A patent/CN110717040A/zh active Pending
-
2020
- 2020-05-28 WO PCT/CN2020/092895 patent/WO2021051864A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02285419A (ja) * | 1989-04-27 | 1990-11-22 | Ricoh Co Ltd | 意味分類方法 |
CN102169495A (zh) * | 2011-04-11 | 2011-08-31 | 趣拿开曼群岛有限公司 | 行业词典生成方法及装置 |
WO2015040860A1 (ja) * | 2013-09-18 | 2015-03-26 | 日本電気株式会社 | 分類辞書生成装置、分類辞書生成方法及び記録媒体 |
CN106095996A (zh) * | 2016-06-22 | 2016-11-09 | 量子云未来(北京)信息科技有限公司 | 用于文本分类的方法 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021051864A1 (zh) * | 2019-09-18 | 2021-03-25 | 平安科技(深圳)有限公司 | 词典扩充方法及装置、电子设备、存储介质 |
CN111259158A (zh) * | 2020-02-25 | 2020-06-09 | 北京松果电子有限公司 | 一种文本分类方法、装置及介质 |
CN111259158B (zh) * | 2020-02-25 | 2023-06-02 | 北京小米松果电子有限公司 | 一种文本分类方法、装置及介质 |
CN111291560A (zh) * | 2020-03-06 | 2020-06-16 | 深圳前海微众银行股份有限公司 | 样本扩充方法、终端、装置及可读存储介质 |
CN111832294A (zh) * | 2020-06-24 | 2020-10-27 | 平安科技(深圳)有限公司 | 标注数据的选择方法、装置、计算机设备和存储介质 |
CN111832294B (zh) * | 2020-06-24 | 2022-08-16 | 平安科技(深圳)有限公司 | 标注数据的选择方法、装置、计算机设备和存储介质 |
CN112328787A (zh) * | 2020-11-04 | 2021-02-05 | 中国平安人寿保险股份有限公司 | 文本分类模型训练方法、装置、终端设备及存储介质 |
CN112328787B (zh) * | 2020-11-04 | 2024-02-20 | 中国平安人寿保险股份有限公司 | 文本分类模型训练方法、装置、终端设备及存储介质 |
CN113420138A (zh) * | 2021-07-15 | 2021-09-21 | 上海明略人工智能(集团)有限公司 | 用于文本分类的方法及装置、电子设备、存储介质 |
CN113420138B (zh) * | 2021-07-15 | 2024-02-13 | 上海明略人工智能(集团)有限公司 | 用于文本分类的方法及装置、电子设备、存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2021051864A1 (zh) | 2021-03-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110717040A (zh) | 词典扩充方法及装置、电子设备、存储介质 | |
CN111222305B (zh) | 一种信息结构化方法和装置 | |
Dong et al. | Tablesense: Spreadsheet table detection with convolutional neural networks | |
CN112597312A (zh) | 文本分类方法、装置、电子设备及可读存储介质 | |
CN107423278B (zh) | 评价要素的识别方法、装置及系统 | |
Wilkinson et al. | Neural Ctrl-F: segmentation-free query-by-string word spotting in handwritten manuscript collections | |
CN104881458A (zh) | 一种网页主题的标注方法和装置 | |
CN110334209B (zh) | 文本分类方法、装置、介质及电子设备 | |
CN110502742B (zh) | 一种复杂实体抽取方法、装置、介质及系统 | |
CN110674297B (zh) | 舆情文本分类模型构建和舆情文本分类方法、装置及设备 | |
CN107526721B (zh) | 一种对电商产品评论词汇的歧义消除方法及装置 | |
CN112883730B (zh) | 相似文本匹配方法、装置、电子设备及存储介质 | |
CN111930933A (zh) | 一种基于人工智能的检务案件处理方法及装置 | |
CN111680506A (zh) | 数据库表的外键映射方法、装置、电子设备和存储介质 | |
CN113268615A (zh) | 资源标签生成方法、装置、电子设备及存储介质 | |
CN113934848A (zh) | 一种数据分类方法、装置和电子设备 | |
CN112579781A (zh) | 文本归类方法、装置、电子设备及介质 | |
CN108830302B (zh) | 一种图像分类方法、训练方法、分类预测方法及相关装置 | |
CN115525761A (zh) | 一种文章关键词筛选类别的方法、装置、设备及存储介质 | |
CN114842982A (zh) | 一种面向医疗信息系统的知识表达方法、装置及系统 | |
CN114970553A (zh) | 基于大规模无标注语料的情报分析方法、装置及电子设备 | |
CN114067343A (zh) | 一种数据集的构建方法、模型训练方法和对应装置 | |
CN109189932B (zh) | 文本分类方法和装置、计算机可读存储介质 | |
CN115481240A (zh) | 一种数据资产质量检测方法和检测装置 | |
CN112529743A (zh) | 合同要素抽取方法、装置、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |