CN111090737A - 词库更新方法、装置、电子设备及可读存储介质 - Google Patents
词库更新方法、装置、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN111090737A CN111090737A CN201811247778.7A CN201811247778A CN111090737A CN 111090737 A CN111090737 A CN 111090737A CN 201811247778 A CN201811247778 A CN 201811247778A CN 111090737 A CN111090737 A CN 111090737A
- Authority
- CN
- China
- Prior art keywords
- word
- attribute information
- words
- basic
- expansion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000012549 training Methods 0.000 claims description 62
- 230000006870 function Effects 0.000 claims description 37
- 230000003190 augmentative effect Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 18
- 238000010586 diagram Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 8
- 238000005457 optimization Methods 0.000 description 5
- 230000008520 organization Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 238000012423 maintenance Methods 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 101001013832 Homo sapiens Mitochondrial peptide methionine sulfoxide reductase Proteins 0.000 description 1
- 102100031767 Mitochondrial peptide methionine sulfoxide reductase Human genes 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 238000002945 steepest descent method Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明实施例提供一种词库更新方法、装置、电子设备及可读存储介质,属于数据处理领域。该方法包括:获取文本数据;将所述文本数据输入至预先训练好的条件随机场CRF模型中,输出所述文本数据中每个字的属性信息;根据所述每个字的属性信息从所述文本数据中提取多个扩充词;基于所述多个扩充词对预先建立的基础词库进行更新。本方案中,通过CRF模型获得文本数据中每个字的属性信息,然后根据每个字的属性信息从文本数据中提取多个扩充词,且扩充词的属性信息较为准确,由于文本数据的数据量大,由此,可以通过多个扩充词对预先建立的基础词库进行更新,从而提高了基础词库的数据质量和数据规模,降低了人工对基础词库进行更新的人力成本。
Description
技术领域
本发明涉及数据处理领域,具体而言,涉及一种词库更新方法、装置、电子设备及可读存储介质。
背景技术
在智能客服领域中,让机器拥有与人类相似的应答,是智能客服的主要任务之一。智能客服包含多个子场景,如单轮对话、闲聊、多轮对话等。其中,多轮对话是最复杂、体验最难提升的场景。机器进行多轮对话的基础是拥有知识库,而准确、全面的词库是构建知识库的必要组成部分。一般而言,词库的构建需要经历基础词库建立和词库维护两个阶段,在词库维护上需要大量的人力进行词库扩展、纠错、删除等操作,从而导致了现有词库基础数据质量不高、数据量规模难以扩展,人工维护成本高等困难等问题。
发明内容
有鉴于此,本发明实施例的目的在于提供一种词库更新方法、装置、电子设备及可读存储介质,以改善上述问题。
第一方面,本发明实施例提供了一种词库更新方法,所述方法包括:获取文本数据;将所述文本数据输入至预先训练好的条件随机场CRF模型中,输出所述文本数据中每个字的属性信息;根据所述每个字的属性信息从所述文本数据中提取多个扩充词,每个所述扩充词具有属性信息;基于所述多个扩充词对预先建立的基础词库进行更新。
上述实现方式中,通过CRF模型获得文本数据中每个字的属性信息,然后根据每个字的属性信息从文本数据中提取多个扩充词,且扩充词的属性信息较为准确,由于文本数据的数据量大,由此,可以通过多个扩充词对预先建立的基础词库进行更新,从而提高了基础词库的数据质量和数据规模,降低了人工对基础词库进行更新的人力成本。
进一步地,基于所述多个扩充词对预先建立的基础词库进行更新,包括:判断所述基础词库中是否包含与所述多个扩充词中的目标扩充词相同的基础词,所述目标扩充词为所述多个扩充词中的任一扩充词;若所述基础词库中不包含与所述目标扩充词相同的基础词,则将所述目标扩充词及所述目标扩充词的属性信息添加至所述基础词库中。
在上述实现过程中,通过将基础词库中没有的扩充词添加到基础词库中,以此实现对基础词库的扩容。
进一步地,判断所述基础词库中是否包含所述多个扩充词中的目标扩充词,所述目标扩充词为所述多个扩充词中的任一扩充词之后,还包括:若所述基础词库中包含与所述目标扩充词相同的基础词,则判断所述目标扩充词的属性信息与所述基础词的属性信息是否一致;若不一致,则将所述基础词的属性信息更新为所述目标扩充词的属性信息。
在上述实现过程中,可以对基础词库中属性信息不正确的基础词进行更正,从而提高基础词库的数据质量。
进一步地,判断所述基础词库中是否包含所述多个扩充词中的目标扩充词,所述目标扩充词为所述多个扩充词中的任一扩充词之后,还包括:若所述基础词库中包含与所述目标扩充词相同的基础词,则判断所述目标扩充词的属性信息与所述基础词的属性信息是否一致;若不一致,则将所述基础词从所述基础词库中删除。
在上述实现过程中,可以对基础词库中的属性信息不正确的基础词进行删除,从而提高基础词库的数据质量。
进一步地,根据所述每个字的属性信息从所述文本数据中提取多个扩充词,包括:将所述文本数据中具有预设同类属性信息的相邻字组成一个扩充词,以从所述文本数据中提取多个扩充词。
在上述实现过程中,可从文本数据中按照需求提取出满足预设同类属性信息的相邻字作为一个词,从而获得质量高的多个扩充词。
进一步地,将所述文本数据输入至预先训练好的条件随机场CRF模型中之前,所述方法还包括:获取训练样本数据,所述训练样本数据包括样本数据以及所述样本数据中的每个字对应的属性信息;将所述样本数据作为所述CRF模型的输入,将所述样本数据中每个字对应的属性信息作为所述CRF模型的输出,对所述CRF模型进行训练,获得训练后的CRF模型。
在上述实现过程中,通过对CRF模型进行训练,以在输入文本数据至该CRF模型中时,可以准确输出文本数据中每个字的属性信息。
进一步地,将所述样本数据作为所述CRF模型的输入,将所述样本数据中每个字对应的属性信息作为所述CRF模型的输出,对所述CRF模型进行训练,获得训练后的CRF模型,包括:获取所述样本数据对应的对数似然函数;对所述对数似然函数中的用于表征每个字的属性信息的特征参数进行训练,获得训练好的特征参数;基于训练好的所述特征参数,获得训练后的CRF模型。
进一步地,对所述对数似然函数中的用于表征每个字的属性信息的特征参数进行训练,获得训练好的特征参数,包括:采用L-BFGS算法对所述对数似然函数中的用于表征每个字的属性信息的特征参数进行训练,获得训练好的特征参数。
在上述实现过程中,L-BFGS算法可以快速对参数进行训练,且减少内存占用。
进一步地,所述文本数据为与所述基础词库所属的领域相关的目标领域的文本数据。
在上述实现过程中,通过获得与基础词库领域相关的文本数据,从而可以更准确地对基础词库进行更新,提高基础词库的数据质量。
第二方面,本发明实施例提供了一种词库更新装置,所述装置包括:文本数据获取模块,用于获取文本数据;属性信息获取模块,用于将所述文本数据输入至预先训练好的条件随机场CRF模型中,输出所述文本数据中每个字的属性信息;扩充词获取模块,用于根据所述每个字的属性信息从所述文本数据中提取多个扩充词,每个所述扩充词具有属性信息;词库更新模块,用于基于所述多个扩充词对预先建立的基础词库进行更新。
进一步地,所述词库更新模块,具体用于:判断所述基础词库中是否包含与所述多个扩充词中的目标扩充词相同的基础词,所述目标扩充词为所述多个扩充词中的任一扩充词;若所述基础词库中不包含与所述目标扩充词相同的基础词,则将所述目标扩充词及所述目标扩充词的属性信息添加至所述基础词库中。
进一步地,所述词库更新模块,还用于:若所述基础词库中包含与所述目标扩充词相同的基础词,则判断所述目标扩充词的属性信息与所述基础词的属性信息是否一致;若不一致,则将所述基础词的属性信息更新为所述目标扩充词的属性信息。
进一步地,所述词库更新模块,还用于:若所述基础词库中包含与所述目标扩充词相同的基础词,则判断所述目标扩充词的属性信息与所述基础词的属性信息是否一致;若不一致,则将所述基础词从所述基础词库中删除。
进一步地,所述扩充词获取模块,具体用于将所述文本数据中具有预设同类属性信息的相邻字组成一个扩充词,以从所述文本数据中提取多个扩充词。
进一步地,所述装置包括包括:模型训练模块,用于获取训练样本数据,所述训练样本数据包括样本数据以及所述样本数据中的每个字对应的属性信息;将所述样本数据作为所述CRF模型的输入,将所述样本数据中每个字对应的属性信息作为所述CRF模型的输出,对所述CRF模型进行训练,获得训练后的CRF模型。
进一步地,所述模型训练模块,具体用于获取所述样本数据对应的对数似然函数;对所述对数似然函数中的用于表征每个字的属性信息的特征参数进行训练,获得训练好的特征参数;基于训练好的所述特征参数,获得训练后的CRF模型。
进一步地,所述模型训练模块,用于采用L-BFGS算法对所述对数似然函数中的用于表征每个字的属性信息的特征参数进行训练,获得训练好的特征参数。
进一步地,所述文本数据为与所述基础词库所属的领域相关的目标领域的文本数据。
第三方面,本发明实施例提供一种电子设备,包括处理器以及存储器,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,运行如上述第一方面提供的所述方法中的步骤。
第四方面,本发明实施例提供一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时运行如上述第一方面提供的所述方法中的步骤。
本发明实施例提供一种词库更新方法、装置、电子设备及可读存储介质,该方法首先获取文本数据,然后将所述文本数据输入至预先训练好的条件随机场CRF模型中,输出所述文本数据中每个字的属性信息,再根据所述每个字的属性信息从所述文本数据中提取多个扩充词,每个所述扩充词具有属性信息,然后基于所述多个扩充词对预先建立的基础词库进行更新。本方案中,通过CRF模型获得文本数据中每个字的属性信息,然后根据每个字的属性信息从文本数据中提取多个扩充词,且扩充词的属性信息较为准确,由于文本数据的数据量大,由此,可以通过多个扩充词对预先建立的基础词库进行更新,从而提高了基础词库的数据质量和数据规模,降低了人工对基础词库进行更新的人力成本。
本发明的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明实施例了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例提供的一种词库更新方法的流程图;
图2为本发明实施例提供的一种词库更新方法中步骤S140的子步骤流程图;
图3为本发明实施例提供的一种CRF模型的训练过程流程图;
图4为本发明实施例提供的一种CRF模型的训练过程中步骤S102的子步骤流程图;
图5为本发明实施例提供的一种CRF模型示意图;
图6为本发明实施例提供的一种词库更新装置的结构框图;
图7为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
请参照图1,图1为本发明实施例提供的一种词库更新方法的流程图,所述方法包括如下步骤:
步骤S110:获取文本数据。
文本数据用于对基础词库进行更新,该文本数据可以是从维基百科中文文本数据集中获得,文本数据的数据量要求比较大,其准确度要求较高,其可以是多篇相关领域的文章,也可以是多个句子组成的文本数据。
当然,为了更好地实现对基础词库的更新,所述文本数据可以为与所述基础词库所属的领域相关的目标领域的文本数据,例如,若基础词库中大多为通信领域的词,则文本数据也可以为通信领域的数据,当然,为了实现对基础词库的扩容,文本数据还可以为与基础词库所属领域不同的目标领域的数据,如文本数据可为图像处理领域的数据。
步骤S120:将所述文本数据输入至预先训练好的条件随机场CRF模型中,输出所述文本数据中每个字的属性信息。
条件随机场模型(Conditional Random Field,CRF),是一种机器学习技术,其结合了最大熵模型和隐马尔可夫模型的特点,是一种无向图模型,在分词、词性标注和命名实体识别等序列标注任务中取得了很好的效果。
CRF模型为预先训练好的,在将文本数据输入CRF模型中后,CRF模型可以输出所述文本数据中每个字的属性信息,其中,每个字的属性信息为每个字的标签,如文本数据中的某个句子“河南省是少林寺所在地”,则该句子输入CRF模型中,输出的为“河(B_LOC)南(I_LOC)省(I_LOC)是(O)少(B_LOC)林(I_LOC)寺(I_LOC)所(O)在(O)地(O)”,每个字后面括号中的信息即为该字的属性信息,如:B_LOC表示地点开始位置,I_LOC表示地点内部位置,O表示其他词。
所以,通过将文本数据输入至CRF模型,则CRF模型输出文本数据中每个字的属性信息。
步骤S130:根据所述每个字的属性信息从所述文本数据中提取多个扩充词。
具体地,可以将所述文本数据中具有预设同类属性信息的相邻字组成一个扩充词,以从所述文本数据中提取多个扩充词。
在上述获得文本数据中每个字的属性信息后,从文本数据中提取多个扩充词,每个扩充词具有属性信息,预设同类属性信息可以为地名、人名、组织机构等属性信息,例如,上述中“河”的属性信息为地点开始位置,“南”和“省”的属性信息为地点内部位置,所以,可以将“河南省”作为一个扩充词,由于“所在地”不属于预设同类属性信息,所以该词不提取,则按照此方式,则从上述文本数据中提取的扩充词为“河南省”和“少林寺”两个扩充词。
其中,扩充词“河南省”和“少林寺”的属性信息均为“LOC”,即地点。
步骤S140:基于所述多个扩充词对预先建立的基础词库进行更新。
基础词库可以是预先通过搜狗输入法网络的公开数据,通过该公开数据可以获得与地点、组织机构名称、人名等的相关的词库数据,该词库数据数量要求大,但是准确度要求可以不高,然后将从这些词库数据中提取的多个词分别添加对应的属性信息,属性信息包括但不限于LOC、ORG、PER等,LOC表示地点,ORG表示组织机构,PER表示人名,例如,一个句子为“老红军王成汉上将为延安时期多种出版物签字”,然后从该句中提取出多个词,然后为每个词添加对应的属性信息,提取出的多个词及其属性信息可以为“王成汉(PER)、延安(LOC)”,按照此方式可以从词库数据中提取出多个词,然后为每个词添加对应的属性信息,而为每个词添加对应的属性信息的方式可以为人工添加,或者可以通过其他方式添加,然后将这些词及每个词对应的属性信息组成基础词库。
由于基础词库中的词数量可能不足或者有的词对应的属性信息可能不准确,本实施例中,可以通过CRF模型获得文本数据中每个字的属性信息,然后根据每个字的属性信息从文本数据中提取多个扩充词,且每个扩充词具有对应的属性信息,所以,扩充词的属性信息较为准确,且文本数据的数据量大,由此,可以通过多个扩充词对预先建立的基础词库进行更新,例如,将基础词库中没有的扩充词添加到基础词库中,或者基础词库中某个词的属性信息不正确,则将该词的属性信息进行更正等等,从而可对基础词库进行更新,进而降低了人工更新的成本。
作为一种实施方式,请参照图2,所述步骤S140包括:
步骤S141:判断所述基础词库中是否包括与所述多个扩充词中的目标扩充词相同的基础词。
其中,所述目标扩充词为所述多个扩充词中的任一扩充词。
步骤S142:若所述基础词库中不包含与所述目标扩充词相同的基础词,则将所述目标扩充词及所述目标扩充词的属性信息添加至所述基础词库中。
具体地,为了对基础词库进行扩容,在获得多个扩充词后,从所述多个扩充词中选取任一扩充词作为目标扩充词,从所述基础词库中查找是否有与所述目标扩充词相同的基础词,例如目标扩充词为“少林寺”,其属性信息为LOC,若所述基础词库中没有该目标扩充词,则将该“少林寺”及其属性信息“LOC”添加至基础词库中,以此实现对基础词库的扩展。
另外,若所述基础词库中包含有与所述目标扩充词相同的基础词,例如,基础词库中也包括有“少林寺”这个词,则执行步骤S143:判断所述目标扩充词的属性信息与所述基础词的属性信息是否一致,若不一致,则执行步骤S144:将所述基础词的属性信息更新为所述目标扩充词的属性信息,例如,目标扩充词“少林寺”的属性信息为LOC,而基础词库中的基础词“少林寺”的属性信息为O,则将基础词库中的基础词“少林寺”的属性信息更改为LOC,从而实现对基础词库中词的属性信息进行更改。
或者,若所述目标扩充词的属性信息与所述基础词的属性信息不一致时,则将所述基础词从所述基础词库中删除,例如,将基础词库中的“少林寺”以及该“少林寺”对应的属性信息O一并从基础词库中删除。
另外,请参照图3,在上述实施例的基础上,为了对预先对CRF模型进行训练,其训练的过程包括:
步骤S101:获取训练样本数据,所述训练样本数据包括样本数据以及所述样本数据中的每个字对应的属性信息。
步骤S102:将所述样本数据作为所述CRF模型的输入,将所述样本数据中每个字对应的属性信息作为所述CRF模型的输出,对所述CRF模型进行训练,获得训练后的CRF模型。
请参照图4,步骤S102包括:
步骤S1021:获取所述样本数据对应的对数似然函数。
步骤S1022:对所述对数似然函数中的用于表征每个字的属性信息的特征参数进行训练,获得训练好的特征参数。
步骤S1023:基于训练好的所述特征参数,获得训练后的CRF模型。
其中,训练样本数据可以是应用MSRA corpus的数据集,其数据量要求不大,但是准确率要求较高,训练样本数据用于对CRF模型进行训练,CRF模型示意图如图5所示。
图5中,xt-2,xt-1,xt,xt+1表示输入的文本数据,例如“我今天去北京见一个中科院的朋友”,yt-2,yt-1,yt,yt+1表示输出的文本数据中每个字对应的属性信息,例如,“我今天去北京见一个中科院的朋友”中每个字对应的属性信息为“我:O;今:B_TIME;天:I_TIME;去:O;北:B_LOC;京:I_LOC;见:O;一:O;个:O;中:B_ORG;科:I_ORG;院:I_ORG;的:O;朋:O;友:O”,其中,属性信息O表示不相关词,B_TIME表示时间词开始位置,I_TIME表示时间词内部位置,B_LOC表示地点词开始位置,I_LOC表示地点词内部位置,B_ORG表示组织机构词开始位置,I_ORG表示内部机构词内部位置。由上述可以看出,诸如属性信息为B_ORG和I_ORG连接在一起的字可以组成一个特定的组织机构词(中科院),这样特定的词就是从文本数据中提取出来的扩充词。
CRF模型在输出文本数据中每个字的属性信息的公式为:
其中,P(Y=y|x)表示在给定文本数据x的情况下,属性信息Y=y的概率,y的可能取值有B_ORG、I_ORG等等,tk和sl为特征函数,表示与文本数据x相关的特征。tk(yi-1,yi,x,i)表示此特征与yi-1,yi有关,sl(yi,x,i)表示此特征与yi有关,k和l表示特征的数量,λk和μl分别代表各自特征的参数,Z(x)是归一化项,保证P(Y=y|x)是一个概率值。
然后利用极大似然估计来训练上述参数,既然训练样本数据中有N个训练样本数据,则对数似然函数为:
其中,Pr表示上述中的P(Y=y|x),r代表参数λk和μl,在得到似然函数之后,需要对L进行优化,优化过程中需要对参数λk和μl进行更新,优化方法可以选择二阶方法L-BFGS算法,即采用L-BFGS算法对所述对数似然函数中的用于表征每个字的属性信息的特征参数进行训练,获得训练后的参数,该算法速度比最速下降法要快,并且能保证在优化算法中的稳定性。
下面通过一个实际的例子对CRF模型的训练过程进行说明。
例如,一个训练样本数据为“老(O)红(O)军(O)王(B_PER)成(I_PER)汉(I_PER)上(O)将(O)为(O)延(B_LOC)安(I_LOC)时(O)期(O)多(O)种(O)出(O)版(O)物(O)签(O)字(O)”,此训练样本数据为一句话,这句话中的每个字都添加了属性信息,该训练样本数据中,属性信息为7个:B_PER表示人名开始位置,I_PER表示人名内部位置,B_LOC表示地点开始位置,I_LOC表示地点内部位置,B_ORG表示组织机构开始位置,I_ORG表示组织机构内部位置,O表示其他词。
有了训练样本数据后,需要定义特征函数tk(yi-1,yi,x,i)和sl(yi,x,i),对于训练样本数据中的每个字都需要定义这两种特征函数,在CRF模型中,特征函数的模板为:
t1(yi-1,yi,x,i):表示向前第一个字;
t2(yi-1,yi,x,i):表示向前第两个字;
s1(yi,x,i):表示当前字。
上面的每一个特征函数模板,都代表这一系列的特征,比如对于训练样本数据中的“成(I_PER)”字,t1(yi-1,yi,x,i)表示:
feature 1:如果向前第一个字为“王”,且属性信息为B_PER,则返回1,否则返回0
feature 2:如果向前第一个字为“王”,且属性信息为I_PER,则返回1,否则返回0
…
feature X:如果向前第一个字为“;”,且属性信息为O,则返回1,否则返回0。
其中,X=属性信息数量*字的去重总数,也就是说,针对“成(I_PER)”字,军队与每个特征函数模板,需要定义X个特征,应用上述公式可计算得到P(Y=y|x),而对于训练样本数据中的所有数据,都需要进行P(Y=y|x)计算,随后根据对数似然函数公式,得到对数似然函数:
得到对数似然函数后,需要最大化L,得到最大化似然函数,最大化L等价于最小化-L,最小化-L应用的算法是L_BFGS算法,L_BFGS算法是对拟牛顿法的改进,是一种二阶最优化算法,可以做到快速优化并且减少内存占用。
由此,可基于最大化似然函数获得训练后的CRF模型,该训练后的CRF模型可以在输入文本数据后准确输出文本数据中每个字的属性信息。
请参照图6,图6为本发明实施例提供的一种词库更新装置200的结构框图,所述装置包括:
文本数据获取模块210,用于获取文本数据;
属性信息获取模块220,用于将所述文本数据输入至预先训练好的条件随机场CRF模型中,输出所述文本数据中每个字的属性信息;
扩充词获取模块230,用于根据所述每个字的属性信息从所述文本数据中提取多个扩充词,每个所述扩充词具有属性信息;
词库更新模块240,用于基于所述多个扩充词对预先建立的基础词库进行更新。
进一步地,所述词库更新模块240,具体用于:判断所述基础词库中是否包含与所述多个扩充词中的目标扩充词相同的基础词,所述目标扩充词为所述多个扩充词中的任一扩充词;若所述基础词库中不包含与所述目标扩充词相同的基础词,则将所述目标扩充词及所述目标扩充词的属性信息添加至所述基础词库中。
进一步地,所述词库更新模块240,还用于:若所述基础词库中包含与所述目标扩充词相同的基础词,则判断所述目标扩充词的属性信息与所述基础词的属性信息是否一致;若不一致,则将所述基础词的属性信息更新为所述目标扩充词的属性信息。
进一步地,所述词库更新模块240,还用于:若所述基础词库中包含与所述目标扩充词相同的基础词,则判断所述目标扩充词的属性信息与所述基础词的属性信息是否一致;若不一致,则将所述基础词从所述基础词库中删除。
进一步地,所述扩充词获取模块,具体用于将所述文本数据中具有预设同类属性信息的相邻字组成一个扩充词,以从所述文本数据中提取多个扩充词。
进一步地,所述装置包括包括:模型训练模块,用于获取训练样本数据,所述训练样本数据包括样本数据以及所述样本数据中的每个字对应的属性信息;将所述样本数据作为所述CRF模型的输入,将所述样本数据中每个字对应的属性信息作为所述CRF模型的输出,对所述CRF模型进行训练,获得训练后的CRF模型。
进一步地,所述模型训练模块,具体用于获取所述样本数据对应的对数似然函数;对所述对数似然函数中的用于表征每个字的属性信息的特征参数进行训练,获得训练好的特征参数;基于训练好的所述特征参数,获得训练后的CRF模型。
进一步地,所述模型训练模块,用于采用L-BFGS算法对所述对数似然函数中的用于表征每个字的属性信息的特征参数进行训练,获得训练好的特征参数。
进一步地,所述文本数据为与所述基础词库所属的领域相关的目标领域的文本数据。
请参照图7,图7为本发明实施例提供的一种电子设备的结构示意图,所述电子设备可以包括:至少一个处理器110,例如CPU,至少一个通信接口120,至少一个存储器130和至少一个通信总线140。其中,通信总线140用于实现这些组件直接的连接通信。其中,本申请实施例中设备的通信接口120用于与其他节点设备进行信令或数据的通信。存储器130可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器130可选的还可以是至少一个位于远离前述处理器的存储装置。存储器130中存储有计算机可读取指令,当所述计算机可读取指令由所述处理器110执行时,电子设备执行上述图1所示方法过程。
本发明实施例提供一种可读取存储介质,所述计算机程序被处理器执行时,执行如图1所示方法实施例中电子设备所执行的方法过程。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法中的对应过程,在此不再过多赘述。
综上所述,本发明实施例提供一种词库更新方法、装置、电子设备及可读存储介质,该方法首先获取文本数据,然后将所述文本数据输入至预先训练好的条件随机场CRF模型中,输出所述文本数据中每个字的属性信息,再根据所述每个字的属性信息从所述文本数据中提取多个扩充词,每个所述扩充词具有属性信息,然后基于所述多个扩充词对预先建立的基础词库进行更新。本方案中,通过CRF模型获得文本数据中每个字的属性信息,然后根据每个字的属性信息从文本数据中提取多个扩充词,且扩充词的属性信息较为准确,由于文本数据的数据量大,由此,可以通过多个扩充词对预先建立的基础词库进行更新,从而提高了基础词库的数据质量和数据规模,降低了人工对基础词库进行更新的人力成本。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
Claims (20)
1.一种词库更新方法,其特征在于,所述方法包括:
获取文本数据;
将所述文本数据输入至预先训练好的条件随机场CRF模型中,输出所述文本数据中每个字的属性信息;
根据所述每个字的属性信息从所述文本数据中提取多个扩充词,每个所述扩充词具有属性信息;
基于所述多个扩充词对预先建立的基础词库进行更新。
2.根据权利要求1所述的方法,其特征在于,基于所述多个扩充词对预先建立的基础词库进行更新,包括:
判断所述基础词库中是否包含与所述多个扩充词中的目标扩充词相同的基础词,所述目标扩充词为所述多个扩充词中的任一扩充词;
若所述基础词库中不包含与所述目标扩充词相同的基础词,则将所述目标扩充词及所述目标扩充词的属性信息添加至所述基础词库中。
3.根据权利要求2所述的方法,其特征在于,判断所述基础词库中是否包含所述多个扩充词中的目标扩充词,所述目标扩充词为所述多个扩充词中的任一扩充词之后,还包括:
若所述基础词库中包含与所述目标扩充词相同的基础词,则判断所述目标扩充词的属性信息与所述基础词的属性信息是否一致;
若不一致,则将所述基础词的属性信息更新为所述目标扩充词的属性信息。
4.根据权利要求2所述的方法,其特征在于,判断所述基础词库中是否包含所述多个扩充词中的目标扩充词,所述目标扩充词为所述多个扩充词中的任一扩充词之后,还包括:
若所述基础词库中包含与所述目标扩充词相同的基础词,则判断所述目标扩充词的属性信息与所述基础词的属性信息是否一致;
若不一致,则将所述基础词从所述基础词库中删除。
5.根据权利要求1所述的方法,其特征在于,根据所述每个字的属性信息从所述文本数据中提取多个扩充词,包括:
将所述文本数据中具有预设同类属性信息的相邻字组成一个扩充词,以从所述文本数据中提取多个扩充词。
6.根据权利要求1-5任一所述的方法,其特征在于,将所述文本数据输入至预先训练好的条件随机场CRF模型中之前,所述方法还包括:
获取训练样本数据,所述训练样本数据包括样本数据以及所述样本数据中的每个字对应的属性信息;
将所述样本数据作为所述CRF模型的输入,将所述样本数据中每个字对应的属性信息作为所述CRF模型的输出,对所述CRF模型进行训练,获得训练后的CRF模型。
7.根据权利要求6所述的方法,其特征在于,将所述样本数据作为所述CRF模型的输入,将所述样本数据中每个字对应的属性信息作为所述CRF模型的输出,对所述CRF模型进行训练,获得训练后的CRF模型,包括:
获取所述样本数据对应的对数似然函数;
对所述对数似然函数中的用于表征每个字的属性信息的特征参数进行训练,获得训练好的特征参数;
基于训练好的所述特征参数,获得训练后的CRF模型。
8.根据权利要求7所述的方法,其特征在于,对所述对数似然函数中的用于表征每个字的属性信息的特征参数进行训练,获得训练好的特征参数,包括:
采用L-BFGS算法对所述对数似然函数中的用于表征每个字的属性信息的特征参数进行训练,获得训练好的特征参数。
9.根据权利要求1所述的方法,其特征在于,所述文本数据为与所述基础词库所属的领域相关的目标领域的文本数据。
10.一种词库更新装置,其特征在于,所述装置包括:
文本数据获取模块,用于获取文本数据;
属性信息获取模块,用于将所述文本数据输入至预先训练好的条件随机场CRF模型中,输出所述文本数据中每个字的属性信息;
扩充词获取模块,用于根据所述每个字的属性信息从所述文本数据中提取多个扩充词,每个所述扩充词具有属性信息;
词库更新模块,用于基于所述多个扩充词对预先建立的基础词库进行更新。
11.根据权利要求10所述的装置,其特征在于,所述词库更新模块,具体用于:
判断所述基础词库中是否包含与所述多个扩充词中的目标扩充词相同的基础词,所述目标扩充词为所述多个扩充词中的任一扩充词;
若所述基础词库中不包含与所述目标扩充词相同的基础词,则将所述目标扩充词及所述目标扩充词的属性信息添加至所述基础词库中。
12.根据权利要求11所述的装置,其特征在于,所述词库更新模块,还用于:
若所述基础词库中包含与所述目标扩充词相同的基础词,则判断所述目标扩充词的属性信息与所述基础词的属性信息是否一致;
若不一致,则将所述基础词的属性信息更新为所述目标扩充词的属性信息。
13.根据权利要求11所述的装置,其特征在于,所述词库更新模块,还用于:
若所述基础词库中包含与所述目标扩充词相同的基础词,则判断所述目标扩充词的属性信息与所述基础词的属性信息是否一致;
若不一致,则将所述基础词从所述基础词库中删除。
14.根据权利要求10所述的装置,其特征在于,所述扩充词获取模块,具体用于将所述文本数据中具有预设同类属性信息的相邻字组成一个扩充词,以从所述文本数据中提取多个扩充词。
15.根据权利要求10-14任一所述的装置,其特征在于,所述装置包括包括:
模型训练模块,用于获取训练样本数据,所述训练样本数据包括样本数据以及所述样本数据中的每个字对应的属性信息;将所述样本数据作为所述CRF模型的输入,将所述样本数据中每个字对应的属性信息作为所述CRF模型的输出,对所述CRF模型进行训练,获得训练后的CRF模型。
16.根据权利要求15所述的装置,其特征在于,所述模型训练模块,具体用于获取所述样本数据对应的对数似然函数;对所述对数似然函数中的用于表征每个字的属性信息的特征参数进行训练,获得训练好的特征参数;基于训练好的所述特征参数,获得训练后的CRF模型。
17.根据权利要求16所述的装置,其特征在于,所述模型训练模块,用于采用L-BFGS算法对所述对数似然函数中的用于表征每个字的属性信息的特征参数进行训练,获得训练好的特征参数。
18.根据权利要求10所述的装置,其特征在于,所述文本数据为与所述基础词库所属的领域相关的目标领域的文本数据。
19.一种电子设备,其特征在于,包括处理器以及存储器,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,运行如权利要求1-9任一所述方法中的步骤。
20.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时运行如权利要求1-9任一所述方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811247778.7A CN111090737A (zh) | 2018-10-24 | 2018-10-24 | 词库更新方法、装置、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811247778.7A CN111090737A (zh) | 2018-10-24 | 2018-10-24 | 词库更新方法、装置、电子设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111090737A true CN111090737A (zh) | 2020-05-01 |
Family
ID=70392213
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811247778.7A Pending CN111090737A (zh) | 2018-10-24 | 2018-10-24 | 词库更新方法、装置、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111090737A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112784911A (zh) * | 2021-01-29 | 2021-05-11 | 北京百度网讯科技有限公司 | 训练样本的生成方法、装置、电子设备和存储介质 |
CN114780673A (zh) * | 2022-03-28 | 2022-07-22 | 西安远诺技术转移有限公司 | 基于领域匹配的科技成果管理方法和科技成果管理平台 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120078918A1 (en) * | 2010-09-28 | 2012-03-29 | Siemens Corporation | Information Relation Generation |
CN103778142A (zh) * | 2012-10-23 | 2014-05-07 | 南开大学 | 一种基于条件随机场的缩略词扩展解释识别方法 |
CN105740236A (zh) * | 2016-01-29 | 2016-07-06 | 中国科学院自动化研究所 | 结合写作特征和序列特征的中文情感新词识别方法和系统 |
-
2018
- 2018-10-24 CN CN201811247778.7A patent/CN111090737A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120078918A1 (en) * | 2010-09-28 | 2012-03-29 | Siemens Corporation | Information Relation Generation |
CN103778142A (zh) * | 2012-10-23 | 2014-05-07 | 南开大学 | 一种基于条件随机场的缩略词扩展解释识别方法 |
CN105740236A (zh) * | 2016-01-29 | 2016-07-06 | 中国科学院自动化研究所 | 结合写作特征和序列特征的中文情感新词识别方法和系统 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112784911A (zh) * | 2021-01-29 | 2021-05-11 | 北京百度网讯科技有限公司 | 训练样本的生成方法、装置、电子设备和存储介质 |
CN112784911B (zh) * | 2021-01-29 | 2024-01-19 | 北京百度网讯科技有限公司 | 训练样本的生成方法、装置、电子设备和存储介质 |
CN114780673A (zh) * | 2022-03-28 | 2022-07-22 | 西安远诺技术转移有限公司 | 基于领域匹配的科技成果管理方法和科技成果管理平台 |
CN114780673B (zh) * | 2022-03-28 | 2024-04-30 | 西安远诺技术转移有限公司 | 基于领域匹配的科技成果管理方法和科技成果管理平台 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108287858B (zh) | 自然语言的语义提取方法及装置 | |
US20230169270A1 (en) | Entity linking method and apparatus | |
CN109933656B (zh) | 舆情极性预测方法、装置、计算机设备及存储介质 | |
CN106776544B (zh) | 人物关系识别方法及装置和分词方法 | |
US20210182680A1 (en) | Processing sequential interaction data | |
US20080243905A1 (en) | Attribute extraction using limited training data | |
CN112860862B (zh) | 人机对话中智能体对话语句的生成方法和装置 | |
TWI567569B (zh) | Natural language processing systems, natural language processing methods, and natural language processing programs | |
CN111291560B (zh) | 样本扩充方法、终端、装置及可读存储介质 | |
WO2016032778A1 (en) | Word classification based on phonetic features | |
CN111090737A (zh) | 词库更新方法、装置、电子设备及可读存储介质 | |
CN115062134A (zh) | 知识问答模型训练及知识问答方法、装置和计算机设备 | |
CN110110218A (zh) | 一种身份关联方法及终端 | |
CN111831685A (zh) | 一种查询语句的处理方法、训练模型的方法、装置及设备 | |
CN111291550A (zh) | 一种中文实体提取方法及装置 | |
CN107145947B (zh) | 一种信息处理方法、装置及电子设备 | |
CN115130475A (zh) | 一种可扩展的通用端到端命名实体识别方法 | |
CN110909551B (zh) | 语言预训练模型更新方法、装置、电子设备及存储介质 | |
CN111045836B (zh) | 搜索方法、装置、电子设备及计算机可读存储介质 | |
CN113836917A (zh) | 文本分词处理方法及其装置、设备与介质 | |
CN107203512B (zh) | 用于从用户的自然语言输入中提取关键元素的方法 | |
CN114283300A (zh) | 标签确定方法及装置、模型训练方法及装置 | |
CN116361517B (zh) | 一种企业字号查重方法、装置、设备和介质 | |
CN114896978B (zh) | 基于多图协作语义网络的实体识别方法、系统和存储介质 | |
CN111695350A (zh) | 一种文本的分词方法及分词装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200501 |