CN111079411B - 一种文本处理的方法、装置、可读存储介质和电子设备 - Google Patents
一种文本处理的方法、装置、可读存储介质和电子设备 Download PDFInfo
- Publication number
- CN111079411B CN111079411B CN201911275301.4A CN201911275301A CN111079411B CN 111079411 B CN111079411 B CN 111079411B CN 201911275301 A CN201911275301 A CN 201911275301A CN 111079411 B CN111079411 B CN 111079411B
- Authority
- CN
- China
- Prior art keywords
- text
- segmentation
- final
- processor
- keywords
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title abstract description 5
- 230000011218 segmentation Effects 0.000 claims abstract description 260
- 238000000034 method Methods 0.000 claims abstract description 45
- 238000011156 evaluation Methods 0.000 claims abstract description 43
- 238000012545 processing Methods 0.000 claims abstract description 26
- 238000012549 training Methods 0.000 claims abstract description 11
- 230000008859 change Effects 0.000 claims description 17
- 230000004044 response Effects 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 7
- 235000015278 beef Nutrition 0.000 description 32
- 235000013372 meat Nutrition 0.000 description 18
- 235000012054 meals Nutrition 0.000 description 14
- 244000046052 Phaseolus vulgaris Species 0.000 description 13
- 235000010627 Phaseolus vulgaris Nutrition 0.000 description 12
- 241001116389 Aloe Species 0.000 description 9
- 235000011399 aloe vera Nutrition 0.000 description 9
- 235000020415 coconut juice Nutrition 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 235000011389 fruit/vegetable juice Nutrition 0.000 description 5
- 238000012423 maintenance Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 235000014676 Phragmites communis Nutrition 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 240000007651 Rubus glaucus Species 0.000 description 1
- 235000011034 Rubus glaucus Nutrition 0.000 description 1
- 235000009122 Rubus idaeus Nutrition 0.000 description 1
- 240000001417 Vigna umbellata Species 0.000 description 1
- 235000011453 Vigna umbellata Nutrition 0.000 description 1
- 239000002253 acid Substances 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000006260 foam Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 235000013555 soy sauce Nutrition 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种文本处理的方法、装置、可读存储介质和电子设备。本发明实施例通过至少一个处理器解析所述数据,获取至少一个第一文本,对所述至少一个第一文本进行切分,确定第二文本集合,通过所述至少一个处理器获取所述第二文本的特征信息,根据所述第二文本的特征信息确定评价信息,根据所述评价信息确定至少一个所述第二文本中的至少一个切分关键词;确定所述第一文本的最终切分方式,以及所述最终切分方式对应的最终切分关键词;根据所述特征信息、所述最终切分方式以及所述最终切分关键词训练分词模型。通过上述方法训练处的分词模型可以自动对文本进行准确的切分,减少人力资源的消耗,并且提高了文本分词的准确性。
Description
技术领域
本发明涉及数据处理领域,具体涉及一种文本处理的方法、装置、可读存储介质和电子设备。
背景技术
随着科技的进步,有关自然语言处理的应用越来越广泛,文本分词是自然语言处理中其他处理的基础,因此文本分词的准确性非常重要。
现有技术中通常基于词典的分词方式、或者基于统计/深度学习的分词模型进行文本分词,具体的,基于词典的分词方式需要大量人工维护词典,基于统计/深度学习的分词模型需要大量人工标注过的语料进行训练,上述两种方式都浪费大量的人力资源,并且人工维护或标注时错误率高,影响文本分词的准确性。
发明内容
有鉴于此,本发明实施例提供了一种文本处理的方法、装置、可读存储介质和电子设备,能够提高文本分词的准确性。
第一方面,本发明实施例提供了一种文本处理的方法,该方法包括:接收来自于程序调用接口的数据;通过至少一个处理器解析所述数据,获取至少一个第一文本;通过所述至少一个处理器对所述至少一个第一文本进行切分,确定第二文本集合,所述第二文本集合包括至少一个第二文本,所述第二文本为第一文本的一部分;通过所述至少一个处理器获取所述第二文本的特征信息;所述至少一个处理器根据所述第二文本的特征信息确定评价信息;所述至少一个处理器根据所述评价信息确定至少一个所述第二文本中的至少一个切分关键词;所述至少一个处理器确定所述第一文本的最终切分方式,以及所述最终切分方式对应的最终切分关键词;所述至少一个处理器根据所述特征信息、所述最终切分方式以及所述最终切分关键词训练分词模型。
优选地,该方法还包括:所述至少一个处理器通过训练后的所述分词模型切分第三文本。
优选地,所述特征信息以及所述第一文本储存在数据库中,所述数据库为图模型。
优选地,所述特征信息包括所述至少一个第二文本的文本长度、次数、出现频率TF、逆文档概率IDF、左临概率、右临概率、以及临接概率梯度。
优选地,所述至少一个处理器根据所述特征信息确定所述至少一个第二文本中的至少一个切分关键词,具体包括:所述至少一个处理器根据所述特征信息确定所述至少一个第二文本中的至少一个切分词以及所述至少一个切分词对应的分数;响应于所述分数大于设定阈值,则所述切分词为备选切分关键词;响应于所述备选切分关键词小于或等于设定字数,则确定所述备选切分关键词为所述切分关键词。
优选地,所述响应于所述分数大于设定阈值,则所述切分词为备选切分关键词之后,该方法还包括:响应于所述备选切分关键词大于设定字数,根据临接概率梯度变化率将所述备选切分关键词切分为所述切分关键词。
优选地,所述至少一个处理器确定所述第一文本的最终切分方式,以及所述最终切分方式对应的最终切分关键词,具体包括:响应于所述第一文本的切分方式包括至少两种;将所述每种切分方式对应的最终切分关键词的分数与所述最终切分关键词间的临接概率梯度变化率进行加权处理,确定出最终评价信息;确定所述最终评价信息中最优最终评价信息对应的切分方式为最终切分方式,以及所述最终切分方式对应的最终切分关键词。
第二方面,本发明实施例提供了一种文本处理的装置,该装置包括:接收单元,用于接收来自于程序调用接口的数据;获取单元,用于通过至少一个处理器解析所述数据,获取至少一个第一文本;第一确定单元,用于通过所述至少一个处理器对所述至少一个第一文本进行切分,确定第二文本集合,所述第二文本集合包括至少一个第二文本,所述第二文本为第一文本的一部分;所述获取单元还用于,通过所述至少一个处理器获取所述第二文本的特征信息;第二确定单元,用于所述至少一个处理器根据所述第二文本的特征信息确定评价信息;第三确定单元,用于所述至少一个处理器根据所述评价信息确定至少一个所述第二文本中的至少一个切分关键词;第四确定单元,用于所述至少一个处理器确定所述第一文本的最终切分方式,以及所述最终切分方式对应的最终切分关键词;处理单元,用于所述至少一个处理器根据所述特征信息、所述最终切分方式以及所述最终切分关键词训练分词模型。
优选地,所述处理单元还用于:所述至少一个处理器通过训练后的所述分词模型切分第三文本。
优选地,所述特征信息以及所述第一文本储存在数据库中,所述数据库为图模型。
优选地,所述特征信息包括所述至少一个第二文本的文本长度、次数、出现频率TF、逆文档概率IDF、左临概率、右临概率、以及临接概率梯度。
优选地,所述第三确定单元具体用于:所述至少一个处理器根据所述特征信息确定所述至少一个第二文本中的至少一个切分词以及所述至少一个切分词对应的分数;响应于所述分数大于设定阈值,则所述切分词为备选切分关键词;响应于所述备选切分关键词小于或等于设定字数,则确定所述备选切分关键词为所述切分关键词。
优选地,所述第三确定单元具体还用于:响应于所述备选切分关键词大于设定字数,根据临接概率梯度变化率将所述备选切分关键词切分为所述切分关键词。
优选地,所述第四确定单元具体用于:响应于所述第一文本的切分方式包括至少两种;将所述每种切分方式对应的最终切分关键词的分数与所述最终切分关键词间的临接概率梯度变化率进行加权处理,确定出最终评价信息;确定所述最终评价信息中最优最终评价信息对应的切分方式为最终切分方式,以及所述最终切分方式对应的最终切分关键词。
第三方面,本发明实施例提供了一种计算机可读存储介质,其上存储计算机程序指令,所述计算机程序指令在被处理器执行时实现如第一方面或第一方面任一种可能中任一项所述的方法。
第四方面,本发明实施例提供了一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面或第一方面任一种可能中任一项所述的方法。
本发明实施例通过至少一个处理器解析所述数据,获取至少一个第一文本,对所述至少一个第一文本进行切分,确定第二文本集合,通过所述至少一个处理器获取所述第二文本的特征信息,根据所述第二文本的特征信息确定评价信息,根据所述评价信息确定至少一个所述第二文本中的至少一个切分关键词;确定所述第一文本的最终切分方式,以及所述最终切分方式对应的最终切分关键词;根据所述特征信息、所述最终切分方式以及所述最终切分关键词训练分词模型。通过上述方法训练处的分词模型可以自动对文本进行准确的切分,减少人力资源的消耗,并且提高了文本分词的准确性。
附图说明
通过以下参照附图对本发明实施例的描述,本发明的上述以及其它目的、特征和优点将更为清楚,在附图中:
图1是本发明第一实施例的一种文本处理的流程图;
图2是本发明第一实施例的另一种文本处理的流程图;
图3是本发明第一实施例的再一种文本处理的流程图;
图4是本发明第二实施例的应用场景图;
图5是本发明第三实施例的一种文本处理的装置示意图;
图6是本发明第四实施例的电子设备的示意图。
具体实施方式
以下基于实施例对本发明公开进行描述,但是本发明公开并不仅仅限于这些实施例。在下文对本发明公开的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明公开。为了避免混淆本发明公开的实质,公知的方法、过程、流程、元件和电路并没有详细叙述。
此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。
除非上下文明确要求,否则整个申请文件中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。
在本发明公开的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明公开的描述中,除非另有说明,“多个”的含义是两个或两个以上。
现有技术中通常基于词典的分词方式、或者基于统计/深度学习的分词模型进行文本分词,具体的,基于词典的分词方式需要大量人工维护词典,基于统计/深度学习的分词模型需要大量人工标注过的语料进行训练。以词典的分词方式为例,假设通过词典的分词方式对游戏领域进行分词,通过人工标注的方式对词典进行维护,例如,词典中通过人工标注的方式保存了大量的分词短语,包括“页游、兴起、兴趣、昌盛、繁盛、游戏、网游、桌游、时间”等,在此不一一赘述,仅示例性的进行说明,通过上述词典对文本“随着页游兴起到现在的页游繁盛”进行分词,但是由于词典中的分词短语是人工维护的,因此人工维护或标注时错误率高,会影响文本分词的准确性,并且人工维护或标注时会浪费大量的人力资源。
图1是本发明第一实施例的文本处理的方法流程图。如图1所示,具体包括如下步骤:
步骤S100、接收来自于程序调用接口的数据。
步骤S101、通过至少一个处理器解析所述数据,获取至少一个第一文本。
举例说明,获取到的第一文本为“红烧牛肉”、“椰汁芦荟西米露”、或者“酸豆角肉沫饭”。
步骤S102、通过所述至少一个处理器对所述至少一个第一文本进行切分,确定第二文本集合,所述第二文本集合包括至少一个第二文本,所述第二文本为第一文本的一部分。
本发明实施例中,采用语言模型(Gram)对第一文本进行切分,具体的,通过语言模型将第一文本切分成2至3长度的短语,也可以切分成其他长度的短语,例如,将第一文本切分成2至6长度的短语,本发明实施例对其不做限度。
举例说明,将第一文本为“红烧牛肉”通过Gram进行切分,切分为第二文本合集,具体为[红烧、烧牛、牛肉、红烧牛、烧牛肉、红烧牛肉]。
通过上述步骤,可以准确、快速并且全面的确定出第一文本对应的第二文本的集合。
步骤S103、通过所述至少一个处理器获取所述第二文本的特征信息。
可选的,所述特征信息以及所述第一文本储存在数据库中,所述数据库为图模型;所述特征信息包括所述至少一个第二文本的文本长度、次数、出现频率TF、逆文档概率IDF、左临概率、右临概率、以及临接概率梯度。
举例说明,以第二文本集合[红烧、烧牛、牛肉、红烧牛、烧牛肉、红烧牛肉]中的红烧为例,确定“红烧”的特征信息;具体如下:特征信息1、文本长度,上述“红烧”的文本长度为2,本发明实施例中,需要对英文进行处理时,每个英文单词的长度为1,例如“coffee”(咖啡)的文本长度为1;特征信息2、出现次数,即任一文本在所有文本中共计出现的次数,例如,“红烧”在所有文本中共计出现的次数;特征信息3、出现频率(term frequency,TF),即任一文本的出现次数与所有文本数的比值,例如,“红烧”出现的次数为5,所有文本数为100,则“红烧”的出现频率等于5/100等于0.05;特征信息4、逆文档概率(inverse documentfrequency,IDF),即总文件数量除以包含该文本的文件的数量得到的商,将该商取以10为底的对数得到IDF;特征信息5、左临概率,以“红烧”为例,统计“红”后面接其它字的所有情况的次数,例如“红色”、“红豆”、和“红烧”等所有情况的次数为100次,其中,“红烧”出现的次数为30次,则上述“红烧”的左临概率为0.3;特征信息6、右临概率,与上述特征信息5的计算方式类似,以“红烧”为例,统计“烧”前面接其它字的所有情况的次数,例如“红烧”、“火烧”、和“燃烧”等所有情况的次数为100次,其中,“红烧”出现的次数为25次,则上述“红烧”的右临概率为0.25;特征信息7、临接概率梯度,该特征信息主要针对文本长度大于设定长度的文本,例如,文本为“酸豆角肉沫饭”,分别计算[酸豆、豆角、角肉、肉沫、沫饭]的临接概率分数,具体的,所述临接概率分数根据上述左临概率与右临概率加权确定,具体的加权系数与计算公式本发明对其不做限定,假设[酸豆、豆角、角肉、肉沫、沫饭]的临接概率分数分别为[4、3.5、1.2、6.1、4.6],临接概率梯度(delta)为相邻两个临接概率分数的差值与其中一个临接概率的比值,例如4与3.5的差值为0.5,0.5与4的比值为临接概率梯度,由上述数据可知“角肉”前后的分数变化较大,因此“角肉”前后的临接概率梯度变化较大。
通过上述步骤,可以确定出第二文本信息对应的不同的特征信息,以便进行后续处理。
步骤S104、所述至少一个处理器根据所述第二文本的特征信息确定评价信息。
本发明实施例中,根据第二文本的特征信息对第二文本进行打分,所述打分的分数即评价信息。
举例说明:第二文本集合[红烧、烧牛、牛肉、红烧牛、烧牛肉、红烧牛肉]中,每个文本信息对应的打分分数分别为:“红烧”75,“烧牛”3,“牛肉”88,“红烧牛”6,“红烧牛肉”55。本发明实施例中,对于具体的打分方式不做限定。
步骤S105、所述至少一个处理器根据所述评价信息确定至少一个所述第二文本中的至少一个切分关键词。
具体的,所述至少一个处理器根据所述特征信息确定所述至少一个第二文本中的至少一个切分词以及所述至少一个切分词对应的分数;响应于所述分数大于设定阈值,则所述切分词为备选切分关键词。
举例说明,假设设定阈值为50,分数大于50的切分词都可以称为备选切分关键词,根据上述实施例,“红烧”75,“牛肉”88,“红烧牛肉”55,均大于设定阈值50,因此,“红烧”、“牛肉”和“红烧牛肉”均为备选切分关键词,本发明实施例仅仅是示例性说明,具体打分以及设定阈值的分数根据实际情况确定。
本发明实施例中,确定出备选切分关键之后,包括以下两种情况:
情况一、响应于所述备选切分关键词小于或等于设定字数,则确定所述备选切分关键词为所述切分关键词。
举例说明,假设所述设定字数为3,备选切分关键词中“红烧”和“牛肉”的长度小于3,因此,将“红烧”和“牛肉”确定为切分关键词。
情况二、响应于所述备选切分关键词大于设定字数,根据临接概率梯度变化率将所述备选切分关键词切分为所述切分关键词。
举例说明,假设所述设定字数为3,备选切分关键词中“红烧牛肉”的长度大于3,“烧牛”的临接概率梯度变化率最大,因此,在“烧”和“牛”之间进行切分,将“红烧牛肉”切分为“红烧”和“牛肉”,本发明实施例仅为实例性说明,具体根据实际情况确定。
步骤S106、所述至少一个处理器确定所述第一文本的最终切分方式,以及所述最终切分方式对应的最终切分关键词。
本发明实施例中,若第一文本的最终切分方式为一种,则将该切分方式对应的切分关键词确定为最终切分关键词。例如,“红烧牛肉”的最终切分方式为“红烧”和“牛肉”一种方式,即“红烧”和“牛肉”为最终切分关键词。
本发明实施例中,响应于所述第一文本的切分方式包括至少两种,将所述每种切分方式对应的最终切分关键词的分数与所述最终切分关键词间的临接概率梯度变化率进行加权处理,确定出最终评价信息;确定所述最终评价信息中最优最终评价信息对应的切分方式为最终切分方式,以及所述最终切分方式对应的最终切分关键词。
举例说明,假设第一文本为“酸豆角肉沫饭”,确定出的切分方式包括两种,第一种、“酸豆”、“角肉”和“沫饭”;第二种、“酸豆角”和“肉沫饭”,假设上述两种划分方式划分出的文本都为最终切分关键词,根本“酸豆”、“角肉”和“沫饭”间的临接概率梯度变化率进行加权处理,进行打分,即确定最终评价信息,本发明实施例中,加权处理的权重系数不做限定,具体根据实际情况确定;同理,确定“酸豆角”和“肉沫饭”的打分分数,假设“酸豆”、“角肉”和“沫饭”的打分分数为35分,“酸豆角”和“肉沫饭”的打分分数为65分,则选择65分对应的“酸豆角”和“肉沫饭”的切分方式,确定“酸豆角”和“肉沫饭”为最终切分关键词。
通过上述方法,可以准确的确定出第一文本的切分方式,提高切分的准确性。
步骤S107、所述至少一个处理器根据所述特征信息、所述最终切分方式以及所述最终切分关键词训练分词模型。
本发明实施例中,根据文本长度、次数、出现频率TF、逆文档概率IDF、左临概率、右临概率、以及临接概率梯度等特征信息,以及训练采用的第一文本,以及第一文本对应的最终切分方式训练分词模型,本发明实施例对具体的分词模型不做限定。
通过上述方法,训练出的分词模型准确性较高。
在本发明实施例中,如图2所示,图2是本发明第一实施例的文本处理的方法流程图,在步骤S107之后,该方法还包括:
步骤S108、所述至少一个处理器通过训练后的所述分词模型切分第三文本。
本发明实施例中,采用训练好的分词模型对新的文本进行切分。
在本发明实施例中,可选的,步骤S101之前,还需要进行文本清洗,举例说明,去除空格、特殊标点符号,以及该领域不使用的文本、或者短语,例如“好的、欢迎”等。
下面通过一个具体实施例,对本发明实施例涉及的文本处理的方法进行具体说明,处理流程还可以表示为图3所示:
步骤S300、接收到文本语料。
本发明实施例中,所述文本语料可以称为文本信息、文本等,本发明实施例对其不做限定。
步骤S301、对接收到的文本语料进行清洗。
步骤S302、对清洗后的文本语料进行Gram切分。
步骤S303、根据切分后的文本生成特征信息。
具体的,所述特征信息包括计数特征,例如,文本长度、出现次数;统计特征,例如,出现频率TF、逆文档概率IDF;概率特征,例如,左临概率、右临概率;以及梯度特征,例如临接概率梯度;本发明实施例中,还可以包括其他特征,本发明对其不做限定。
步骤S304、根据所述特征信息训练分词模型。
举例说明,假设清洗后获取的文本语料为“椰汁芦荟西米露”,对“椰汁芦荟西米露”进行Gram切分,切分是最长的文本长度设置为3,生成文本集合[椰汁、汁芦、芦荟、荟西、西米、米露、椰汁芦、汁芦荟、芦荟西、荟西米、西米露],针对每个文本集合中的文本生成特征信息,本发明实施例仅对长度为2的文本进行示例性说明,具体如下表1所示:
表1
本发明实施例中,由表1可知,“汁芦”与“荟西”的临接概率梯度较大,因此,需要在“汁”和“芦”之间进行切分,在“荟”和“西”之间进行切分,最后生成的切分关键词中包括“椰汁”、“芦荟”、“西米露”,本发明实施例中,还可能存在其他切分关键词,本发明对其不再赘述。对切分关键词进行打分,确定“椰汁”的分数为33,“芦荟”的分数为61,“西米露”分数为93,假设根据将每个切分关键词文本的分数和梯度变化的加权进行比较,“椰汁”、“芦荟”、“西米露”的分数最高,因此确定“椰汁”、“芦荟”、“西米露”为最优切分方式。
图4是本发明第二实施例的应用场景图,本发明实施例的全部流程均可在大数据分布式框架(spark)环境中运行,采用spark环境可以取得最快训练速度和完全自动化;或者,本发明实施例采用spark与高性能单机方式实现全部流程,实现与spark相近结果。本发明实施例通过至少一个处理器解析所述数据,获取至少一个第一文本,对所述至少一个第一文本进行切分,确定第二文本集合,通过所述至少一个处理器获取所述第二文本的特征信息,根据所述第二文本的特征信息确定评价信息,根据所述评价信息确定至少一个所述第二文本中的至少一个切分关键词;确定所述第一文本的最终切分方式,以及所述最终切分方式对应的最终切分关键词;根据所述特征信息、所述最终切分方式以及所述最终切分关键词训练分词模型。通过上述方法训练处的分词模型可以自动对文本进行准确的切分,减少人力资源的消耗,并且提高了文本分词的准确性。
图5是本发明第三实施例的文本处理的装置示意图。如图5所示,本实施例的装置包括接收单元51、获取单元52、第一确定单元53、第二确定单元54、第三确定单元55、第四确定单元56和处理单元57。
其中,接收单元51,用于接收来自于程序调用接口的数据;获取单元52,用于通过至少一个处理器解析所述数据,获取至少一个第一文本;第一确定单元53,用于通过所述至少一个处理器对所述至少一个第一文本进行切分,确定第二文本集合,所述第二文本集合包括至少一个第二文本,所述第二文本为第一文本的一部分;所述获取单元52还用于,通过所述至少一个处理器获取所述第二文本的特征信息;第二确定单元54,用于所述至少一个处理器根据所述第二文本的特征信息确定评价信息;第三确定单元55,用于所述至少一个处理器根据所述评价信息确定至少一个所述第二文本中的至少一个切分关键词;第四确定单元56,用于所述至少一个处理器确定所述第一文本的最终切分方式,以及所述最终切分方式对应的最终切分关键词;处理单元57,用于所述至少一个处理器根据所述特征信息、所述最终切分方式以及所述最终切分关键词训练分词模型。
进一步地,所述处理单元还用于:所述至少一个处理器通过训练后的所述分词模型切分第三文本。
进一步地,所述特征信息以及所述第一文本储存在数据库中,所述数据库为图模型。
进一步地,所述特征信息包括所述至少一个第二文本的文本长度、次数、出现频率TF、逆文档概率IDF、左临概率、右临概率、以及临接概率梯度。
进一步地,所述第三确定单元具体用于:所述至少一个处理器根据所述特征信息确定所述至少一个第二文本中的至少一个切分词以及所述至少一个切分词对应的分数;响应于所述分数大于设定阈值,则所述切分词为备选切分关键词;响应于所述备选切分关键词小于或等于设定字数,则确定所述备选切分关键词为所述切分关键词。
进一步地,所述第三确定单元具体还用于:响应于所述备选切分关键词大于设定字数,根据临接概率梯度变化率将所述备选切分关键词切分为所述切分关键词。
进一步地,所述第四确定单元具体用于:响应于所述第一文本的切分方式包括至少两种;将所述每种切分方式对应的最终切分关键词的分数与所述最终切分关键词间的临接概率梯度变化率进行加权处理,确定出最终评价信息;确定所述最终评价信息中最优最终评价信息对应的切分方式为最终切分方式,以及所述最终切分方式对应的最终切分关键词。
图6是本发明第四实施例的电子设备的示意图。在本实施例中,电子设备为服务器。应理解,还可以为其他电子设备,如树莓派。如图6所示,该电子设备:至少包括一个处理器601;以及,与至少一个处理器601通信连接的存储器602;以及,与扫描装置通信连接的通信组件603,通信组件603在处理器601的控制下接收和发送数据;其中,存储器602存储有可被至少一个处理器601执行的指令,指令被至少一个处理器601执行以实现:接收来自于程序调用接口的数据;通过至少一个处理器解析所述数据,获取至少一个第一文本;通过所述至少一个处理器对所述至少一个第一文本进行切分,确定第二文本集合,所述第二文本集合包括至少一个第二文本,所述第二文本为第一文本的一部分;通过所述至少一个处理器获取所述第二文本的特征信息;所述至少一个处理器根据所述第二文本的特征信息确定评价信息;所述至少一个处理器根据所述评价信息确定至少一个所述第二文本中的至少一个切分关键词;所述至少一个处理器确定所述第一文本的最终切分方式,以及所述最终切分方式对应的最终切分关键词;所述至少一个处理器根据所述特征信息、所述最终切分方式以及所述最终切分关键词训练分词模型。
进一步地,所述处理器具体执行:所述至少一个处理器通过训练后的所述分词模型切分第三文本。
进一步地,所述特征信息以及所述第一文本储存在数据库中,所述数据库为图模型。
进一步地,所述特征信息包括所述至少一个第二文本的文本长度、次数、出现频率TF、逆文档概率IDF、左临概率、右临概率、以及临接概率梯度。
进一步地,所述处理器具体执行:所述至少一个处理器根据所述特征信息确定所述至少一个第二文本中的至少一个切分词以及所述至少一个切分词对应的分数;响应于所述分数大于设定阈值,则所述切分词为备选切分关键词;响应于所述备选切分关键词小于或等于设定字数,则确定所述备选切分关键词为所述切分关键词。
进一步地,所述处理器具体执行:所述响应于所述分数大于设定阈值,则所述切分词为备选切分关键词之后,该方法还包括:响应于所述备选切分关键词大于设定字数,根据临接概率梯度变化率将所述备选切分关键词切分为所述切分关键词。
进一步地,所述处理器具体执行:响应于所述第一文本的切分方式包括至少两种;将所述每种切分方式对应的最终切分关键词的分数与所述最终切分关键词间的临接概率梯度变化率进行加权处理,确定出最终评价信息;确定所述最终评价信息中最优最终评价信息对应的切分方式为最终切分方式,以及所述最终切分方式对应的最终切分关键词。
具体地,该电子设备包括:一个或多个处理器601以及存储器602,图6中以一个处理器601为例。处理器601、存储器602可以通过总线或者其他方式连接,图6中以通过总线连接为例。存储器602作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。处理器601通过运行存储在存储器602中的非易失性软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述文本处理的方法。
存储器602可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储选项列表等。此外,存储器602可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器602可选包括相对于处理器601远程设置的存储器,这些远程存储器可以通过网络连接至外接设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
一个或者多个模块存储在存储器602中,当被一个或者多个处理器601执行时,执行上述任意方法实施例中的文本处理的方法。
上述产品可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果,未在本实施例中详尽描述的技术细节,可参见本申请实施例所提供的方法。
本发明的第五实施例涉及一种非易失性存储介质,用于存储计算机可读程序,所述计算机可读程序用于供计算机执行上述部分或全部的方法实施例。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域的普通技术人员可以理解,上述各实施例是实现本发明的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。
Claims (14)
1.一种文本处理的方法,其特征在于,该方法包括:
接收来自于程序调用接口的数据;
通过至少一个处理器解析所述数据,获取至少一个第一文本;
通过所述至少一个处理器对所述至少一个第一文本进行切分,将所述第一文本切分为不同设定长度的短语,确定第二文本集合,所述第二文本集合包括至少一个第二文本,所述第二文本为第一文本的一部分;
通过所述至少一个处理器获取所述第二文本的特征信息;
所述至少一个处理器根据所述第二文本的特征信息确定评价信息;
所述至少一个处理器根据所述评价信息确定至少一个所述第二文本中的至少一个切分关键词;
所述至少一个处理器确定所述第一文本的最终切分方式,以及所述最终切分方式对应的最终切分关键词;
所述至少一个处理器根据所述特征信息、所述最终切分方式以及所述最终切分关键词训练分词模型;
其中,所述至少一个处理器确定所述第一文本的最终切分方式,以及所述最终切分方式对应的最终切分关键词,具体包括:
响应于所述第一文本的切分方式包括至少两种;
将所述每种切分方式对应的最终切分关键词的分数与所述最终切分关键词间的临接概率梯度变化率进行加权处理,确定出最终评价信息;
确定所述最终评价信息中最优最终评价信息对应的切分方式为最终切分方式,以及所述最终切分方式对应的最终切分关键词。
2.如权利要求1所述的方法,其特征在于,该方法还包括:
所述至少一个处理器通过训练后的所述分词模型切分第三文本。
3.如权利要求1所述的方法,其特征在于,所述特征信息以及所述第一文本储存在数据库中,所述数据库为图模型。
4.如权利要求1所述的方法,其特征在于,所述特征信息包括所述至少一个第二文本的文本长度、次数、出现频率TF、逆文档概率IDF、左临概率、右临概率、以及临接概率梯度。
5.如权利要求1所述的方法,其特征在于,所述至少一个处理器根据所述特征信息确定所述至少一个第二文本中的至少一个切分关键词,具体包括:
所述至少一个处理器根据所述特征信息确定所述至少一个第二文本中的至少一个切分词以及所述至少一个切分词对应的分数;
响应于所述分数大于设定阈值,则所述切分词为备选切分关键词;
响应于所述备选切分关键词小于或等于设定字数,则确定所述备选切分关键词为所述切分关键词。
6.如权利要求5所述的方法,其特征在于,所述响应于所述分数大于设定阈值,则所述切分词为备选切分关键词之后,该方法还包括:
响应于所述备选切分关键词大于设定字数,根据临接概率梯度变化率将所述备选切分关键词切分为所述切分关键词。
7.一种文本处理的装置,其特征在于,该装置包括:
接收单元,用于接收来自于程序调用接口的数据;
获取单元,用于通过至少一个处理器解析所述数据,获取至少一个第一文本;
第一确定单元,用于通过所述至少一个处理器对所述至少一个第一文本进行切分,将所述第一文本切分为不同设定长度的短语,确定第二文本集合,所述第二文本集合包括至少一个第二文本,所述第二文本为第一文本的一部分;
所述获取单元还用于,通过所述至少一个处理器获取所述第二文本的特征信息;
第二确定单元,用于所述至少一个处理器根据所述第二文本的特征信息确定评价信息;
第三确定单元,用于所述至少一个处理器根据所述评价信息确定至少一个所述第二文本中的至少一个切分关键词;
第四确定单元,用于所述至少一个处理器确定所述第一文本的最终切分方式,以及所述最终切分方式对应的最终切分关键词;
处理单元,用于所述至少一个处理器根据所述特征信息、所述最终切分方式以及所述最终切分关键词训练分词模型;
其中,所述第四确定单元具体用于:响应于所述第一文本的切分方式包括至少两种;
将所述每种切分方式对应的最终切分关键词的分数与所述最终切分关键词间的临接概率梯度变化率进行加权处理,确定出最终评价信息;
确定所述最终评价信息中最优最终评价信息对应的切分方式为最终切分方式,以及所述最终切分方式对应的最终切分关键词。
8.如权利要求7所述的装置,其特征在于,所述处理单元还用于:
所述至少一个处理器通过训练后的所述分词模型切分第三文本。
9.如权利要求7所述的装置,其特征在于,所述特征信息以及所述第一文本储存在数据库中,所述数据库为图模型。
10.如权利要求7所述的装置,其特征在于,所述特征信息包括所述至少一个第二文本的文本长度、次数、出现频率TF、逆文档概率IDF、左临概率、右临概率、以及临接概率梯度。
11.如权利要求7所述的装置,其特征在于,所述第三确定单元具体用于:
所述至少一个处理器根据所述特征信息确定所述至少一个第二文本中的至少一个切分词以及所述至少一个切分词对应的分数;
响应于所述分数大于设定阈值,则所述切分词为备选切分关键词;
响应于所述备选切分关键词小于或等于设定字数,则确定所述备选切分关键词为所述切分关键词。
12.如权利要求11所述的装置,其特征在于,所述第三确定单元具体还用于:
响应于所述备选切分关键词大于设定字数,根据临接概率梯度变化率将所述备选切分关键词切分为所述切分关键词。
13.一种计算机可读存储介质,其上存储计算机程序指令,其特征在于,所述计算机程序指令在被处理器执行时实现如权利要求1-6中任一项所述的方法。
14.一种电子设备,包括存储器和处理器,其特征在于,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911275301.4A CN111079411B (zh) | 2019-12-12 | 2019-12-12 | 一种文本处理的方法、装置、可读存储介质和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911275301.4A CN111079411B (zh) | 2019-12-12 | 2019-12-12 | 一种文本处理的方法、装置、可读存储介质和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111079411A CN111079411A (zh) | 2020-04-28 |
CN111079411B true CN111079411B (zh) | 2023-10-13 |
Family
ID=70314198
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911275301.4A Active CN111079411B (zh) | 2019-12-12 | 2019-12-12 | 一种文本处理的方法、装置、可读存储介质和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111079411B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117574243B (zh) * | 2024-01-15 | 2024-04-26 | 河北网新数字技术股份有限公司 | 一种数据分析方法、装置及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104063387A (zh) * | 2013-03-19 | 2014-09-24 | 三星电子(中国)研发中心 | 在文本中抽取关键词的装置和方法 |
CN107992475A (zh) * | 2017-11-27 | 2018-05-04 | 武汉中海庭数据技术有限公司 | 一种基于车载导航仪全文检索的多语言分词方法及装置 |
CN108197116A (zh) * | 2018-01-31 | 2018-06-22 | 天闻数媒科技(北京)有限公司 | 一种中文文本分词的方法、装置、分词设备及存储介质 |
CN110377724A (zh) * | 2019-07-01 | 2019-10-25 | 厦门美域中央信息科技有限公司 | 一种基于数据挖掘的语料库关键词自动抽取算法 |
-
2019
- 2019-12-12 CN CN201911275301.4A patent/CN111079411B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104063387A (zh) * | 2013-03-19 | 2014-09-24 | 三星电子(中国)研发中心 | 在文本中抽取关键词的装置和方法 |
CN107992475A (zh) * | 2017-11-27 | 2018-05-04 | 武汉中海庭数据技术有限公司 | 一种基于车载导航仪全文检索的多语言分词方法及装置 |
CN108197116A (zh) * | 2018-01-31 | 2018-06-22 | 天闻数媒科技(北京)有限公司 | 一种中文文本分词的方法、装置、分词设备及存储介质 |
CN110377724A (zh) * | 2019-07-01 | 2019-10-25 | 厦门美域中央信息科技有限公司 | 一种基于数据挖掘的语料库关键词自动抽取算法 |
Also Published As
Publication number | Publication date |
---|---|
CN111079411A (zh) | 2020-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109710947B (zh) | 电力专业词库生成方法及装置 | |
CN103198057B (zh) | 一种自动给文档添加标签的方法和装置 | |
CN109299280B (zh) | 短文本聚类分析方法、装置和终端设备 | |
CN110096572B (zh) | 一种样本生成方法、装置及计算机可读介质 | |
KR20180078318A (ko) | 선행사의 결정방법 및 장치 | |
CN107688630B (zh) | 一种基于语义的弱监督微博多情感词典扩充方法 | |
CN110134777B (zh) | 问题去重方法、装置、电子设备和计算机可读存储介质 | |
Daiber et al. | Splitting compounds by semantic analogy | |
CN110569354A (zh) | 弹幕情感分析方法及装置 | |
CN112527977B (zh) | 概念抽取方法、装置、电子设备及存储介质 | |
CN111159377A (zh) | 属性召回模型训练方法、装置、电子设备以及存储介质 | |
CN111079411B (zh) | 一种文本处理的方法、装置、可读存储介质和电子设备 | |
CN116050397A (zh) | 一种长文本摘要生成方法、系统、设备及存储介质 | |
CN106528726A (zh) | 基于关键词优化实现搜索引擎优化技术 | |
CN104516870A (zh) | 一种译文检查方法及其系统 | |
CN111444713B (zh) | 新闻事件内实体关系抽取方法及装置 | |
CN107491441B (zh) | 一种基于强制解码的动态抽取翻译模板的方法 | |
KR20170048736A (ko) | 문자 중계 데이터로부터 이벤트 정보를 추출하는 이벤트 정보 추출 방법 및 그 방법을 수행하는 사용자 단말 | |
CN105631025B (zh) | 一种查询标签的归一化处理方法和装置 | |
CN112818693A (zh) | 一种电子元器件型号词的自动提取方法及系统 | |
CN112528640A (zh) | 一种基于异常子图检测的领域术语自动抽取方法 | |
CN110069772B (zh) | 预测问答内容的评分的装置、方法及存储介质 | |
CN103984731A (zh) | 微博环境下自适应话题追踪方法和装置 | |
CN110569504A (zh) | 一种关系词确定方法及装置 | |
CN106202033B (zh) | 一种基于依存约束和知识的副词词义消歧方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |