CN114265918B - 文本切分方法、装置及电子设备 - Google Patents
文本切分方法、装置及电子设备 Download PDFInfo
- Publication number
- CN114265918B CN114265918B CN202111455800.9A CN202111455800A CN114265918B CN 114265918 B CN114265918 B CN 114265918B CN 202111455800 A CN202111455800 A CN 202111455800A CN 114265918 B CN114265918 B CN 114265918B
- Authority
- CN
- China
- Prior art keywords
- text
- segmentation
- corpus
- vector
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 255
- 238000000034 method Methods 0.000 title claims abstract description 80
- 239000013598 vector Substances 0.000 claims abstract description 196
- 238000007781 pre-processing Methods 0.000 claims abstract description 15
- 238000012549 training Methods 0.000 claims description 66
- 238000012360 testing method Methods 0.000 claims description 16
- 230000015654 memory Effects 0.000 claims description 14
- 238000012216 screening Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 8
- 230000001502 supplementing effect Effects 0.000 claims description 6
- 230000002457 bidirectional effect Effects 0.000 claims 1
- 238000004891 communication Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 6
- 238000003058 natural language processing Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 241000220225 Malus Species 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000003066 decision tree Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 235000021016 apples Nutrition 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供一种文本切分方法、装置及电子设备,其中,文本切分方法包括:获取第一文本语料,所述第一文本语料为对原始文本语料进行格式调整后生成;对所述第一文本语料进行预处理,生成第一文本向量;将所述第一文本向量输入目标模型以进行语义分析,获取输出结果,所述输出结果包括用于指示所述第一文本语料是否需要基于文本语义进行文本切分的判别元素以及所述第一文本向量各元素对应的切分概率;在所述第一文本语料需要基于文本语义进行文本切分的情况下,根据所述第一文本向量各元素对应的切分概率,对所述第一文本语料进行文本切分。本申请可以利用目标模型进行语义分析以进行文本切分,提高了文本切分效率和文本切分准确度。
Description
技术领域
本申请涉及文本处理技术领域,尤其涉及一种文本切分方法、装置及电子设备。
背景技术
自然语言处理(Natural Language Processing,NLP),是计算机科学领域与人工智能领域中的一个重要方向,它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法,是一门融语言学、计算机科学、数学于一体的科学,主要应用于机器翻译、舆情监测、观点提取、文本分类、问题回答、文本语义对比、语音识别等方面。
随着自然语言处理技术的不断发展,该技术被不断应用到各个领域,例如,基于自然语言处理进行商品评论观点识别、情感分析等。在基于自然语言处理进行文本分析、文本识别时需要基于正确切分的文本。
现有技术中,在进行文本切分时,通常采用规则匹配或机器学习的方式。针对规则匹配而言,就是利用固定的规则对文本进行判断和处理,并没有考虑句子的语义信息,当句子没有明显规则的时候,这种方法难以生效。针对机器学习而言,机器学习的方法包括决策树、逻辑回归等。决策树是建立一个二元分类器,判断某种字符是不是出现在了句尾,决策树的本质就是一系列条件语句的声明,这种方式也仅考虑了句子的形式信息,切分效果不理想。逻辑回归一般会根据大规模语料的统计特征选取候选句子切分点,对每一个候选句子切分点提取其上下文特征,并根据语料的统计特征,使用逻辑回归对候选切分点进行分类,最后完成句子的切分。这种方法多是考虑切分点的上下文的文法特征以及词性信息组合等,缺乏语义信息的分析,并且效果也差强人意。
综上所述,现有技术中在进行文本切分时存在缺乏语义信息分析、切分效果不佳的问题。
发明内容
本申请旨在提供一种文本切分方法、装置及电子设备,以解决现有技术中在进行文本切分时存在的缺乏语义信息分析、切分效果不佳的问题。
为了解决上述技术问题,本申请是这样实现的:
第一方面,本申请实施例提供了一种文本切分方法,包括:
获取第一文本语料,所述第一文本语料为对原始文本语料进行格式调整后生成;
对所述第一文本语料进行预处理,生成第一文本向量;
将所述第一文本向量输入目标模型以进行语义分析,获取输出结果,所述输出结果包括用于指示所述第一文本语料是否需要基于文本语义进行文本切分的判别元素以及所述第一文本向量各元素对应的切分概率;
在所述第一文本语料需要基于文本语义进行文本切分的情况下,根据所述第一文本向量各元素对应的切分概率,对所述第一文本语料进行文本切分。
第二方面,本申请实施例提供了一种文本切分装置,包括:
第一获取模块,用于获取第一文本语料,所述第一文本语料为对原始文本语料进行格式调整后生成;
第一生成模块,用于对所述第一文本语料进行预处理,生成第一文本向量;
第二获取模块,用于将所述第一文本向量输入目标模型以进行语义分析,获取输出结果,所述输出结果包括用于指示所述第一文本语料是否需要基于文本语义进行文本切分的判别元素以及所述第一文本向量各元素对应的切分概率;
切分模块,用于在所述第一文本语料需要基于文本语义进行文本切分的情况下,根据所述第一文本向量各元素对应的切分概率,对所述第一文本语料进行文本切分。
第三方面,本申请实施例提供了一种电子设备,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上述第一方面所述的文本切分方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述的文本切分方法的步骤。
本申请实施例技术方案,通过对原始文本语料进行格式调整后获取第一文本语料,对第一文本语料进行预处理,获取第一文本向量,将第一文本向量输入到目标模型中进行语义分析,获取目标模型的输出结果,根据输出结果对需要基于文本语义进行文本切分的第一文本语料进行文本切分,可以实现基于预先训练好的模型进行语义分析,以切分文本,提高了文本切分效率,同时提高了文本切分的准确度。
附图说明
图1表示本申请实施例提供的文本切分方法的示意图;
图2表示本申请实施例提供的模型训练的方法示意图;
图3表示本申请实施例提供的文本切分方法的一整体实施流程图;
图4表示本申请实施例提供的文本切分装置的示意图;
图5表示本申请实施例提供的电子设备框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。
在本发明的各种实施例中,应理解,下述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
本申请实施例提供了一种文本切分方法,参见图1所示,所述方法包括:
步骤101、获取第一文本语料,所述第一文本语料为对原始文本语料进行格式调整后生成。
本申请实施例提供的文本切分方法用于对中文文本进行切分,首先获取原始文本语料,对原始文本语料进行格式调整后生成第一文本语料。对原始文本语料进行格式调整可以包括:统一原始文本语料中的字符的全半角形式,统一原始文本语料中的字符的大小写,过滤掉原始文本语料中的标点符号,当然并不限于上述三种调整形式。
例如,针对统一原始文本语料中的字符的大小写的情况,当一原始文本语料为“我一共有5个苹果,你呢?”,对原始文本语料中的字符统一大小写之后,变化为“我一共有五个苹果,你呢?”。
其中,语料即为文本数据,通常指电子化后的文本数据,可以是任何语种任何主题的可被理解的文本信息,本申请实施例中指代的是中文文本;文本切分是指将文本语料分解成更小的文本片段的过程。
步骤102、对所述第一文本语料进行预处理,生成第一文本向量。
在获取第一文本语料之后,对第一文本语料进行预处理,获取第一文本向量,其中,预处理包括将第一文本语料转化为对应的向量形式,以通过向量形式来表示第一文本语料。可以将第一文本语料中对应的字符均转化为对应的数字,进而构造第一文本向量。
针对将第一文本语料中对应的字符均转化为对应的数字的情况,当第一文本语料为“我一共有五个苹果你呢”时,可以将第一文本语料中对应的字符均转化为对应的数字,如:【1,2,3,4,5,6,7,8,9,10】,则“我”对应的数字编号为“1”,“一”对应的数字编号为“2”,以此类推,每一个中文字符对应一个数字编号。
步骤103、将所述第一文本向量输入目标模型以进行语义分析,获取输出结果,所述输出结果包括用于指示所述第一文本语料是否需要基于文本语义进行文本切分的判别元素以及所述第一文本向量各元素对应的切分概率。
将第一文本向量输入目标模型之后,可以通过目标模型对第一文本向量进行语义分析,获取目标模型输出的第一文本向量对应的输出结果。其中,输出结果在包括第一文本向量中各元素分别对应的切分概率外,还包括一判别元素,该判别元素用于指示第一文本语料是否需要基于文本语义进行文本切分,判别元素可以为预先设置的数字,如判别元素为1,则表示第一文本语料需要基于文本语义进行文本切分,判别元素为0,则表示第一文本语料不需要基于文本语义进行文本切分。
需要说明的是,针对第一文本向量中的每个元素而言,对应于一正向概率以及一反向概率,正向概率表明需要进行文本切分,反向概率表明不需要进行文本切分,正向概率与反向概率之和为1。针对正向概率大于反向概率的情况,表明需要进行文本切分,针对正向概率小于反向概率的情况,表明不需要进行文本切分。本申请实施例中以正向概率为例进行说明,即输出结果中的概率均为正向概率。针对正向概率大于50%的情况,可以确定需要进行文本切分。
其中,由于输出结果包括第一文本向量各元素对应的切分概率,可以根据各元素对应的切分概率将输出结果的显示形式进行更新。如针对切分概率大于50%的情况,采用第一数字(如1)代替切分概率,针对切分概率小于50%的情况,采用第二数字(如0)代替切分概率,实现输出结果的更新。
步骤104、在所述第一文本语料需要基于文本语义进行文本切分的情况下,根据所述第一文本向量各元素对应的切分概率,对所述第一文本语料进行文本切分。
在获取包括判别元素以及第一文本向量各元素对应的切分概率的输出结果之后,可以根据判别元素确定第一文本语料是否需要基于文本语义进行文本切分。在确定第一文本语料需要基于文本语义进行文本切分时,可以根据第一文本向量中各元素对应的切分概率对第一文本语料进行切分。第一文本向量中各元素对应的切分概率,即为第一文本语料中各字符对应的切分概率。
其中,在对第一文本语料进行文本切分时,可以根据切分概率确定出切分点,切分点即为第一文本语料中切分概率满足预设条件的字符对应的位置。
本申请上述实施过程,通过对原始文本语料进行格式调整后获取第一文本语料,对第一文本语料进行预处理,获取第一文本向量,将第一文本向量输入到目标模型中进行语义分析,获取目标模型的输出结果,根据输出结果对需要基于文本语义进行文本切分的第一文本语料进行文本切分,可以实现基于预先训练好的模型进行语义分析,以切分文本,提高了文本切分效率,同时提高了文本切分的准确度。
在本申请一可选实施例中,所述对所述第一文本语料进行预处理,生成第一文本向量,包括:
将所述第一文本语料转化为向量形式,生成第一参考向量;
在所述第一参考向量对应的元素数目小于第一预设元素数目的情况下,在预设位置补充预设元素,生成对应于所述第一预设元素数目的所述第一文本向量;
在所述第一参考向量对应的元素数目大于所述第一预设元素数目的情况下,基于预设截取策略在所述第一参考向量中截取所述第一预设元素数目的元素,生成所述第一文本向量。
在对第一文本语料进行预处理生成第一文本向量时,首先需要将第一文本语料转化为向量形式,以生成第一参考向量。其中,在进行目标模型的训练时,为了保证模型训练效果,需要针对样本数据对应的向量设定对应的元素数目限制。因此在生成第一参考向量之后,可以将第一参考向量对应的元素数目与第一预设元素数目进行比较,第一预设元素数目即为模型训练时针对样本数据所设定的元素数目。
当第一参考向量对应的元素数目小于第一预设元素数目时,可以针对第一参考向量在预设位置补充预设元素,生成元素数目为第一预设元素数目的第一文本向量,其中,预设位置可以为第一参考向量的末尾位置,第一参考向量的开头位置,也可以为其他位置,预设元素是预先设定的元素,可以与第一参考向量中的某一元素相同,也可以与第一参考向量中的各元素相区别。
下面对在第一参考向量末尾位置补充预设元素的情况进行举例说明。第一参考向量为【1,2,3,4,5,6,7,8,9,10】,第一预设元素数目为12,可以在第一参考向量的末尾位置补充预设元素0,以获取第一文本向量,此时,第一文本向量可以表示为:【1,2,3,4,5,6,7,8,9,10,0,0】。
在第一参考向量对应的元素数目大于第一预设元素数目的情况下,按照预设截取策略截取第一参考向量中的部分元素,预设截取策略可以为:从开头位置按照由左至右的顺序截取第一预设元素数目的元素,从结尾位置按照由右至左的顺序截取第一预设元素数目的元素,将某一设定元素确定为截取起始位置或者截取终止位置、截取第一预设元素数目的元素,当然并不限于上述所列举的几种截取方式。
例如,第一参考向量为【1,2,3,4,5,6,7,8,9,10,11,12,13,14】,第一预设元素数目为12,可以从开头位置按照由左至由的顺序截取第一预设元素数目的元素,以获取第一文本向量,此时获取的第一文本向量为【1,2,3,4,5,6,7,8,9,10,11,12】。
本申请上述实施过程,通过将第一文本语料转为向量形式,生成第一参考向量,并在第一参考向量对应的元素数目小于第一预设元素数目的情况下,在预设位置补充预设元素,在第一参考向量对应的元素数目大于第一预设元素数目的情况下,基于预设截取策略截取部分元素,可以实现获取对应于第一预设元素数目的第一文本向量,以便于可以向目标模型输入统一格式的文本向量以进行语义分析。
在本申请一可选实施例中,所述将所述第一文本向量输入目标模型以进行文本分析,获取输出结果,包括:
将所述第一文本向量输入所述目标模型以进行语义分析,获取所述目标模型输出的对应于第二预设元素数目的输出结果;
其中,所述第二预设元素数目与所述第一预设元素数目的差值为所述判别元素对应的元素数目。
将第一文本向量输入目标模型进行语义分析之后,可以获取目标模型输出的第一文本向量对应的输出结果,其中输出结果包括的元素的个数为第二预设元素数目,第一文本向量的元素数目为第一预设元素数目,第一文本向量中的每个元素对应一切分概率,由于输出结果中包括第一文本向量中各个元素对应的切分概率以及判别元素,因此第二预设元素数目与判别元素对应的元素数目的差值,为第一预设元素数目。其中,上述判别元素放置在输出结果的首个位置,以便于可以基于输出结果快速了解是否需要进行文本切分。
本申请上述实施过程,通过获取对应于第二预设元素数目的输出结果,可以根据输出结果中的判别元素了解是否需要进行文本切分,在需要进行文本切分时,基于输出结果中的第一文本向量中各元素的切分概率,确定第一文本语料的切分点,以进行文本切分。
在本申请一可选实施例中,在获取所述输出结果之后,还包括:
当所述判别元素为第一元素的情况下,确定所述第一文本语料需要基于文本语义进行文本切分;
当所述判别元素为第二元素的情况下,确定所述第一文本语料不需要基于文本语义进行文本切分。
在获取目标模型输出的第一文本向量对应的输出结果之后,检测输出结果中的判别元素为第一元素还是第二元素,在判别元素为第一元素的情况下,确定第一文本语料需要基于文本语义进行文本切分,然后基于输出结果中的切分概率对第一文本语料进行文本切分,在判别元素为第二元素的情况下,确定第一文本语料不需要基于文本语义进行文本切分。
本申请上述实施过程,在获取输出结果之后,可以基于输出结果中的判别元素快速确定是否需要对第一文本语料进行文本切分。
在本申请一可选实施例中,所述根据所述第一文本向量各元素对应的切分概率,对所述第一文本语料进行文本切分,包括:
根据所述第一文本向量中的目标位置,确定所述第一文本语料对应的切分位置,所述目标位置为目标元素对应的位置,所述目标元素对应的切分概率大于第一预设值;
根据所述第一文本语料对应的切分位置,对所述第一文本语料进行文本切分。
在根据判别元素确定第一文本语料需要基于文本语义进行文本切分之后,可以根据输出结果中包含的第一文本向量各元素对应的切分概率,对第一文本语料进行文本切分。在对第一文本语料进行文本切分时,需要根据第一文本向量各元素对应的切分概率,在第一文本向量中确定目标元素对应的目标位置,其中目标元素为第一文本向量中对应的切分概率大于第一预设值的元素。第一预设值可以为50%,即,将切分概率大于50%的元素确定为目标元素,将目标元素在第一文本向量中对应的位置确定为目标位置。
在确定目标位置之后,可以根据第一文本向量中的目标位置,确定第一文本语料对应的切分位置。由于第一文本向量中的每个元素与第一文本语料中的每个字符一一对应,可以根据元素与字符的对应关系,依据目标位置在第一文本语料中确定切分位置。
需要说明的是,第一文本语料中的切分位置为某个字符对应的位置,在根据第一文本语料对应的切分位置,对第一文本语料进行文本切分时,可以将与目标位置对应的字符确定为切分点,在切分点处进行文本切分,在切分点处进行文本切分时,切分点位于切分符号之前。
本申请上述实施过程,通过基于切分概率确定第一文本向量中的目标位置,基于目标位置确定第一文本语料对应的切分位置,根据切分位置对第一文本语料进行文本切分,可以实现基于目标模型输出的切分概率进行文本切分,提高了文本切分效率,同时提高了文本切分的准确度。
可选地,在通过目标模型进行语义分析之前,需要通过模型训练生成目标模型,下面对生成目标模型的过程进行阐述,参见图2所示,包括:
步骤201、获取训练样本集合,所述训练样本集合包括多个第二文本语料,所述第二文本语料为对原始文本语料进行格式调整后生成。
其中,多个第二文本语料包括第一数目的基于文本语义进行文本切分后的第二文本语料以及第二数目的不需要基于文本语义进行文本切分的第二文本语料。
在进行模型训练时,需要采集训练样本以生成训练样本集合,其中在进行训练样本采集时,需要采集多个第二文本语料作为训练样本,第二文本语料为对原始文本语料进行格式调整后生成,格式调整的过程可参见获取第一文本语料的过程,这里不再赘述。
其中,所获取的多个第二文本语料中包括第一数目的基于文本语义进行文本切分后的第二文本语料,以及,第二数目的不需要基于文本语义进行文本切分的第二文本语料,第一数目和第二数目之比为目标比例。针对第一数目的第二文本语料,每个第二文本语料对应有切分点,即,针对这些第二文本语料已通过人工进行了文本切分。
步骤202、根据训练样本集合生成多个第二文本向量。
在获取包括多个第二文本语料的训练样本集合之后,可以针对训练样本集合中的每个第二文本语料分别进行处理,以获取包括多个第二文本向量的文本向量集合。其中,针对第二文本语料而言,可以获取两个第二文本向量,一个第二文本向量基于第二文本语料中的字符确定,另一个第二文本向量基于第二文本语料中的切分点的位置确定,即,文本向量集合中包括每个第二文本语料对应的两个第二文本向量。
步骤203、根据所述多个第二文本向量,进行多次模型训练,生成目标模型,所述目标模型为基于文本语义输出所述判别元素以及切分概率的模型。
在根据多个第二文本语料生成多个第二文本向量之后,可以根据多个第二文本向量,基于预设模型框架进行多次模型训练,生成基于文本语义输出判别元素以及切分概率的目标模型。如,以双向长短期记忆(Bi-directional Long Short-Term Memory,BiLSTM)框架为依据,利用多个第二文本向量进行模型训练。BiLSTM框架由前向长短期记忆网络(Long Short-Term Memory,LSTM)和后向LSTM组合而成,LSTM是人工神经网络的一种模型结构,适合处理序列相关的机器学习问题,是循环神经网络(Recurrent Neural Network,RNN)的一种,针对有序的数据,有对数据信息长短记忆的功能。
本申请上述实施过程,通过获取训练样本集合,基于训练样本集合确定多个第二文本向量,采用多个第二文本向量进行模型训练,生成基于文本语义输出判别元素以及切分概率的目标模型,以便于利用目标模型进行文本切分。
下面对根据训练样本集合生成多个第二文本向量的过程进行阐述,针对每个第二文本语料而言,可以基于第二文本语料中的字符,生成第二参考向量,进而对第二参考向量进行处理生成与字符相关的第二文本向量,还可以基于第二文本语料中的切分点的位置生成与切分点相关的第二文本向量。即,针对每个第二文本语料,可以对应于一个第二文本向量组,该文本向量组中包括与字符相关的第二文本向量以及与切分点相关的第二文本向量。
其中,在对第二参考向量进行处理生成与字符相关的第二文本向量时,可以对第二参考向量进行预设元素补充或者进行元素截取,生成与字符相关的第二文本向量。针对第二参考向量对应的元素数目小于第一预设元素数目的情况,在第二参考向量的预设位置补充预设元素生成对应于第一预设元素数目的第二文本向量;针对第二参考向量对应的元素数目大于第一预设元素数目的情况,基于预设截取策略在第二参考向量中截取第一预设元素数目的元素,生成与字符相关的第二文本向量。在预设位置补充预设元素以及基于预设截取策略截取元素的过程可参见第一参考向量的处理过程,这里不再赘述。
其中,在生成与切分点相关的第二文本向量时,可以根据第二文本语料对应的切分点的位置,生成对应的向量,如,针对对应于切分点的字符,设置元素为1,针对不对应于切分点的字符,设置元素为0,以生成与切分点相关的第二文本向量,且还可以在开头插入一个元素来表示该第二文本语料是否存在切分点。针对存在切分点的第二文本语料,在开头插入的元素可以为1,用于表征存在切分点,且与切分点相关的第二文本向量中可以包括不同的元素(包括与切分点对应的元素和与非切分点对应的元素);针对不存在切分点的第二文本语料,在开头插入的元素可以为0,用于表征不存在切分点,且与切分点相关的第二文本向量中可以包括同一元素(与非切分点对应的元素)。需要说明的是,与字符相关的第二文本向量,也可以在开头插入一个元素来表示该第二文本语料是否存在切分点。
在获取多个第二文本向量之后,可以根据多个第二文本向量,进行多次模型训练,生成目标模型,在进行模型训练时可以包括如下步骤:在所述多个第二文本向量中筛选出测试数据和训练数据;根据所述训练数据进行模型训练;在经过多次模型训练后,获取多个第一模型;根据所述测试数据在所述多个第一模型中筛选出所述目标模型。
在进行模型训练时,首先在多个第二文本向量中筛选出可作为测试数据的第二文本向量和可作为训练数据的第二文本向量,其中,测试数据中包括第二文本向量组,即包括与切分点相关的第二文本向量以及对应的与字符相关的第二文本向量,相应的,训练数据中也包括第二文本向量组,即包括与切分点相关的第二文本向量以及对应的与字符相关的第二文本向量。其中,训练数据的数目多于测试数据,且训练数据的数目与测试数据的数目之比为预先设置的比例,例如,训练数据与测试数据的数目之比为5:1。
然后基于预设模型框架,采用训练数据进行多次模型训练,得到多个第一模型,可以是针对每次训练分别确定一第一模型,多次模型训练与多个第一模型一一对应。基于测试数据对多个第一模型进行测试,基于测试结果在多个第一模型中筛选出最优模型作为目标模型。
本申请上述实施过程,在模型训练之前确定训练数据和测试数据,利用训练数据进行模型,并基于测试数据在训练的多个第一模型中筛选出最终模型,可以保证获取效果较佳的目标模型。
下面对本申请实施例提供的文本切分方法的整体实施过程进行介绍,参见图3所示,包括如下步骤:
步骤301、获取包括多个第二文本语料的训练样本集合,根据训练样本集合生成多个第二文本向量。
步骤302、根据多个第二文本向量,进行多次模型训练,生成目标模型。
步骤303、获取第一文本语料。
步骤304、对第一文本语料进行预处理,生成第一文本向量。
步骤305、将第一文本向量输入目标模型以进行语义分析,获取包括判别元素以及第一文本向量各元素对应的切分概率的输出结果。
步骤306、根据输出结果中的判别元素确定第一文本语料是否需要基于文本语义进行文本切分。
步骤307、在第一文本语料需要基于文本语义进行文本切分的情况下,根据第一文本向量各元素对应的切分概率,对第一文本语料进行文本切分。
上述实施流程,通过模型进行语义分析,判断文本是否需要切分并在需要进行文本切分时根据切分位置执行文本切分任务,可以实现利用模型取代基于规则匹配和机器学习的方法来完成文本切分工作。
以上为本申请实施例提供的文本切分方法的整体实施过程,通过对原始文本语料进行格式调整后获取第一文本语料,对第一文本语料进行预处理,获取第一文本向量,将第一文本向量输入到目标模型中进行语义分析,获取目标模型的输出结果,根据输出结果对需要基于文本语义进行文本切分的第一文本语料进行文本切分,可以实现基于预先训练好的模型进行语义分析,以切分文本,提高了文本切分效率,同时提高了文本切分的准确度。
进一步地,在获取输出结果之后,检测输出结果中的判别元素,可以实现基于判别元素快速确定是否需要对第一文本语料进行文本切分,在确定第一文本语料需进行文本切分时,基于第一文本向量中各元素的切分概率,确定第一文本语料的切分点以进行文本切分,可以提升文本切分的准确度。
通过获取训练样本集合,基于训练样本集合确定多个第二文本向量,采用多个第二文本向量进行模型训练,生成基于文本语义输出判别元素以及切分概率的目标模型,以便于利用目标模型进行文本切分。
本申请实施例提供的文本切分方法,通过使用深度学习神经网络的方法进行语义分析,判别是否需要进行文本切分,在需要进行文本切分时根据切分位置执行文本切分任务,实现利用深度学习取代基于规则匹配和机器学习的方法来完成文本切分工作。
本申请实施例还提供一种文本切分装置,参见图4所示,包括:
第一获取模块401,用于获取第一文本语料,所述第一文本语料为对原始文本语料进行格式调整后生成;
第一生成模块402,用于对所述第一文本语料进行预处理,生成第一文本向量;
第二获取模块403,用于将所述第一文本向量输入目标模型以进行语义分析,获取输出结果,所述输出结果包括用于指示所述第一文本语料是否需要基于文本语义进行文本切分的判别元素以及所述第一文本向量各元素对应的切分概率;
切分模块404,用于在所述第一文本语料需要基于文本语义进行文本切分的情况下,根据所述第一文本向量各元素对应的切分概率,对所述第一文本语料进行文本切分。
可选地,所述第一生成模块包括:
第一生成子模块,用于将所述第一文本语料转化为向量形式,生成第一参考向量;
第二生成子模块,用于在所述第一参考向量对应的元素数目小于第一预设元素数目的情况下,在预设位置补充预设元素,生成对应于所述第一预设元素数目的所述第一文本向量;
第三生成子模块,用于在所述第一参考向量对应的元素数目大于所述第一预设元素数目的情况下,基于预设截取策略在所述第一参考向量中截取所述第一预设元素数目的元素,生成所述第一文本向量。
可选地,所述第二获取模块进一步用于:
将所述第一文本向量输入所述目标模型以进行语义分析,获取所述目标模型输出的对应于第二预设元素数目的输出结果;
其中,所述第二预设元素数目与所述第一预设元素数目的差值为所述判别元素对应的元素数目。
可选地,该装置还包括:
第一确定模块,用于在所述第二获取模块获取所述输出结果之后,当所述判别元素为第一元素的情况下,确定所述第一文本语料需要基于文本语义进行文本切分;
第二确定模块,用于在所述第二获取模块获取所述输出结果之后,当所述判别元素为第二元素的情况下,确定所述第一文本语料不需要基于文本语义进行文本切分。
可选地,所述切分模块包括:
确定子模块,用于根据所述第一文本向量中的目标位置,确定所述第一文本语料对应的切分位置,所述目标位置为目标元素对应的位置,所述目标元素对应的切分概率大于第一预设值;
切分子模块,用于根据所述第一文本语料对应的切分位置,对所述第一文本语料进行文本切分。
可选地,所述装置还包括:
第三获取模块,用于获取训练样本集合,所述训练样本集合包括多个第二文本语料,所述第二文本语料为对原始文本语料进行格式调整后生成;
第二生成模块,用于根据所述训练样本集合生成多个第二文本向量;
训练生成模块,用于根据所述多个第二文本向量,进行多次模型训练,生成目标模型,所述目标模型为基于文本语义输出所述判别元素以及切分概率的模型;
其中,所述多个第二文本语料包括第一数目的基于文本语义进行文本切分后的所述第二文本语料以及第二数目的不需要基于文本语义进行文本切分的所述第二文本语料。
可选地,所述训练生成模块包括:
第一筛选子模块,用于在所述多个第二文本向量中筛选出测试数据和训练数据;
训练子模块,用于根据所述训练数据进行模型训练;
获取子模块,用于在经过多次模型训练后,获取多个第一模型;
第二筛选子模块,用于根据所述测试数据在所述多个第一模型中筛选出所述目标模型。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
优选的,本申请实施例还提供了一种电子设备,包括:处理器,存储器,存储在存储器上并可在处理器上运行的计算机程序,该计算机程序被处理器执行时实现上述文本切分方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
举例如下,图5示出了一种电子设备的实体结构示意图。
如图5所示,该电子设备可以包括:处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令。处理器510用于执行以下步骤:获取第一文本语料,所述第一文本语料为对原始文本语料进行格式调整后生成;对所述第一文本语料进行预处理,生成第一文本向量;将所述第一文本向量输入目标模型以进行语义分析,获取输出结果,所述输出结果包括用于指示所述第一文本语料是否需要基于文本语义进行文本切分的判别元素以及所述第一文本向量各元素对应的切分概率;在所述第一文本语料需要基于文本语义进行文本切分的情况下,根据所述第一文本向量各元素对应的切分概率,对所述第一文本语料进行文本切分。处理器510还可以实现文本切分方法的其他实施过程,这里不再赘述。
此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。
本申请实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述文本切分方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。
本领域普通技术人员可以意识到,结合本申请实施例中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (9)
1.一种文本切分方法,其特征在于,包括:
获取第一文本语料,所述第一文本语料为对原始文本语料进行格式调整后生成;
对所述第一文本语料进行预处理,生成第一文本向量;
将所述第一文本向量输入目标模型以进行语义分析,获取输出结果,所述输出结果包括用于指示所述第一文本语料是否需要基于文本语义进行文本切分的判别元素以及所述第一文本向量各元素对应的切分概率,所述目标模型为双向长短期记忆网络模型;
在所述第一文本语料需要基于文本语义进行文本切分的情况下,根据所述第一文本向量各元素对应的切分概率,对所述第一文本语料进行文本切分;
所述根据所述第一文本向量各元素对应的切分概率,对所述第一文本语料进行文本切分,包括:
根据所述第一文本向量中的目标位置,确定所述第一文本语料对应的切分位置,所述目标位置为目标元素对应的位置,所述目标元素对应的切分概率大于第一预设值;
根据所述第一文本语料对应的切分位置,对所述第一文本语料进行文本切分。
2.根据权利要求1所述的文本切分方法,其特征在于,所述对所述第一文本语料进行预处理,生成第一文本向量,包括:
将所述第一文本语料转化为向量形式,生成第一参考向量;
在所述第一参考向量对应的元素数目小于第一预设元素数目的情况下,在预设位置补充预设元素,生成对应于所述第一预设元素数目的所述第一文本向量;
在所述第一参考向量对应的元素数目大于所述第一预设元素数目的情况下,基于预设截取策略在所述第一参考向量中截取所述第一预设元素数目的元素,生成所述第一文本向量。
3.根据权利要求2所述的文本切分方法,其特征在于,所述将所述第一文本向量输入目标模型以进行语义分析,获取输出结果,包括:
将所述第一文本向量输入所述目标模型以进行语义分析,获取所述目标模型输出的对应于第二预设元素数目的输出结果;
其中,所述第二预设元素数目与所述第一预设元素数目的差值为所述判别元素对应的元素数目。
4.根据权利要求1所述的文本切分方法,其特征在于,在获取所述输出结果之后,还包括:
当所述判别元素为第一元素的情况下,确定所述第一文本语料需要基于文本语义进行文本切分;
当所述判别元素为第二元素的情况下,确定所述第一文本语料不需要基于文本语义进行文本切分。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取训练样本集合,所述训练样本集合包括多个第二文本语料,所述第二文本语料为对原始文本语料进行格式调整后生成;
根据所述训练样本集合生成多个第二文本向量;
根据所述多个第二文本向量,进行多次模型训练,生成目标模型,所述目标模型为基于文本语义输出所述判别元素以及切分概率的模型;
其中,所述多个第二文本语料包括第一数目的基于文本语义进行文本切分后的所述第二文本语料以及第二数目的不需要基于文本语义进行文本切分的所述第二文本语料。
6.根据权利要求5所述的方法,其特征在于,根据所述多个第二文本向量,进行多次模型训练,生成目标模型,包括:
在所述多个第二文本向量中筛选出测试数据和训练数据;
根据所述训练数据进行模型训练;
在经过多次模型训练后,获取多个第一模型;
根据所述测试数据在所述多个第一模型中筛选出所述目标模型。
7.一种文本切分装置,其特征在于,包括:
第一获取模块,用于获取第一文本语料,所述第一文本语料为对原始文本语料进行格式调整后生成;
第一生成模块,用于对所述第一文本语料进行预处理,生成第一文本向量;
第二获取模块,用于将所述第一文本向量输入目标模型以进行语义分析,获取输出结果,所述输出结果包括用于指示所述第一文本语料是否需要基于文本语义进行文本切分的判别元素以及所述第一文本向量各元素对应的切分概率,所述目标模型为双向长短期记忆网络模型;
切分模块,用于在所述第一文本语料需要基于文本语义进行文本切分的情况下,根据所述第一文本向量各元素对应的切分概率,对所述第一文本语料进行文本切分;
所述切分模块包括:
确定子模块,用于根据所述第一文本向量中的目标位置,确定所述第一文本语料对应的切分位置,所述目标位置为目标元素对应的位置,所述目标元素对应的切分概率大于第一预设值;
切分子模块,用于根据所述第一文本语料对应的切分位置,对所述第一文本语料进行文本切分。
8.一种电子设备,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至6中任一项所述的文本切分方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的文本切分方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111455800.9A CN114265918B (zh) | 2021-12-01 | 2021-12-01 | 文本切分方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111455800.9A CN114265918B (zh) | 2021-12-01 | 2021-12-01 | 文本切分方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114265918A CN114265918A (zh) | 2022-04-01 |
CN114265918B true CN114265918B (zh) | 2024-08-23 |
Family
ID=80826305
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111455800.9A Active CN114265918B (zh) | 2021-12-01 | 2021-12-01 | 文本切分方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114265918B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112101003A (zh) * | 2020-09-14 | 2020-12-18 | 深圳前海微众银行股份有限公司 | 语句文本的切分方法、装置、设备和计算机可读存储介质 |
CN112711939A (zh) * | 2020-12-23 | 2021-04-27 | 深圳壹账通智能科技有限公司 | 基于自然语言的断句方法、装置、设备及存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7192356B2 (ja) * | 2018-09-27 | 2022-12-20 | 大日本印刷株式会社 | 情報処理装置、情報処理方法及びプログラム |
CN110264997A (zh) * | 2019-05-30 | 2019-09-20 | 北京百度网讯科技有限公司 | 语音断句的方法、装置和存储介质 |
CN111950291B (zh) * | 2020-06-22 | 2024-02-23 | 北京百度网讯科技有限公司 | 语义表示模型的生成方法、装置、电子设备及存储介质 |
-
2021
- 2021-12-01 CN CN202111455800.9A patent/CN114265918B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112101003A (zh) * | 2020-09-14 | 2020-12-18 | 深圳前海微众银行股份有限公司 | 语句文本的切分方法、装置、设备和计算机可读存储介质 |
CN112711939A (zh) * | 2020-12-23 | 2021-04-27 | 深圳壹账通智能科技有限公司 | 基于自然语言的断句方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114265918A (zh) | 2022-04-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108763931B (zh) | 基于Bi-LSTM和文本相似性的漏洞检测方法 | |
CN111695352A (zh) | 基于语义分析的评分方法、装置、终端设备及存储介质 | |
CN110188195B (zh) | 一种基于深度学习的文本意图识别方法、装置及设备 | |
CN110910283A (zh) | 生成法律文书的方法、装置、设备和存储介质 | |
EP3979098A1 (en) | Data processing method and apparatus, storage medium, and electronic apparatus | |
CN110019758B (zh) | 一种核心要素提取方法、装置及电子设备 | |
CN107291775B (zh) | 错误样本的修复语料生成方法和装置 | |
CN111858878B (zh) | 从自然语言文本中自动提取答案的方法、系统及存储介质 | |
CN112036168B (zh) | 事件主体识别模型优化方法、装置、设备及可读存储介质 | |
CN112052331A (zh) | 一种处理文本信息的方法及终端 | |
CN113094478B (zh) | 表情回复方法、装置、设备及存储介质 | |
CN113239668B (zh) | 关键词智能提取方法、装置、计算机设备及存储介质 | |
CN112183106A (zh) | 一种基于音素联想及深度学习的语义理解方法及装置 | |
CN114756675A (zh) | 文本分类方法、相关设备及可读存储介质 | |
CN114416974A (zh) | 模型训练方法、装置、电子设备及存储介质 | |
CN115952854B (zh) | 文本脱敏模型的训练方法、文本脱敏方法及应用 | |
CN114265918B (zh) | 文本切分方法、装置及电子设备 | |
CN112597299A (zh) | 文本的实体分类方法、装置、终端设备和存储介质 | |
CN114842982B (zh) | 一种面向医疗信息系统的知识表达方法、装置及系统 | |
CN115630652A (zh) | 客服会话情感分析系统、方法及计算机系统 | |
CN113724738B (zh) | 语音处理方法、决策树模型训练方法、装置、设备及存储介质 | |
CN111241843A (zh) | 基于复合神经网络的语义关系推断系统和方法 | |
CN110941705B (zh) | 干扰信息去除方法、去干扰模型组件及垃圾文本识别系统 | |
CN113111855A (zh) | 一种多模态情感识别方法、装置、电子设备及存储介质 | |
Hallyal et al. | Optimized recognition of CAPTCHA through attention models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |