CN109710759B - 文本切分方法、装置、计算机设备和可读存储介质 - Google Patents

文本切分方法、装置、计算机设备和可读存储介质 Download PDF

Info

Publication number
CN109710759B
CN109710759B CN201811542879.7A CN201811542879A CN109710759B CN 109710759 B CN109710759 B CN 109710759B CN 201811542879 A CN201811542879 A CN 201811542879A CN 109710759 B CN109710759 B CN 109710759B
Authority
CN
China
Prior art keywords
theme
text
adjacent
units
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811542879.7A
Other languages
English (en)
Other versions
CN109710759A (zh
Inventor
杨宇鸿
付志宏
袁德璋
何径舟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201811542879.7A priority Critical patent/CN109710759B/zh
Publication of CN109710759A publication Critical patent/CN109710759A/zh
Application granted granted Critical
Publication of CN109710759B publication Critical patent/CN109710759B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提出一种文本切分方法、装置、计算机设备和可读存储介质,其中,方法包括:对待切分文本采用滑动窗口划分为多个识别单元;对多个识别单元,进行主题特征提取;根据各识别单元的主题特征,识别得到各识别单元与相邻识别单元的主题关系;根据各识别单元与相邻识别单元的主题关系,对待切分文本进行切分。该方法能够实现依据主题关系,对待切分文本进行切分,得到属于同一主题的各段落,提升切分结果的准确性。

Description

文本切分方法、装置、计算机设备和可读存储介质
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种文本切分方法、装置、计算机设备和可读存储介质。
背景技术
在目前的自媒体时代,人们可以在网络上发表文章。然而,由于作者的发文水平参差不齐,甚至有些作者为了发文数量而粗制滥造,例如,作者将不同文章的不同章节进行堆砌或者组合,生成一个新的文章,从而导致所写的文章往往存在多个主题。这种疑似作弊的文章,由于来源于正常文章,因此审核人员往往很难发现其为作弊文章。因此,如何将文章的不同主题的段落进行切分,从而便于审核人员进行审核至关重要。
现有技术中,为了实现将文章切分为不同主题的段落,通常基于词频计算相邻语句的余弦相似度,对文章进行切分。
然而,实际应用时,申请人发现,这种切分方式,切分结果往往不够准确。
发明内容
本申请提出一种文本切分方法、装置、计算机设备和可读存储介质,以实现依据主题关系,对待切分文本进行切分,得到属于同一主题的各段落,提升切分结果的准确性,用于解决现有技术中基于词频计算相邻语句的余弦相似度,对文章进行切分,切分结果的准确性较低的技术问题。
本申请第一方面实施例提出了一种文本切分方法,包括:
对待切分文本采用滑动窗口划分为多个识别单元;
对所述多个识别单元,进行主题特征提取;
根据各识别单元的主题特征,识别得到各识别单元与相邻识别单元的主题关系;
根据各识别单元与相邻识别单元的主题关系,对所述待切分文本进行切分。
本申请实施例的文本切分方法,通过对待切分文本采用滑动窗口划分为多个识别单元,而后,对多个识别单元,进行主题特征提取,之后,根据各识别单元的主题特征,识别得到各识别单元与相邻识别单元的主题关系,最后,根据各识别单元与相邻识别单元的主题关系,对待切分文本进行切分。由此,可以实现依据主题关系,对待切分文本进行切分,得到属于同一主题的各段落,提升切分结果的准确性。
本申请第二方面实施例提出了一种文本切分装置,包括:
划分模块,用于对待切分文本采用滑动窗口划分为多个识别单元;
提取模块,用于对所述多个识别单元,进行主题特征提取;
识别模块,用于根据各识别单元的主题特征,识别得到各识别单元与相邻识别单元的主题关系;
切分模块,用于根据各识别单元与相邻识别单元的主题关系,对所述待切分文本进行切分。
本申请实施例的文本切分装置,通过对待切分文本采用滑动窗口划分为多个识别单元,而后,对多个识别单元,进行主题特征提取,之后,根据各识别单元的主题特征,识别得到各识别单元与相邻识别单元的主题关系,最后,根据各识别单元与相邻识别单元的主题关系,对待切分文本进行切分。由此,可以实现依据主题关系,对待切分文本进行切分,得到属于同一主题的各段落,提升切分结果的准确性。
本申请第三方面实施例提出了一种计算机设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如本申请第一方面实施例提出的文本切分方法。
本申请第四方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请第一方面实施例提出的文本切分方法。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施例一所提供的文本切分方法的流程示意图;
图2为本申请实施例二所提供的文本切分方法的流程示意图;
图3为本申请实施例三所提供的文本切分方法的流程示意图;
图4为本申请实施例中识别模型的结构示意图;
图5为本申请实施例四所提供的文本切分装置的结构示意图;
图6为本申请实施例五所提供的文本切分装置的结构示意图;
图7示出了适于用来实现本申请实施方式的示例性计算机设备的框图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
现有技术中,以“词”为粒度,基于词频计算相邻语句的余弦相似度,或者,基于词语相似度的图切割技术,对文章进行切分。具体地,主要通过以下几个步骤,来实现对文章进行切分:
第一步,计算文章中各语句的两两相似度,例如使用KM算法对齐单词,计算两个语句的带权余弦相似度;
第二步,寻找多个局部最大团,具体地,基于第一步计算得到的各相似度,卡阈值建图,使用BK算法确定多个最大团,例如,1表示文章的第一句,2表示第2句,…,9表示第9句,多个最大团可以为:{1,2,6},{2,4,7},{3,4,5},{1,8,9};
第三步,如果文章中相邻的语句,存在于同一个团中,则可以对其进行合并处理,例如处理后的各团可以为:{1,2},{3,4,5},{6},{7},{8,9};
第四步,判断相邻的两个团,是否可以合并,具体地,如果有一个团中,包含了第三步的相邻团的两个语句,则可以对其进行合并处理,例如处理后的各团可以为:{1,2,3,4,5},{6},{7},{8,9};
第五步,判断各团中的语句数是否低于阈值(比如2),将低于阈值的各团进行合并,例如,对第四步得到的各团进行处理,得到处理后的各团可以为:{1,2,3,4,5},{6,7},{8,9},至此,文章切分完毕。
然而这种切分方式,当文章中语句数量较大时,切分性能显著降低,适用性较低,并且,由于未考虑到主题描述的时序性,切分结果的准确性较低,例如,第1句与第8句或者第9句的相似度较高,则很有可能将第1-9句,识别为一个主题进行切分。
本申请主要针对现有技术中切分结果的准确性较低的技术问题,提出一种文本切分方法。
本申请实施例的文本切分方法,通过对待切分文本采用滑动窗口划分为多个识别单元,而后,对多个识别单元,进行主题特征提取,之后,根据各识别单元的主题特征,识别得到各识别单元与相邻识别单元的主题关系,最后,根据各识别单元与相邻识别单元的主题关系,对待切分文本进行切分。由此,可以实现依据主题关系,对待切分文本进行切分,得到属于同一主题的各段落,提升切分结果的准确性。
下面参考附图描述本申请实施例的文本切分方法、装置、计算机设备和可读存储介质。在具体描述本申请实施例之前,为了便于理解,首先对常用技术词进行介绍:
潜在狄利克雷分布(Latent Dirichlet Allocation,简称LDA)模型,是一种文档主题生成模型,本申请中记为主题模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。其中,文档到主题服从多项式分布,主题到词服从多项式分布。
LDA模型是一种非监督机器学习技术,可以用来识别大规模文档集(documentcollection)或语料库(corpus)中潜藏的主题信息,其采用词袋(bag of words)的方法,将每一篇文档视为一个词频向量,从而将文本信息转化为了易于建模的数字信息。其中,每一篇文档代表了一些主题所构成的一个概率分布,而每一个主题又代表了很多单词所构成的一个概率分布。
图1为本申请实施例一所提供的文本切分方法的流程示意图。
本申请实施例以该文本切分方法被配置于文本切分装置中来举例说明,该文本切分装置可以应用于任一计算机设备中,以使该计算机设备可以执行文本切分功能。
其中,计算机设备可以为个人电脑(Personal Computer,简称PC)、云端设备、移动设备等,移动设备例如可以为手机、平板电脑、个人数字助理、穿戴式设备、车载设备等具有各种操作系统、触摸屏和/或显示屏的硬件设备。
如图1所示,该文本切分方法包括以下步骤:
步骤101,对待切分文本采用滑动窗口划分为多个识别单元。
本申请实施例中,滑动窗口的长度为预先设置的,例如,滑动窗口的长度可以为计算机设备的内置程序预先设置的,或者,为了提升该文本切分方法的灵活性和适用性,滑动窗口的长度还可以由用户进行设置,对此不作限制。比如标记该滑动窗口的长度为W,可设置W为3个语句的长度,或者为其他数值。其中,语句为待切分文本中相邻两标点之间的字符。
本申请实施例中,待切分文本为需要对其进行主题切分的文本,例如,待切分文本可以为网络上已发表的文章,或者,还可以为已编辑未发表的文章,或者,还可以为出版物中记载的文章,等等,对此不作限制。在确定待切分文本后,可以采用滑动窗口,对该待切分文本中的各语句进行划分,得到多个识别单元。
作为一种可能的实现方式,可以对待切分文本,采用设定语句个数的滑动窗口,以设定语句步长进行滑动,而后将各次滑动后,处于滑动窗口内的语句划分为一个识别单元。
其中,设定语句个数为滑动窗口的长度,设定语句步长为预先设置的。举例而言,当设定语句个数为3,设定步长为1时,即滑动窗口的长度为3个语句,每次滑动1个语句,则第1个识别单元包含待切分文本的第1个语句、第2个语句以及第3个语句,第2个识别单元包含待切分文本的第2个语句、第3个语句以及第4个语句,第3个识别单元包含待切分文本的第3个语句、第4个语句以及第5个语句,…。或者,当设定语句个数为3,设定步长为3时,即滑动窗口的长度为3个语句,每次滑动3个语句,则第1个识别单元包含待切分文本的第1个语句、第2个语句以及第3个语句,第2个识别单元包含待切分文本的第4个语句、第5个语句以及第6个语句,第3个识别单元包含待切分文本的第7个语句、第8个语句以及第9个语句,…。
步骤102,对多个识别单元,进行主题特征提取。
本申请实施例中,在确定多个识别单元后,可以对多个识别单元,进行主题特征提取,以确定每个识别单元的主题特征。
作为一种可能的实现方式,可以采用主题模型,例如LDA模型,对多个识别单元进行主题特征提取,提取到的每个识别单元对应的主题特征包含T个维度的向量,每个向量的每一个元素对应一个主题,并且,每一个元素用于指示相应识别单元体现对应主题的概率,其中,T为主题的总个数。
也就是说,本申请中,可以预先设置包含T个主题的LDA模型,利用LDA模型,对每个识别单元的主题特征进行提取,以得到每个识别单元的主题特征,其中,主题特征为一个T维向量,向量的每个元素包含从相应识别单元获得的主题的概率,从而可以确定每个识别单元的主题分布。
步骤103,根据各识别单元的主题特征,识别得到各识别单元与相邻识别单元的主题关系。
作为一种可能的实现方式,可以基于预先训练的识别模型,对各识别单元的主题特征进行识别,确定识别单元与相邻识别单元的主题关系。其中,经过训练的识别模型,已学习得到各识别单元的主题特征与各识别单元与相邻识别单元的主题关系之间的对应关系。
其中,各识别单元与相邻识别单元的主题关系可以包括独立主题、主题开始阶段、主题中间阶段和/或主题结束阶段。
举例而言,假设一共有6个识别单元,分别为识别单元0、识别单元1、识别单元2、识别单元3、识别单元4以及识别单元5,并且,识别单元0和识别单元1为独立主题、识别单元2为主题开始阶段、识别单元3和识别单元4为主题中间阶段、识别单元5为主题结束阶段,则识别单元0和识别单元1的主题关系为独立主题,识别单元1和识别单元2的主题关系为独立主题和主题开始阶段,识别单元2和识别单元3的主题关系为主题开始阶段和主题中间阶段,识别单元3和识别单元4的主题关系为主题中间阶段,识别单元4和识别单元5的主题关系为主题中间阶段和主题结束阶段。
步骤104,根据各识别单元与相邻识别单元的主题关系,对待切分文本进行切分。
本申请实施例中,在识别得到各识别单元与相邻识别单元的主题关系后,可以根据各识别单元与相邻识别单元的主题关系,对待切分文本进行切分。由此,可以实现依据主题关系,对待切分文本进行切分,得到属于同一主题的各段落,提升切分结果的准确性。
进一步地,在对待切分文本进行切分后,可以得到属于同一主题的各段落,从而可以对属于同一主题的各段落进行摘要提取、基于各主题进行段落索引、对属于同一主题的各段落进行语句的连续性查验,以便识别出该待切分文本是否为拼接的文章等等。
本申请实施例的文本切分方法,通过对待切分文本采用滑动窗口划分为多个识别单元,而后,对多个识别单元,进行主题特征提取,之后,根据各识别单元的主题特征,识别得到各识别单元与相邻识别单元的主题关系,最后,根据各识别单元与相邻识别单元的主题关系,对待切分文本进行切分。由此,可以实现依据主题关系,对待切分文本进行切分,得到属于同一主题的各段落,提升切分结果的准确性。
作为一种可能的实现方式,为了提升各识别单元与相邻识别单元的主题关系确定结果的准确性,可以计算各识别单元的语义特征,并确定相邻识别单元之间的语义相似度,而后,将各识别单元的主题特征以及相应识别单元的语义特征和相应识别单元与相邻识别单元之间的语义相似度作为输入量,输入至经过训练的识别模型,得到各识别单元与相邻识别单元的主题关系。下面结合图2,对上述过程进行详细说明。
图2为本申请实施例二所提供的文本切分方法的流程示意图。
如图2所示,该文本切分方法可以包括以下步骤:
步骤201,对待切分文本采用滑动窗口划分为多个识别单元。
步骤201的执行过程可以参见上述实施例中步骤101的执行过程,此处不做赘述。
步骤202,对各识别单元进行语义识别,得到相应识别单元的语义特征。
具体地,可以基于相关技术中的相关算法,对各识别单元进行语义识别,得到相应识别单元的语义特征,此处不做赘述。
步骤203,根据各识别单元的语义特征,确定相邻识别单元之间的语义相似度。
本申请实施例中,在确定各识别单元的语音特征后,可以根据相关技术中的相关算法,计算相邻识别单元之间的语义相似度,此处不做赘述。
步骤204,对多个识别单元,进行主题特征提取。
步骤204的执行过程,可以参见上述实施例中步骤102的执行过程,此处不做赘述。
步骤205,将各识别单元的主题特征,以及相应识别单元的语义特征和相应识别单元与相邻识别单元之间的语义相似度,输入经过训练的识别模型,以识别得到各识别单元与相邻识别单元的主题关系。
可以理解的是,相邻识别单元之间的语义相似度,用于指示相邻识别单元之间的差异性,当相邻识别单元之间的语义相似度较高时,表明相邻识别单元之间的相关性较强,即相邻识别单元对应的文本内容的连贯性较强,进而对待切分文本进行切分时,相关性较强的两个相邻识别单元越有可能被切分到一起,而当相邻识别单元之间的语义相似度较低时,表明相邻识别单元之间的相关性较差,即相邻识别单元对应的文本内容的连贯性较差,进而对待切分文本进行切分时,相关性较差的两个相邻识别单元越有可能被切分为不同部分。
因此,本申请实施例中,识别模型在训练时,可以增加相应的输入特征,即增加语义特征,以提高识别结果的准确度,从而,本申请中,可以同时将各识别单元的主题特征,以及相应识别单元的语义特征和相应识别单元与相邻识别单元之间的语义相似度,输入经过训练的识别模型,识别得到各识别单元与相邻识别单元的主题关系,以提升识别结果的准确性。
步骤206,根据各识别单元与相邻识别单元的主题关系,对待切分文本进行切分。
步骤206的执行过程可以参见上述实施例中步骤104的执行过程,此处不做赘述。
本申请实施例的文本切分方法,通过将将各识别单元的主题特征,以及相应识别单元的语义特征和相应识别单元与相邻识别单元之间的语义相似度,输入经过训练的识别模型,以识别得到各识别单元与相邻识别单元的主题关系。由此,可以提升主题关系确定的准确性。
作为一种可能的实现方式,识别模型的训练过程可以如图3所示:
步骤301,对语料采用滑动窗口划分为多个样本单元。
本申请实施例中,语料可以在线获取,例如可以从百度文库、知网、万维网等,获取语料,或者,预料还可以线下采集,例如,可以通过图像采集装置,获取出版物、印刷物中记载的语料,对此不作限制。
本申请实施例中,在获取语料后,可以采用滑动窗口对语料进行划分,得到多个样本单元。
步骤302,根据各样本单元之间的主题特征,确定相邻样本单元之间的主题相似度。
本申请实施例中,可以采用主题模型,例如LDA模型,对各样本单元进行主题特征提取,提取到的每个样本单元对应的主题特征同样可以包含T个维度的向量,每个向量的每一个元素对应一个主题,并且,每一个元素用于指示相应样本单元体现对应主题的概率,其中,T为主题的总个数。
之后,可以根据各样本单元之间的主题特征,计算相邻样本单元之间的主题相似度,其中,主题相似度可以指主题的余弦相似度、欧式距离相似度、曼哈顿距离相似度等等,对此不作限制。例如,可以基于相关技术中的欧式距离计算公式、曼哈顿距离计算公式、余弦夹角公式,计算相邻样本单元之间的主题相似度,此处不做赘述。
可以理解的是,当主题相似度为余弦相似度时,当余弦相似度接近于1时,表明相邻样本单元之间的主题越相关,而当余弦相似度接近于0时,表明相邻样本单元之间的主题越不相关。当主题相似度为欧式距离相似度时,当欧式距离越大时,表明相邻样本单元之间的主题越不相关,而当欧式距离越小时,表明相邻样本单元之间的主题越相关。
为了便于解释说明,本申请实施例中以主题相似度为余弦相似度进行示例。
步骤303,根据相邻样本单元之间的主题相似度,对多个样本单元进行组合得到至少一个目标样本。
可以理解的是,当相邻样本单元之间的主题相似度较高时,表明相邻识别单元之间的主题相关性较高,进而对待切分文本进行切分时,主题相关性较强的两个相邻样本单元越有可能被切分到一起,而当相邻样本单元之间的主题相似度较低时,表明相邻样本单元之间的主题相关性较差,进而对待切分文本进行切分时,主题相关性较差的两个相邻样本单元越有可能被切分为不同部分。因此,作为本申请实施例的一种可能的实现方式,可以根据主题相似度中的局部最小值,确定文本切分时的分割边界,进而可以将包含分割边界的相邻样本单元分别组合到不同的目标样本中。
具体地,可以对相邻样本单元之间的主题相似度,依据样本单元在语料中的顺序进行排序,得到相似度序列,而后,可以从相似度序列中,确定小于相邻主题相似度的目标相似度,将目标相似度所属的两个相邻样本单元分别组合到不同的目标样本中。
举例而言,假设一共具有13个样本单元,在计算出相邻样本单元之间的主题相似度,并对各主题相似度进行排序后,得到的相似度序列为[0.89,0.45,0.32,0.11,0.22,0.43,0.66,0.45,0.47,0.59,0.3,0.34],则目标相似度为:0.11、0.45以及0.3,从而可以将0.11、0.45以及0.3所属的两个相邻样本单元分别组合到不同的目标样本中。
进一步地,为了提升切分结果的准确性,还可以对目标相似度进行筛选。
作为一种可能的实现方式,可以根据相似度序列中,各目标相似度之间所间隔的主题相似度个数,对目标相似度进行筛选,其中,保留的目标相似度与相邻目标相似度之间所间隔的主题相似度个数大于阈值。阈值为预先设置的。
仍以上述例子示例,当阈值为2时,可以对值为0.3的目标相似度进行筛除,保留值为0.11和0.45的目标相似度。
作为另一种可能的实现方式,可以根据目标相似度的深度,对目标相似度进行筛选。其中,可以以各目标相似度为起点,分别确定左侧的升序序列和右侧的升序序列,将左侧的升序序列长度和右侧的升序序列长度求均值,得到相应目标相似度的深度。仍以上述例子为例,值为0.11的目标相似度的深度为(4+4)/2=4,值为0.45的目标相似度的深度为(2+3)/2=2.5,值为0.3的目标相似度的深度为(2+2)/2=2。
例如,可以计算各目标相似度的深度的均值和方差,将深度低于(平均数–方差/2)的目标相似度进行过滤。仍以上述例子示例,4、2.5、2的均值和方差分别为:2.83和0.72,(平均数–方差/2)=2.47,则可以对值为0.3的目标相似度进行筛除。
本申请实施例中,在对目标相似度进行筛选后,可以将保留的目标相似度所属的两个相邻样本单元分别组合到不同的目标样本中。仍以上述例子示例,可以将相似度序列中第4个目标相似度0.11以及第8个目标相似度0.45,所属的相邻样本单元分别组合到不同的目标样本中。
步骤304,采用经过主题关系标注的目标样本,对识别模型进行训练。
本申请实施例中,在确定目标样本后,可以采用人工标注的方式,对目标样本中的主题关系进行标注,而后采用经过主题关系标注的目标样本,对识别模型进行训练,即可使得训练后的识别模型学习得到各识别单元的主题特征与各识别单元与相邻识别单元的主题关系之间的对应关系。
作为一种可能的实现方式,识别模型可以为基于双向长短期记忆(Bidirectionallong and short term memory,简称Bi-LSTM)网络结构,例如,参见图4,识别模型可以为Bi-LSTM+CRF模型,在LSTM的输出后接一个条件随机场(Conditional Random Fields,简称CRF)模型,将LSTM的输出通过线性变换得到维度为[batch_size,max_seq_len,num_tags]的张量,这个张量再作为一元势函数(Unary Potentials)输入到CRF层。具体地,将LSTM在每个t时刻在第i个tag上的输出,看作是CRF特征函数里的“点函数”(只与当前位置有关的特征函数),然后,采用CRF自带的“边函数”(与前后位置有关的特征函数),由此,可以将线性链CRF里原始形式(w*f)的特征函数(线性)变成LSTM的输出f1(非线性),在原始CRF中引入了非线性,从而可以更好的拟合数据,获取全局最优的输出序列。其中,构建Bi-LSTM时,仅需设定两个超参数:num_units(输出向量的维度),以及sequence_length(序列长度)。
假设识别单元的个数为N个,输入为N个T维序列,输出为长度为N的标注序列,标注序列中的各元素用于指示相应识别单元与其相邻识别单元的主题关系。
由此,使用具有时序特征的基于双向长短期记忆Bi-LSTM网络结构的识别模型,对各识别单元与相邻识别单元的主题关系进行预测,可以进一步提升切分结果的准确性。
为了实现上述实施例,本申请还提出一种文本切分装置。
图5为本申请实施例四所提供的文本切分装置的结构示意图。
如图5所示,该文本切分装置包括:划分模块101、提取模块102、识别模块103,以及切分模块104。
其中,划分模块101,用于对待切分文本采用滑动窗口划分为多个识别单元。
提取模块102,用于对多个识别单元,进行主题特征提取。
识别模块103,用于根据各识别单元的主题特征,识别得到各识别单元与相邻识别单元的主题关系。
切分模块104,用于根据各识别单元与相邻识别单元的主题关系,对待切分文本进行切分。
进一步地,在本申请实施例的一种可能的实现方式中,参见图6,在图5所示实施例的基础上,该文本切分装置还可以包括:处理模块105、确定模块106和训练模块107。
处理模块105,用于在对待切分文本采用滑动窗口划分为多个识别单元之后,对各识别单元进行语义识别,得到相应识别单元的语义特征。
确定模块106,用于根据各识别单元的语义特征,确定相邻识别单元之间的语义相似度。
识别模块103,具体用于:将各识别单元的主题特征,以及相应识别单元的语义特征和相应识别单元与相邻识别单元之间的语义相似度,输入经过训练的识别模型,以识别得到各识别单元与相邻识别单元的主题关系。
训练模块107,用于在输入经过训练的识别模型之前,对语料采用滑动窗口划分为多个样本单元;根据各样本单元之间的主题特征,确定相邻样本单元之间的主题相似度;根据相邻样本单元之间的主题相似度,对多个样本单元进行组合得到至少一个目标样本;采用经过主题关系标注的目标样本,对识别模型进行训练。
作为一种可能的实现方式,训练模块107,具体用于:对相邻样本单元之间的主题相似度,依据样本单元在语料中的顺序排序,以得到相似度序列;从相似度序列中,确定小于相邻主题相似度的目标相似度;将目标相似度所属的两个相邻样本单元分别组合到不同的目标样本中。
作为另一种可能的实现方式,训练模块107,还用于:在将目标相似度所属的相邻样本单元分别组合到不同的目标样本中之前,根据相似度序列中,各目标相似度之间所间隔的主题相似度个数,对目标相似度进行筛选;其中,保留的目标相似度与相邻目标相似度之间所间隔的主题相似度个数大于阈值。
作为一种可能的实现方式,识别模型可以基于双向长短期记忆Bi-LSTM网络结构。
作为一种可能的实现方式,各识别单元与相邻识别单元的主题关系,包括:独立主题、主题开始阶段、主题中间阶段和/或主题结束阶段。
作为一种可能的实现方式,提取模块102,具体用于:采用主题模型LDA对多个识别单元进行主题特征提取;其中,提取到的主题特征为包含T个维度的向量,向量的每一个元素对应一个主题,T为主题的总个数,每一个元素用于指示相应识别单元体现对应主题的概率。
作为一种可能的实现方式,划分模块101,具体用于:对待切分文本,采用设定语句个数的滑动窗口,以设定语句步长进行滑动;将各次滑动后,处于滑动窗口内的语句划分为一个识别单元;其中,语句为相邻两标点之间的字符。
需要说明的是,前述对文本切分方法实施例的解释说明也适用于该实施例的文本切分装置,此处不再赘述。
本申请实施例的文本切分装置,通过对待切分文本采用滑动窗口划分为多个识别单元,而后,对多个识别单元,进行主题特征提取,之后,根据各识别单元的主题特征,识别得到各识别单元与相邻识别单元的主题关系,最后,根据各识别单元与相邻识别单元的主题关系,对待切分文本进行切分。由此,可以实现依据主题关系,对待切分文本进行切分,得到属于同一主题的各段落,提升切分结果的准确性。
为了实现上述实施例,本申请还提出一种计算机设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时,实现如本申请前述实施例提出的文本切分方法。
为了实现上述实施例,本申请还提出一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请前述实施例提出的文本切分方法。
图7示出了适于用来实现本申请实施方式的示例性计算机设备的框图。图7显示的计算机设备12仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图7所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture;以下简称:ISA)总线,微通道体系结构(Micro Channel Architecture;以下简称:MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation;以下简称:VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection;以下简称:PCI)总线。
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory;以下简称:RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图7未显示,通常称为“硬盘驱动器”)。尽管图7中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如:光盘只读存储器(Compact Disc ReadOnlyMemory;以下简称:CD-ROM)、数字多功能只读光盘(Digital Video Disc ReadOnlyMemory;以下简称:DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network;以下简称:LAN),广域网(Wide Area Network;以下简称:WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现前述实施例中提及的文本切分方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (11)

1.一种文本切分方法,其特征在于,所述方法包括以下步骤:
对待切分文本采用滑动窗口划分为多个识别单元;
对所述多个识别单元,进行主题特征提取;
根据各识别单元的主题特征,识别得到各识别单元与相邻识别单元的主题关系;其中,所述各识别单元与相邻识别单元的主题关系,包括:独立主题、主题开始阶段、主题中间阶段和/或主题结束阶段;
根据各识别单元与相邻识别单元的主题关系,对所述待切分文本进行切分,得到属于同一主题的各段落;
对属于同一主题的各段落进行摘要提取、对属于同一主题的各段落进行语句的连续性查验、基于各主题进行段落索引,以确定所述待切分文本是否为拼接文章。
2.根据权利要求1所述的文本切分方法,其特征在于,所述对待切分文本采用滑动窗口划分为多个识别单元之后,还包括:
对各识别单元进行语义识别,得到相应识别单元的语义特征;
根据各识别单元的语义特征,确定相邻识别单元之间的语义相似度;
所述根据各识别单元的主题特征,识别得到各识别单元与相邻识别单元的主题关系,包括:
将各识别单元的主题特征,以及相应识别单元的语义特征和相应识别单元与相邻识别单元之间的语义相似度,输入经过训练的识别模型,以识别得到各识别单元与相邻识别单元的主题关系。
3.根据权利要求2所述的文本切分方法,其特征在于,所述输入经过训练的识别模型之前,还包括:
对语料采用所述滑动窗口划分为多个样本单元;
根据各样本单元之间的主题特征,确定相邻样本单元之间的主题相似度;
根据所述相邻样本单元之间的主题相似度,对所述多个样本单元进行组合得到至少一个目标样本;
采用经过主题关系标注的目标样本,对所述识别模型进行训练。
4.根据权利要求3所述的文本切分方法,其特征在于,所述根据所述相邻样本单元之间的主题相似度,对所述多个样本单元进行组合得到至少一个目标样本,包括:
对所述相邻样本单元之间的主题相似度,依据样本单元在所述语料中的顺序排序,以得到相似度序列;
从所述相似度序列中,确定小于相邻主题相似度的目标相似度;
将所述目标相似度所属的两个相邻样本单元分别组合到不同的目标样本中。
5.根据权利要求4所述的文本切分方法,其特征在于,所述将所述目标相似度所属的相邻样本单元分别组合到不同的目标样本中之前,还包括:
根据所述相似度序列中,各目标相似度之间所间隔的主题相似度个数,对所述目标相似度进行筛选;
其中,保留的目标相似度与相邻目标相似度之间所间隔的主题相似度个数大于阈值。
6.根据权利要求2所述的文本切分方法,其特征在于,
所述识别模型基于双向长短期记忆Bi-LSTM网络结构。
7.根据权利要求1-6任一项所述的文本切分方法,其特征在于,所述对所述多个识别单元,进行主题特征提取,包括:
采用主题模型LDA对所述多个识别单元进行主题特征提取;
其中,提取到的主题特征为包含T个维度的向量,向量的每一个元素对应一个主题,T为主题的总个数,每一个元素用于指示相应识别单元体现对应主题的概率。
8.根据权利要求1-6任一项所述的文本切分方法,其特征在于,所述对待切分文本采用滑动窗口划分为多个识别单元,包括:
对所述待切分文本,采用设定语句个数的滑动窗口,以设定语句步长进行滑动;
将各次滑动后,处于所述滑动窗口内的语句划分为一个识别单元;
其中,所述语句为相邻两标点之间的字符。
9.一种文本切分装置,其特征在于,所述装置包括:
划分模块,用于对待切分文本采用滑动窗口划分为多个识别单元;
提取模块,用于对所述多个识别单元,进行主题特征提取;
识别模块,用于根据各识别单元的主题特征,识别得到各识别单元与相邻识别单元的主题关系;其中,所述各识别单元与相邻识别单元的主题关系,包括:独立主题、主题开始阶段、主题中间阶段和/或主题结束阶段;
切分模块,用于根据各识别单元与相邻识别单元的主题关系,对所述待切分文本进行切分,得到属于同一主题的各段落;
对属于同一主题的各段落进行摘要提取、对属于同一主题的各段落进行语句的连续性查验、基于各主题进行段落索引,以确定所述待切分文本是否为拼接文章。
10.一种计算机设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如权利要求1-8中任一所述的文本切分方法。
11.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-8中任一所述的文本切分方法。
CN201811542879.7A 2018-12-17 2018-12-17 文本切分方法、装置、计算机设备和可读存储介质 Active CN109710759B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811542879.7A CN109710759B (zh) 2018-12-17 2018-12-17 文本切分方法、装置、计算机设备和可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811542879.7A CN109710759B (zh) 2018-12-17 2018-12-17 文本切分方法、装置、计算机设备和可读存储介质

Publications (2)

Publication Number Publication Date
CN109710759A CN109710759A (zh) 2019-05-03
CN109710759B true CN109710759B (zh) 2021-06-08

Family

ID=66256658

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811542879.7A Active CN109710759B (zh) 2018-12-17 2018-12-17 文本切分方法、装置、计算机设备和可读存储介质

Country Status (1)

Country Link
CN (1) CN109710759B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110362820B (zh) * 2019-06-17 2022-11-01 昆明理工大学 一种基于Bi-LSTM算法的老汉双语平行句子抽取方法
CN112699689A (zh) * 2021-01-05 2021-04-23 虎博网络技术(上海)有限公司 音频切分方法、装置和电子设备
CN113407685A (zh) * 2021-05-14 2021-09-17 北京金山数字娱乐科技有限公司 一种样本筛选方法及装置
CN113112007B (zh) * 2021-06-11 2021-10-15 平安科技(深圳)有限公司 神经网络中序列长度选择方法、装置、设备及存储介质
CN113722491A (zh) * 2021-09-08 2021-11-30 北京有竹居网络技术有限公司 确定文本情节类型的方法、装置、可读介质及电子设备
CN114492426B (zh) * 2021-12-30 2023-04-07 北京百度网讯科技有限公司 子词切分方法、模型训练方法、装置和电子设备
CN114841171B (zh) * 2022-04-29 2023-04-28 北京思源智通科技有限责任公司 一种文本分段主题提取方法、系统、可读介质及设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106855853A (zh) * 2016-12-28 2017-06-16 成都数联铭品科技有限公司 基于深度神经网络的实体关系抽取系统
CN108664473A (zh) * 2018-05-11 2018-10-16 平安科技(深圳)有限公司 文本关键信息的识别方法、电子装置及可读存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104317786A (zh) * 2014-10-13 2015-01-28 安徽华贞信息科技有限公司 一种文本段落切片方法及系统
CN107423282B (zh) * 2017-05-24 2020-07-28 南京大学 基于混合特征的文本中语义连贯性主题与词向量并发提取方法
CN108052593B (zh) * 2017-12-12 2020-09-22 山东科技大学 一种基于主题词向量和网络结构的主题关键词提取方法
CN108182176B (zh) * 2017-12-29 2021-08-10 太原理工大学 增强btm主题模型主题词语义相关性和主题凝聚度方法
CN108363816A (zh) * 2018-03-21 2018-08-03 北京理工大学 基于句义结构模型的开放式实体关系抽取方法
CN108984520A (zh) * 2018-06-19 2018-12-11 中国科学院自动化研究所 层次化文本主题分割方法
CN108920644B (zh) * 2018-06-29 2021-10-08 北京百度网讯科技有限公司 对话连贯性的判断方法、装置、设备及计算机可读介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106855853A (zh) * 2016-12-28 2017-06-16 成都数联铭品科技有限公司 基于深度神经网络的实体关系抽取系统
CN108664473A (zh) * 2018-05-11 2018-10-16 平安科技(深圳)有限公司 文本关键信息的识别方法、电子装置及可读存储介质

Also Published As

Publication number Publication date
CN109710759A (zh) 2019-05-03

Similar Documents

Publication Publication Date Title
CN109710759B (zh) 文本切分方法、装置、计算机设备和可读存储介质
CN108280061B (zh) 基于歧义实体词的文本处理方法和装置
US11216504B2 (en) Document recommendation method and device based on semantic tag
CN108733778B (zh) 对象的行业类型识别方法和装置
CN109344413B (zh) 翻译处理方法、装置、计算机设备和计算机可读存储介质
US10372821B2 (en) Identification of reading order text segments with a probabilistic language model
CN112347778B (zh) 关键词抽取方法、装置、终端设备及存储介质
US20240126799A1 (en) Topic segmentation of image-derived text
CN107766325B (zh) 文本拼接方法及其装置
Galanopoulos et al. Temporal lecture video fragmentation using word embeddings
CN111079432A (zh) 文本检测方法、装置、电子设备及存储介质
US9633009B2 (en) Knowledge-rich automatic term disambiguation
CN112784009A (zh) 一种主题词挖掘方法、装置、电子设备及存储介质
CN111738009B (zh) 实体词标签生成方法、装置、计算机设备和可读存储介质
CN111949798A (zh) 图谱的构建方法、装置、计算机设备和存储介质
CN107844531B (zh) 答案输出方法、装置和计算机设备
Sakahara et al. Domain-independent unsupervised text segmentation for data management
Rexha et al. Towards Authorship Attribution for Bibliometrics using Stylometric Features.
Vinciarelli et al. Application of information retrieval technologies to presentation slides
CN113822013B (zh) 用于文本数据的标注方法、装置、计算机设备及存储介质
CN111552780B (zh) 医用场景的搜索处理方法、装置、存储介质及电子设备
KR102025819B1 (ko) 사용자 생성 콘텐츠의 동적 용어 식별 체계 구축 장치 및 방법
KR101126186B1 (ko) 형태적 중의성 동사 분석 장치, 방법 및 그 기록 매체
Thet et al. Sentiment classification of movie reviews using multiple perspectives
CN111768215B (zh) 广告投放方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant