CN112686018A - 一种文本分割方法、装置、设备及存储介质 - Google Patents
一种文本分割方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112686018A CN112686018A CN202011545165.9A CN202011545165A CN112686018A CN 112686018 A CN112686018 A CN 112686018A CN 202011545165 A CN202011545165 A CN 202011545165A CN 112686018 A CN112686018 A CN 112686018A
- Authority
- CN
- China
- Prior art keywords
- target
- sentence
- text
- pause
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 215
- 238000000034 method Methods 0.000 title claims abstract description 78
- 230000008859 change Effects 0.000 claims abstract description 18
- 238000012549 training Methods 0.000 claims description 84
- 239000013598 vector Substances 0.000 claims description 50
- 230000002093 peripheral effect Effects 0.000 claims description 16
- 230000033764 rhythmic process Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 description 34
- 238000004891 communication Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000011176 pooling Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 239000012634 fragment Substances 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241000590419 Polygonia interrogationis Species 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
本申请提供了一种文本分割方法、装置、设备及存储介质,其中,方法包括:获取目标说话人的目标语音的识别文本,作为待分割的目标文本;根据目标语音和目标文本,获取目标说话人的语音停顿特征,其中,目标说话人的语音停顿特征能够反映目标说话人的韵律变化情况;根据目标说话人的语音停顿特征,对目标文本进行分割。经由本申请提供的文本分割方法可将目标文本分割为更符合用户阅读习惯的文本片段,另外,由于目标说话人的语音停顿特征能够反映目标说话人的韵律变化情况,因此,以目标说话人的语音停顿特征为依据对目标文本进行分割,能够获得与目标说话人语音停顿保持一致性的文本分割结果。
Description
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种文本分割方法、装置、设备及存储介质。
背景技术
文本分割,指的将是文本分割成长度短小的文本片段,相比于长篇幅无分割文本,分割后的文本片段更符合用户的阅读习惯。一个文本片段通常具有简单明确的主题,将长篇文本分割成文本片段能够帮助用户快速抽取关键信息,缓解阅读压力。而如何实现文本分割是当前亟需解决的问题。
发明内容
有鉴于此,本申请提供了一种文本分割方法、装置、设备及存储介质,用以将文本切分为更符合用户阅读习惯的文本片段,其技术方案如下:
一种文本分割方法,包括:
获取目标说话人的目标语音的识别文本,作为待分割的目标文本;
根据所述目标语音和所述目标文本,获取所述目标说话人的语音停顿特征,其中,所述目标说话人的语音停顿特征能够反映所述目标说话人的语速和韵律变化情况;
根据所述目标说话人的语音停顿特征,对所述目标文本进行分割。
可选的,所述语音停顿特征包括:词间停顿特征和句间停顿特征;
所述根据所述目标语音和所述目标文本,获取所述目标说话人的语音停顿特征包括:
根据所述目标语音获取所述目标文本中各个词分别对应的停顿时长,作为所述目标说话人的词间停顿特征,其中,一个词对应的停顿时长为该词与相邻词之间的时间间隔;
根据所述目标语音获取所述目标文本中各个句子分别对应的停顿时长,作为所述目标说话人的句间停顿特征,其中,一个句子对应的停顿时长为该句子与相邻句子之间的时间间隔。
可选的,所述根据所述目标语音获取所述目标文本中各个词分别对应的停顿时长,包括:
根据所述目标文本中的各个词以及各个词的相邻词在所述目标语音中的位置,确定所述目标文本中各个词分别对应的停顿时长。
可选的,所述根据所述目标语音获取所述目标文本中各个词分别对应的停顿时长,包括:
根据所述目标文本中各个句子的第一个词以及各个句子的前向相邻句子的最后一个词在所述目标语音中的位置,确定所述目标文本中各个句子分别对应的停顿时长;
或者,根据所述目标文本中各个句子的最后一个词以及各个句子的后向相邻句子的第一个词在所述目标语音中的位置,确定所述目标文本中各个句子分别对应的停顿时长。
可选的,所述根据所述目标说话人的语音停顿特征,对所述目标文本进行分割,包括:
根据所述目标文本中每个词对应的停顿时长和每个词的周边词对应的停顿时长,确定所述目标文本中每个词对应的停顿时长统计特征;
根据所述目标文本中每个句子对应的停顿时长和每个句子的周边句子对应的停顿时长,确定所述目标文本中每个句子对应的停顿时长统计特征;
根据所述目标文本中每个词对应的停顿时长统计特征和所述目标文本中每个句子对应的停顿时长统计特征,对所述目标文本进行分割。
可选的,所述根据所述目标文本中每个词对应的停顿时长和每个词的周边词对应的停顿时长,确定所述目标文本中每个词对应的停顿时长统计特征,包括:
针对所述目标文本中的每个目标词:
获取所述目标词对应的一个词串,并计算所述目标词对应的词串中各个词分别对应的停顿时长的均值和方差,作为所述目标词对应的停顿时长统计特征,其中,所述目标词对应的词串由所述目标词和所述目标词的周边词组成;
或者,
获取所述目标词对应的多个长度不同的词串,计算所述目标词对应的每个词串中各个词分别对应的停顿时长的均值和方差,得到所述目标词对应的多个停顿时长统计特征,将所述目标词对应的多个停顿时长统计特征拼接,拼接后特征作为所述目标词最终对应的停顿时长统计特征。
可选的,所述根据所述目标文本中每个句子对应的停顿时长和每个句子的周边句子对应的停顿时长,确定所述目标文本中每个句子对应的停顿时长统计特征,包括:
针对所述目标文本中的每个目标句子:
获取所述目标句子对应的一个句子序列,并计算所述目标句子对应的句子序列中各个句子分别对应的停顿时长的均值和方差,作为所述目标句子对应的停顿时长统计特征,其中,所述目标句子对应的句子序列由所述目标句子和所述目标句子的周边句子组成;
或者,
获取所述目标句子对应的多个长度不同的句子序列,计算所述目标句子对应的每个句子序列中各个句子分别对应的停顿时长的均值和方差,得到所述目标句子对应的多个停顿时长统计特征,将所述目标句子对应的多个停顿时长统计特征拼接,拼接后特征作为所述目标句子最终对应的停顿时长统计特征。
可选的,所述根据所述目标文本中每个词对应的停顿时长统计特征和所述目标文本中每个句子对应的停顿时长统计特征,对所述目标文本进行分割,包括:
利用所述目标文本、所述目标文本中每个词对应的停顿时长统计特征、所述目标文本中每个句子对应的停顿时长统计特征以及预先建立的文本分割模型,对所述目标文本进行分割;
其中,所述文本分割模型采用具有分割标注的训练文本,以及所述训练文本中每个词对应的停顿时长统计特征以及所述训练文本中每个句子对应的停顿时长统计特征训练得到。
可选的,所述利用所述目标文本、所述目标文本中每个词对应的停顿时长统计特征、所述目标文本中每个句子对应的停顿时长统计特征以及预先建立的文本分割模型,对所述目标文本进行分割,包括:
针对所述目标文本中的每个目标句子,将所述目标句子、所述目标句子对应的停顿时长统计特征、所述目标句子中每个词对应的停顿时长统计特征,输入所述文本分割模型,得到所述目标句子为分割边界的概率,根据所述目标句子为分割边界的概率,确定所述目标句子是否为分割边界;
根据确定出的分割边界对所述目标文本进行分割。
可选的,所述将所述目标句子、所述目标句子对应的停顿时长统计特征、所述目标句子中每个词对应的停顿时长统计特征,输入所述文本分割模型,得到所述目标句子为分割边界的概率,包括:
将所述目标句子和所述目标句子中各个词分别对应的停顿时长统计特征输入所述文本分割模型的词编码模块,得到所述目标句子中各个词分别对应的语义表征向量;
将所述目标句子中各个词分别对应的语义表征向量输入所述文本分割模型的句向量确定模块,得到所述目标句子对应的句向量;
将所述目标句子对应的句向量和所述目标句子对应的停顿时长统计特征输入所述文本分割模型的句子编码模块,得到所述目标句子对应的、能够表征所述目标句子的语义以及语速和韵律的目标句向量;
将所述目标句子对应的目标句向量输入所述文本分割模型的概率确定模块,得到所述目标句子为分割边界的概率。
一种文本分割装置,包括:待分割文本获取模块、语音停顿特征获取模块和文本分割模块;
所述待分割文本获取模块,用于获取目标说话人的目标语音的识别文本,作为待分割的目标文本;
所述语音停顿特征获取模块,用于根据所述目标语音和所述目标文本,获取所述目标说话人的语音停顿特征,其中,所述目标说话人的语音停顿特征能够反映所述目标说话人的语速和韵律变化情况;
所述文本分割模块,用于根据所述目标说话人的语音停顿特征,对所述目标文本进行分割。
可选的,所述语音停顿特征包括:词间停顿特征和句间停顿特征;
所述语音停顿特征获取模块包括:词间停顿特征获取子模块和句间停顿特征获取子模块;
所述词间停顿特征获取子模块,用于根据所述目标语音获取所述目标文本中各个词分别对应的停顿时长,作为所述目标说话人的词间停顿特征,其中,所述停顿时长为对应词与相邻词之间的时间间隔;
所述句间停顿特征获取子模块,用于根据所述目标语音获取所述目标文本中各个句子分别对应的停顿时长,作为所述目标说话人的句间停顿特征,其中,所述停顿时长为对应句子与相邻句子之间的时间间隔。
一种文本分割设备,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现上述任一项所述的文本分割方法的各个步骤。
一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现上述任一项所述的文本分割方法的各个步骤。
经由上述方案可知,本申请提供的文本分割方法、装置、设备及存储介质,在获得待分割的目标文本(即目标说话人的目标语音的识别文本)后,首先根据目标语音和目标文本,获取目标说话人的语音停顿特征,然后根据目标说话人的语音停顿特征,对目标文本进行分割。本申请提供的文本分割方法可将目标文本分割为更符合用户阅读习惯的文本片段,另外,由于目标说话人的语音停顿特征能够反映目标说话人的韵律变化情况,因此,以目标说话人的语音停顿特征为依据对目标文本进行分割,能够获得与目标说话人语音停顿保持一致性的文本分割结果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的文本分割方法的流程示意图;
图2为本申请实施例提供的利用目标文本、目标文本中各个句子分别对应的停顿时长、目标文本中各个词分别对应的停顿时长和预先建立的第一文本分割模型,对目标文本进行分割的流程示意图;
图3为本申请实施例提供的根据目标说话人的语音停顿特征,对目标文本进行分割的流程示意图;
图4为本申请实施例提供的利用目标文本、目标文本中每个词对应的停顿时长统计特征、目标文本中每个句子对应的停顿时长统计特征以及预先建立的第二文本分割模型,对目标文本进行分割的流程示意图;
图5为本申请实施例提供的建立第二文本分割模型的流程示意图;
图6为本申请实施例提供的第二文本分割模型的拓扑结构示意图;
图7为本申请实施例提供的文本分割装置的结构示意图;
图8为本申请实施例提供的文本分割设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了实现文本分割,本案发明人进行了研究,起初的思路是:
采用基于语言学特征的文本分割方法对待分割的目标文本进行分割,该分割方法的基本构思是,以线索词、命名实体、新词出现情况等特征作为分割依据对待分割的目标文本进行分割。
然而,由于线索词、命名实体、新词出现情况等特征不具有充分的文本分割信息量,因此,基于语言学特征的文本分割方法的分割效果不佳,另外,该分割方法不具有很好的泛化性。
鉴于基于语言学特征的文本分割方法效果不佳,本案发明人继续进行研究,接着提出了基于语义的文本分割方法,该方法基于待分割文本的语义对待分割文本进行分割。
然而,在语音识别场景下,待分割文本为语音识别文本,由于说话人的说话内容随意,口语化表达严重,因此,抽取出的语义可能不是待分割文本真正表达的语义,根据抽取出的语义进行文本分割,会获得不佳的分割结果。
鉴于上述基于语义的文本分割方法存在的问题,本案发明人进一步研究,通过研究发现,在语音识别场景下,说话人往往对语速、语调进行修饰,以加强语气、控制停顿时长等技巧来强调重点及话题转换,基于该发现,本案发明人通过研究,最终提出了一种效果较好的文本分割方法,该文本分割方法的基本构思是:
根据待分割文本和待分割文本对应的语音,获取能够反映说话人的韵律变化情况的语音停顿特征,以反映说话人的韵律变化情况的语音停顿特征为依据,对待分割文本进行分割。经由该分割方法得到的分割结果能够与说话人的语音停顿保持一致性。
本申请提供的文本分割方法可应用于具有处理能力的电子设备,该电子设备可以为网络侧的服务器,也可以为用户侧使用的终端,比如PC、笔记本、智能手机等,网络侧的服务器或用户侧使用的终端可按本申请提供的文本分割方法对待分割文本进行分割。
接下来,通过下述实施例对本申请提供的文本分割方法进行介绍。
第一实施例
请参阅图1,示出了本申请实施例提供的一种文本分割方法的流程示意图,该方法可以包括:
步骤S101:获取目标说话人的目标语音的识别文本,作为待分割的目标文本。
其中,待分割的目标文本一般为篇幅较长的文本,为了便于用户阅读,通常需要将其分割为篇幅较段的文本片段。
步骤S102:根据目标语音和目标文本,获取目标说话人的语音停顿特征。
其中,目标说话人的语音停顿特征能够反映目标说话人的语速及韵律变化情况。
具体的,目标说话人的语音停顿特征可以包括目标说话人的词间停顿特征和目标说话人的句间停顿特征。
需要说明的是,目标说话人的词间停顿特征能够反映目标说话人的整体语速和韵律变化规律,目标说话人的句间停顿特征能够反映目标说话人在句子层面的语速情况。
其中,目标说话人的词间停顿特征包括目标文本中各个词分别对应的停顿时长。需要说明的是,一个词对应的停顿时长为该词与相邻词之间的时间间隔。可选的,一个词对应的停顿时长可以为该词与前向相邻词之间的时间间隔,当然,本实施例并不限定于此,一个词对应的停顿时长还可以为该词与后向相邻词之间的时间间隔。
其中,目标说话人的句间停顿特征包括目标文本中各个句子分别对应的停顿时长。需要说明的是,一个句子对应的停顿时长为该句子与相邻句子之间的时间间隔。可选的,一个句子对应的停顿时长可以为该句子的第一个词与该句子的前向相邻句子的最后一个词之间的时间间隔,当然,本实施例并不限定于此,一个句子对应的停顿时长还可以为该句子的最后一个词与该句子的后向相邻句子的第一个词之间的时间间隔。
步骤S103:根据目标说话人的语音停顿特征,对目标文本进行分割。
在一种可能的实现方式中,可直接根据目标文本中各个词分别对应的停顿时长以及目标文本中各个句子分别对应的停顿时长,对目标文本进行分割;在另一种可能的实现方式中,可首先根据目标文本中各个词分别对应的停顿时长确定目标文本中各个词分别对应的停顿时长统计特征,并根据根据目标文本中各个句子分别对应的停顿时长确定目标文本中各个句子分别对应的停顿时长统计特征,然后根据目标文本中各个词分别对应的停顿时长统计特征和目标文本中各个句子分别对应的停顿时长统计特征,对目标文本进行分割。
在对目标文本进行分割时,可先确定目标文本中的每个句子是否为分割边界,然后根据确定出的分割边界对目标文本进行分割。
本申请实施例提供的文本分割方法,在获得待分割的目标文本(即目标说话人的目标语音的识别文本)后,首先根据目标语音和目标文本,获取目标说话人的语音停顿特征,然后根据目标说话人的语音停顿特征,对目标文本进行分割。本申请实施例提供的文本分割方法可将目标文本分割为更符合用户阅读习惯的文本片段,另外,由于目标说话人的语音停顿特征能够反映目标说话人的速速及韵律变化情况,因此,以目标说话人的语音停顿特征为依据对目标文本进行分割,能够获得与说话人语音停顿保持一致性的文本分割结果。
第二实施例
本实施例对上述实施例中的“步骤S102:根据目标语音和目标文本,获取目标说话人的语音停顿特征”的具体实现过程进行介绍。
根据目标语音和目标文本,获取目标说话人的语音停顿特征的过程可以包括:
步骤a1、根据目标语音,获取目标文本中各个词分别对应的停顿时长,作为目标说话人的词间停顿特征。
具体的,可根据目标文本中的各个词以及各个词的相邻词在目标语音中的位置,确定目标文本中各个词分别对应的停顿时长。
更为具体的,针对目标文本中每个待确定停顿时长的目标词,根据目标词在目标语音中的位置以及目标词的相邻词(比如前向相邻词)在目标语音中的位置,确定目标词与目标词的相邻词之间语音帧的数量,根据确定出的语音帧的数量和语音帧的时长,确定目标词与目标词的相邻词之间的时间间隔,作为目标词对应的停顿时长。需要说明的是,在对目标语音进行语音识别时,语音识别模型会将目标语音的每一帧解码为音素,并对应到词,如此可获得每个词在音频中的位置。
考虑到在某些场景中,可能会出现因某种原因说话人被打断的情况,即可能出现停顿时长较长的情况,针对这种情况,经由上述方式获得目标词对应的停顿时长后,可判断其是否大于预设的第一时长阈值,若是,则将目标词对应的停顿时长调整为第一时长阈值(比如5s),然后将调整后的停顿时长除以第一时长阈值进行标准化(标准化的停顿时长限定在0~1之间),若否,则直接将目标词对应的停顿时长除以第一时长阈值进行标准化,标准化后的停顿时长作为目标词最终对应的停顿时长。
步骤a2、根据目标语音,获取目标文本中各个句子分别对应的停顿时长,作为目标说话人的句间停顿特征。
上述实施例提到,一个句子对应的停顿时长可以为该句子的第一个词与该句子的前向相邻句子的最后一个词之间的时间间隔,在这种情况下,根据目标语音,获取目标文本中各个句子分别对应的停顿时长的过程可以包括:根据目标文本中各个句子的第一个词以及各个句子的前向相邻句子的最后一个词在目标语音中的位置,确定目标文本中各个句子分别对应的停顿时长。
更为具体的,针对目标文本中每个待确定停顿时长的目标句子,根据目标句子的第一个词在目标语音中的位置以及目标句子的前向相邻句子的最后一个词在目标语音中的位置,确定目标句子的第一个词与目标句子的前向相邻句子的最后一个词之间语音帧的数量,根据确定出的语音帧的数量和语音帧的时长,确定目标句子的第一个词与目标句子的前向相邻句子的最后一个词之间的时间间隔,作为目标句子对应的停顿时长,以得到目标文本中各个句子分别对应的停顿时长。
上述实施例提到,一个句子对应的停顿时长还可以为该句子的最后一个词与该句子的后向相邻句子的第一个词之间的时间间隔,在这种情况下,根据目标语音,获取目标文本中各个句子分别对应的停顿时长的过程可以包括:根据目标文本中各个句子的最后一个词以及各个句子的后向相邻句子的第一个词在目标语音中的位置,确定目标文本中各个句子分别对应的停顿时长。
更为具体的,针对目标文本中每个待确定停顿时长的目标句子,根据目标句子的最后一个词在目标语音中的位置以及目标句子的后向相邻句子的第一个词在目标语音中的位置,确定目标句子的最后一个词与目标句子的后向相邻句子的第一个词之间语音帧的数量,根据确定出的语音帧的数量和语音帧的时长,确定目标句子的最后一个词与目标句子的后向相邻句子的第一个词之间的时间间隔,作为目标句子对应的停顿时长,以得到目标文本中各个句子分别对应的停顿时长。
优选的,经由上述方式获得目标句子对应的停顿时长后,可判断其是否大于预设的第二时长阈值,若是,则将目标句子对应的停顿时长调整为第二时长阈值,然后将调整后的停顿时长除以第二时长阈值进行标准化(标准化的停顿时长限定在0~1之间),若否,则直接将目标句子对应的停顿时长除以第二时长阈值进行标准化,标准化后的停顿时长作为目标句子最终对应的停顿时长。
需要说明的是,本实施例并不限定步骤a1和步骤a2的执行顺序,可先执行步骤a1,再执行步骤a2,也可先执行步骤a2,再执行a1,还可并行执行步骤a1和步骤a2。
第三实施例
本实施例对第一实施例中的“步骤S103:根据目标说话人的语音停顿特征,对目标文本进行分割”的具体实现过程进行介绍。
根据目标说话人的语音停顿特征,对目标文本进行分割的实现方式有多种,本实施例提供如下两种可选的实现方式。
第一种实现方式:
根据目标说话人的语音停顿特征,对目标文本进行分割的过程可以包括:直接根据目标说话人的语音停顿特征对目标文本进行分割,即直接根据目标文本中各个句子分别对应的停顿时长和目标文本中各个词分别对应的停顿时长,对目标文本进行分割。
具体的,直接根据目标文本中各个句子分别对应的停顿时长和目标文本中各个词分别对应的停顿时长,对目标文本进行分割的过程包括:利用目标文本、目标文本中各个句子分别对应的停顿时长、目标文本中各个词分别对应的停顿时长和预先建立的第一文本分割模型,对目标文本进行分割。其中,第一文本分割模型采用具有分割标注的训练文本、训练文本中各个词分别对应的停顿时长、训练文本中各个句子分别对应的停顿时长训练得到。
请参阅图2,示出了利用目标文本、目标文本中各个句子分别对应的停顿时长、目标文本中各个词分别对应的停顿时长和预先建立的第一文本分割模型,对目标文本进行分割的流程示意图,可以包括:
步骤S201:针对目标文本中的每个目标句子,执行:
步骤S2011、将目标句子、目标句子对应的停顿时长、目标句子中每个词对应的停顿时长输入第一文本分割模型,得到目标句子为分割边界的概率。
步骤S2012、根据目标句子为分割边界的概率,确定目标句子是否为分割边界。
具体的,判断目标句子为分割边界的概率是否大于预设的概率阈值,若是,则确定目标句子为分割边界,否则,确定目标句子不为分割边界。
步骤S202、根据确定出的分割边界对目标文本进行分割。
具体的,可在为分割边界的句子的句首位置添加分割标记。
根据确定出的分割边界对目标文本进行分割后,可得到与目标说话人语音停顿保持一致性的文本分割结果。
第二种实现方式:
为了提升文本分割效果,本实施例提供了第二种更为优选的实现方式,请参阅图3,示出了根据目标说话人的语音停顿特征,对目标文本进行分割的第二种实现方式的流程示意图,可以包括:
步骤S301a:根据目标文本中每个词对应的停顿时长和每个词的周边词对应的停顿时长,确定目标文本中每个词对应的停顿时长统计特征。
步骤S301a的实现方式有多种,本实施例提供如下两种可选的实现方式:
第一种实现方式:针对目标文本中的每个目标词,执行:
步骤b1、获取目标词对应的一个词串。
其中,目标词对应的词串由目标词和目标词的周边词组成,比如,可将目标词和目标词之前的K-1个词组成的词串作为目标词对应的词串,其中,K的取值可根据具体情况设定。
步骤b2、计算目标词对应的词串中各个词分别对应的停顿时长的均值和方差,作为目标词对应的停顿时长统计特征。
假设目标词为wi,j(即目标文本中第i个句子中的第j个词),目标词wi,j对应的词串包括K个词,可基于下式计算目标词wi,j对应的词串中各个词分别对应的停顿时长的均值μi,j和方差σi,j:
其中,tk为目标词wi,j对应的词串中第k个词对应的停顿时长。
第二种实现方式:针对目标文本中的每个目标词,执行:
步骤c1、获取目标词对应的多个长度不同的词串。
考虑到根据一个词串确定的词停顿时长统计特征不够稳定,本实现方式中获取目标词对应的多个长度不同的词串,以基于多个长度不同词串获取比较稳定的停顿时长统计特征。
步骤c2、计算目标词对应的每个词串中各个词分别对应的停顿时长的均值和方差,得到目标词对应的多个停顿时长统计特征。
假设获取目标词对应的N个长度不同的词串,则经由步骤e2可获得N个统计特征。
需要说明的是,基于长度较大的词串中各个词分别对应的停顿时长确定的统计特征能够反映目标说话人整体的语速和韵律变化情况,基于长度较小的词串中各个词分别对应的停顿时长确定的统计特征能够反映目标说话人的局部的语速和韵律变化情况。
步骤c3、将目标词对应的多个停顿时长统计特征拼接,拼接后特征作为目标词最终对应的停顿时长统计特征。
假设目标词为wi,j(即目标文本中第i个句子中的第j个词),目标词wi,j对应的词串有l个,则目标词wi,j最终对应的停顿时长统计特征可表示为:
Di,j={[ti,j,[Stat1,...Statl]]|Statk=(μi,j,σi,j)1≤k≤l}
其中,Statk=(μi,j,σi,j)表示根据l个词串中的第k个词串中各个词分别对应的停顿时长确定的统计特征。
步骤S301b:根据目标文本中每个句子对应的停顿时长和每个句子的周边句子对应的停顿时长,确定目标文本中每个句子对应的停顿时长统计特征。
与步骤S301a类似,步骤S301b的实现方式有多种,本实施例提供如下两种可选的实现方式:
第一种实现方式:针对目标文本中的每个目标句子,执行:
步骤d1、获取目标句子对应的一个句子序列。
其中,目标句子对应的句子序列由目标句子和目标句子的周边句子组成,比如,可将目标句子和目标句子之前的M-1个句子组成的句子序列作为目标句子对应的句子序列,其中,M的取值可根据具体情况设定。
步骤d2、计算目标句子对应的句子序列中各个句子分别对应的停顿时长的均值和方差,作为目标句子对应的停顿时长统计特征。
假设目标句子为si(即目标文本中第i个句子),目标句子si对应的句子序列包括M个句子,可基于下式计算目标句子si对应的句子序列中各个句子分别对应的停顿时长的均值μi和方差σi:
其中,t′m为目标句子si对应的句子序列中第m个句子对应的停顿时长。
第二种实现方式:针对目标文本中的每个目标句子,执行:
步骤e1、获取目标句子对应的多个长度不同的句子序列。
其中,句子序列的长度指的是句子序列中所包含句子的个数。
考虑到根据一个句子序列确定的停顿时长统计特征不够稳定,本实现方式中获取目标句子对应的多个长度不同的句子序列,以基于多个长度不同的句子序列获取比较稳定的停顿时长统计特征。
步骤e2、计算目标句子对应的每个句子序列中各个句子分别对应的停顿时长的均值和方差,得到目标句子对应的多个停顿时长统计特征。
假设获取目标句子对应的P个长度不同的句子序列,则经由步骤e2可获得P个统计特征。
步骤e3、将目标句子对应的多个停顿时长统计特征拼接,拼接后特征作为目标句子最终对应的停顿时长统计特征。
假设目标句子为si(即目标文本中第i个句子),目标句子si对应的句子序列有P个,则目标句子最终对应的停顿时长统计特征可表示为:
Ei={[t′i,[Stat1,...StatP]]|Statp=(μi,σi)1≤p≤P}
其中,Statp=(μi,σi)1≤p≤P表示根据P个句子序列中的第p个句子序列中各个句子分别对应的停顿时长确定的统计特征。
需要说明的是,本实施例并不限定步骤S301a和步骤S301b的执行顺序,可先执行步骤S301a,再执行步骤S301b,也可先执行步骤S301b,再执行S301a,还可并行执行步骤S301a和步骤S301b。
步骤S302:根据目标文本中每个词对应的停顿时长统计特征和目标文本中每个句子对应的停顿时长统计特征,对目标文本进行分割。
具体的,根据目标文本中每个词对应的停顿时长统计特征和目标文本中每个句子对应的停顿时长统计特征,对目标文本进行分割的过程包括:利用目标文本、目标文本中每个词对应的停顿时长统计特征、目标文本中每个句子对应的停顿时长统计特征以及预先建立的第二文本分割模型,对目标文本进行分割。其中,第二文本分割模型采用具有分割标注的训练文本,以及训练文本中每个词对应的停顿时长统计特征以及训练文本中每个句子对应的停顿时长统计特征训练得到。
请参阅图4,示出了利用目标文本、目标文本中每个词对应的停顿时长统计特征、目标文本中每个句子对应的停顿时长统计特征以及预先建立的第二文本分割模型,对目标文本进行分割的流程示意图,可以包括:
步骤S401、针对目标文本中的每个目标句子,执行:
步骤S4011、将目标句子、目标句子对应的停顿时长统计特征、目标句子中每个词对应的停顿时长统计特征,输入第二文本分割模型,得到目标句子为分割边界的概率。
步骤S4012、根据目标句子为分割边界的概率,确定目标句子是否为分割边界。
具体的,判断目标句子为分割边界的概率是否大于预设的概率阈值,若是,则确定目标句子为分割边界,否则,确定目标句子不为分割边界。
步骤S402、根据确定出的分割边界对目标文本进行分割。
具体的,可在为分割边界的句子的句首位置添加分割标记。
根据确定出的分割边界对目标文本进行分割后,可得到与说话人语音停顿保持一致性的文本分割结果。
第四实施例
经由上述第三实施例可知,目标文本的分割边界基于预先建立的文本分割模型(第一文本分割模型或第二分割模型)确定,接下来对建立文本分割模型的过程进行介绍。
由于第一文本分割模型和第二文本分割模型的建立过程类似,本实施例以第二文本分割模型为例,对建立第二文本分割模型的过程进行介绍。
请参阅图5,示出了建立第二文本分割模型的流程示意图,可以包括:
步骤S501、从训练文本集中获取训练文本。
其中,训练文本集中的每个训练文本具有分割标注。
步骤S502a、根据训练文本和训练文本对应的训练语音,确定训练文本中各个词分别对应的停顿时长。
步骤S502b、根据训练文本和训练文本对应的训练语音,确定训练文本中各个句子分别对应的停顿时长。
步骤S502a的实现过程与上述实施例中根据目标文本和目标文本对应的目标语音确定目标文本中各个词分别对应的停顿时长的过程类似,步骤S502b的实现过程与上述实施例中根据目标文本和目标文本对应的目标语音确定目标文本中各个句子分别对应的停顿时长的过程类似,本实施例在此不做赘述。
步骤S503a、根据训练文本中每个词对应的停顿时长和每个词的周边词对应的停顿时长,确定训练文本中每个词对应的停顿时长统计特征。
步骤S503b、根据训练文本中每个句子对应的停顿时长和每个句子的周边句子对应的停顿时长,确定训练文本中每个句子对应的停顿时长统计特征。
步骤S503a的实现过程与上述实施例中根据目标文本中每个词对应的停顿时长和每个词的周边词对应的停顿时长,确定目标文本中每个词对应的停顿时长统计特征的过程类似,步骤S503b的实现过程与上述实施例中根据目标文本中每个句子对应的停顿时长和每个句子的周边句子对应的停顿时长,确定目标文本中每个句子对应的停顿时长统计特征的过程类似,本实施例在此不做赘述。
步骤S504、将训练文本中的每个句子、每个句子对应的停顿时长统计特征、每个句子中各个词分别对应的停顿时长统计特征,输入第二文本分割模型,得到训练文本中的每个句子为分割边界的概率。
在本实施例中,可基于句号、叹号、问号等结束性标点将训练文本切分为若干句子,基于第二文本分割模型预测每个句子为分割边界的概率。
步骤S505、根据训练文本中的每个句子为分割边界的概率以及训练文本标注的分割边界,确定第二文本分割模型的预测损失。
步骤S506、根据第二文本分割模型的预测损失,更新第二文本分割模型的参数。
按上述步骤S501~S505进行多次迭代训练,直至满足训练结束条件,训练结束后得到的第二文本分割模型便可用于对待分割的目标文本进行分割。
在一种可能的实现方式中,如图6所示,第二文本分割模型可以包括:词编码模块、句向量确定模块、句子编码模块和概率确定模块,在此基础上,“步骤S504、将训练文本中的每个句子、每个句子对应的停顿时长统计特征、每个句子中各个词分别对应的停顿时长统计特征,输入第二文本分割模型,得到训练文本中的每个句子为分割边界的概率”的过程可以包括:针对训练文本中的每个训练句子:
步骤S5041、将该训练句子和该训练句子中各个词分别对应的停顿时长统计特征输入第二文本分割模型的词编码模块,得到该训练句子中各个词分别对应的语义表征向量。
其中,词编码模块可以包括词嵌入模块和语义编码模块,语义编码模块可以为transformer结构,将该训练句子中的各个词输入词嵌入模块,可得到该训练句子中各个词的词向量,将该训练句子中各个词的词向量、该训练句子中各个词的位置编码和该训练句子中各个词分别对应的停顿时长统计特征拼接,输入语义编码模块,得到该训练句子中各个词分别对应的语义表征向量,需要说明的是,一个词的语义表征向量能够表征该词的语义。
步骤S5042、将该训练句子中各个词分别对应的语义表征向量输入第二文本分割模型的句向量确定模块,得到该训练句子对应的句向量。
具体的,句向量确定模块可以为池化层,将该训练句子中各个词分别对应的语义表征向量输入池化层进行最大池化操作(即max pooling操作),通过最大池化操作可将该训练句子中各个词分别对应的语义表征向量压缩为固定长度的句向量。
步骤S5043、将该训练句子对应的句向量和该训练句子对应的停顿时长统计特征输入第二文本分割模型的句子编码模块,得到训练句子对应的、能够表征训练句子的语义以及语素和韵律的目标句向量。
具体的,句子编码模块可以包括句编码器和停顿信息编码器,其中,句编码器基于该训练句子对应的句向量以及训练文本中其它训练句子对应的句向量,确定该训练句子对应的第一注意力得分AttScores,第一注意力得分AttScores能够反映该训练句子与训练文本中其它句子的语义相关度,停顿信息编码器基于该训练句子对应的停顿时长统计特征以及训练文本中其它句子对应的停顿时长统计特征,确定该训练句子对应的第二注意力得分AttScorepause,第二注意力得分AttScorepause能够反映该训练句子的停顿信息与训练文本中其它句子的停顿信息的相关性,句编码器在第一注意力得分AttScores上加权第二注意力得分AttScorepause(即AttScores*AttScorepause),根据加权后的注意力得分AttScore确定该训练句子对应的、能够表征该训练句子的语义以及语速和韵律的目标句向量,具体的,用AttScore对该训练句子对应的句向量与该句子对应的停顿时长统计特征的拼接向量加权,得到该训练句子对应的目标句向量。
其中,第一注意力得分AttScores和第一注意力得分AttScorepause可基于下式计算:
上式中的Qp、Kp皆为停顿信息编码器的输入Ei,Ei为第i个句子对应的停顿时长统计特征,Qs、Ks皆为句编码器的输入[Si,Ei],[Si,Ei]表示Si与Ei拼接,Si是第i个句子对应的句向量,T是模型训练超参,用来控制停顿信息编码的注意力得分分布尖锐程度,T越大,分布越平缓,即AttScorepause对AttScore的影响越小。
需要说明的是,本实施例为了约束模型对停顿信息的关注,将停顿信息编码器的注意力得分AttScorepause加权句编码器的注意力得分AttScores,即,使说话人通过韵律信息传达的主题切换信息调整句编码器的注意力分布,从而强迫模型同时关注句子的语义与韵律信息,进而提升文本分割效果。
步骤S5044、将该训练句子对应的目标句向量输入第二文本分割模型的概率确定模块,得到该训练句子为分割边界的概率。
具体的,概率确定模块基于softmax函数确定该训练句子为分割边界的概率。
需要说明的是,第一文本分割模型的建立过程只需将上述的步骤S503a和S503b去除,将步骤S504调整为“将训练文本中的每个句子、每个句子对应的停顿时长、每个句子中各个词分别对应的停顿时长,输入第一文本分割模型,得到训练文本中的每个句子为分割边界的概率”,并将步骤S505中的“第二文本分割模型”调整为“第一文本分割模型”即可。另外,第一文本分割模型的结构与第二文本分割模型的拓扑结构相同,不同之处仅在于两个模型中利用和处理的停顿特征不同。
在构建出第二文本分割模型后,便可利用其对待分割的目标文本进行分割,即,对于目标文本中的每个目标句子,将目标句子、目标句子对应的停顿时长统计特征、目标句子中各个词分别对应的停顿时长统计特征,输入第二文本分割模型,得到目标句子为分割边界的概率,根据目标句子为分割边界的概率确定目标句子是否为分割边界,根据确定出的分割边界对目标文本进行分割。
其中,将目标句子、目标句子对应的停顿时长统计特征、目标句子中各个词分别对应的停顿时长统计特征,输入第二文本分割模型,得到目标句子为分割边界的概率的过程包括:将目标句子和目标句子中各个词分别对应的停顿时长统计特征,输入第二文本分割模型的词编码模块,得到目标句子中各个词分别对应的语义表征向量;将目标句子中各个词分别对应的语义表征向量输入第二文本分割模型的句向量确定模块,得到目标句子对应的句向量;将目标句子对应的句向量和目标句子对应的停顿时长统计特征输入第二文本分割模型的句子编码模块,得到目标句子对应的、能够表征目标句子的语义以及韵律的目标句向量;将目标句子对应的目标句向量输入第二文本分割模型的概率确定模块,得到目标句子为分割边界的概率。
需要说明的是,将上述利用构建出的第二文本分割模型对待分割的目标文本进行分割的过程中的“第二文本分割模型”替换为“第一文本分割模型”,将“停顿时长统计特征”替换为“停顿时长”即为利用构建出的第一文本分割模型对待分割的目标文本进行分割的过程。
第五实施例
本申请实施例还提供了一种文本分割装置,下面对本申请实施例提供的文本分割装置进行描述,下文描述的文本分割装置与上文描述的文本分割方法可相互对应参照。
请参阅图7,示出了本申请实施例提供的文本分割装置的结构示意图,可以包括:待分割文本获取模块701、语音停顿特征获取模块702和文本分割模块703。
待分割文本获取模块701,用于获取目标说话人的目标语音的识别文本,作为待分割的目标文本。
语音停顿特征获取模块702,用于根据所述目标语音和所述目标文本,获取所述目标说话人的语音停顿特征,其中,所述目标说话人的语音停顿特征能够反映所述目标说话人的语速和韵律变化情况。
文本分割模块703,用于根据所述目标说话人的语音停顿特征,对所述目标文本进行分割。
可选的,所述语音停顿特征包括:词间停顿特征和句间停顿特征;
语音停顿特征获取模块702包括:词间停顿特征获取子模块和句间停顿特征获取子模块。其中:
所述词间停顿特征获取子模块,用于根据所述目标语音获取所述目标文本中各个词分别对应的停顿时长,作为所述目标说话人的词间停顿特征,其中,所述停顿时长为对应词与相邻词之间的时间间隔。
所述句间停顿特征获取子模块,用于根据所述目标语音获取所述目标文本中各个句子分别对应的停顿时长,作为所述目标说话人的句间停顿特征,其中,所述停顿时长为对应句子与相邻句子之间的时间间隔。
可选的,所述词间停顿特征获取子模块,具体用于根据所述目标文本中的各个词以及各个词的相邻词在所述目标语音中的位置,确定所述目标文本中各个词分别对应的停顿时长。
可选的,所述句间停顿特征获取子模块,具体用于根据所述目标文本中各个句子的第一个词以及各个句子的前向相邻句子的最后一个词在所述目标语音中的位置,确定所述目标文本中各个句子分别对应的停顿时长;或者,根据所述目标文本中各个句子的最后一个词以及各个句子的后向相邻句子的第一个词在所述目标语音中的位置,确定所述目标文本中各个句子分别对应的停顿时长。
可选的,文本分割模块703可以包括:词停顿统计特征确定子模块、句停顿特征确定子模块和文本分割子模块。
所述词停顿统计特征确定子模块,用于根据所述目标文本中每个词对应的停顿时长和每个词的周边词对应的停顿时长,确定所述目标文本中每个词对应的停顿时长统计特征。
所述句停顿特征确定子模块,用于根据所述目标文本中每个句子对应的停顿时长和每个句子的周边句子对应的停顿时长,确定所述目标文本中每个句子对应的停顿时长统计特征。
所述文本分割子模块,用于根据所述目标文本中每个词对应的停顿时长统计特征和所述目标文本中每个句子对应的停顿时长统计特征,对所述目标文本进行分割。
可选的,所述词停顿统计特征确定子模块,具体用于针对所述目标文本中的每个目标词:
获取所述目标词对应的一个词串,并计算所述目标词对应的词串中各个词分别对应的停顿时长的均值和方差,作为所述目标词对应的停顿时长统计特征,其中,所述目标词对应的词串由所述目标词和所述目标词的周边词组成;或者,获取所述目标词对应的多个长度不同的词串,计算所述目标词对应的每个词串中各个词分别对应的停顿时长的均值和方差,得到所述目标词对应的多个停顿时长统计特征,将所述目标词对应的多个停顿时长统计特征拼接,拼接后特征作为所述目标词最终对应的停顿时长统计特征。
可选的,所述句停顿特征确定子模块,具体用于针对所述目标文本中的每个目标句子:
获取所述目标句子对应的一个句子序列,并计算所述目标句子对应的句子序列中各个句子分别对应的停顿时长的均值和方差,作为所述目标句子对应的停顿时长统计特征,其中,所述目标句子对应的句子序列由所述目标句子和所述目标句子的周边句子组成;或者,获取所述目标句子对应的多个长度不同的句子序列,计算所述目标句子对应的每个句子序列中各个句子分别对应的停顿时长的均值和方差,得到所述目标句子对应的多个停顿时长统计特征,将所述目标句子对应的多个停顿时长统计特征拼接,拼接后特征作为所述目标句子最终对应的停顿时长统计特征。
可选的,所述文本分割子模块,具体用于利用所述目标文本、所述目标文本中每个词对应的停顿时长统计特征、所述目标文本中每个句子对应的停顿时长统计特征以及预先建立的文本分割模型,对所述目标文本进行分割;其中,所述文本分割模型采用具有分割标注的训练文本,以及所述训练文本中每个词对应的停顿时长统计特征以及所述训练文本中每个句子对应的停顿时长统计特征训练得到。
可选的,所述文本分割子模块,具体用于针对所述目标文本中的每个目标句子,将所述目标句子、所述目标句子对应的停顿时长统计特征、所述目标句子中每个词对应的停顿时长统计特征,输入所述文本分割模型,得到所述目标句子为分割边界的概率,根据所述目标句子为分割边界的概率,确定所述目标句子是否为分割边界;
根据确定出的分割边界对所述目标文本进行分割。
可选的,所述文本分割子模块在将所述目标句子、所述目标句子对应的停顿时长统计特征、所述目标句子中每个词对应的停顿时长统计特征,输入所述文本分割模型,得到所述目标句子为分割边界的概率时,具体用于:
将所述目标句子和所述目标句子中各个词分别对应的停顿时长统计特征输入所述文本分割模型的词编码模块,得到所述目标句子中各个词分别对应的语义表征向量;将所述目标句子中各个词分别对应的语义表征向量输入所述文本分割模型的句向量确定模块,得到所述目标句子对应的句向量;将所述目标句子对应的句向量和所述目标句子对应的停顿时长统计特征输入所述文本分割模型的句子编码模块,得到所述目标句子对应的、能够表征所述目标句子的语义以及语速和韵律的目标句向量;将所述目标句子对应的目标句向量输入所述文本分割模型的概率确定模块,得到所述目标句子为分割边界的概率。
本申请实施例提供的文本分割装置,在获得待分割的目标文本(即目标说话人的目标语音的识别文本)后,首先根据目标语音和目标文本,获取目标说话人的语音停顿特征,然后根据目标说话人的语音停顿特征,对目标文本进行分割。本申请实施例提供的文本分割装置可将目标文本分割为更符合用户阅读习惯的文本片段,另外,由于目标说话人的语音停顿特征能够反映目标说话人的速速及韵律变化情况,因此,以目标说话人的语音停顿特征为依据对目标文本进行分割,能够获得与说话人语音停顿保持一致性的文本分割结果。
第六实施例
本申请实施例还提供了一种文本分割设备,请参阅图8,示出了该文本分割设备的结构示意图,该文本分割设备可以包括:至少一个处理器801,至少一个通信接口802,至少一个存储器803和至少一个通信总线804;
在本申请实施例中,处理器801、通信接口802、存储器803、通信总线804的数量为至少一个,且处理器801、通信接口802、存储器803通过通信总线804完成相互间的通信;
处理器801可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器803可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
获取目标说话人的目标语音的识别文本,作为待分割的目标文本;
根据所述目标语音和所述目标文本,获取所述目标说话人的语音停顿特征,其中,所述目标说话人的语音停顿特征能够反映所述目标说话人的语速和韵律变化情况;
根据所述目标说话人的语音停顿特征,对所述目标文本进行分割。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
第七实施例
本申请实施例还提供一种可读存储介质,该可读存储介质可存储有适于处理器执行的程序,所述程序用于:
获取目标说话人的目标语音的识别文本,作为待分割的目标文本;
根据所述目标语音和所述目标文本,获取所述目标说话人的语音停顿特征,其中,所述目标说话人的语音停顿特征能够反映所述目标说话人的语速和韵律变化情况;
根据所述目标说话人的语音停顿特征,对所述目标文本进行分割。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (14)
1.一种文本分割方法,其特征在于,包括:
获取目标说话人的目标语音的识别文本,作为待分割的目标文本;
根据所述目标语音和所述目标文本,获取所述目标说话人的语音停顿特征,其中,所述目标说话人的语音停顿特征能够反映所述目标说话人的语速和韵律变化情况;
根据所述目标说话人的语音停顿特征,对所述目标文本进行分割。
2.根据权利要求1所述的文本分割方法,其特征在于,所述语音停顿特征包括:词间停顿特征和句间停顿特征;
所述根据所述目标语音和所述目标文本,获取所述目标说话人的语音停顿特征包括:
根据所述目标语音获取所述目标文本中各个词分别对应的停顿时长,作为所述目标说话人的词间停顿特征,其中,一个词对应的停顿时长为该词与相邻词之间的时间间隔;
根据所述目标语音获取所述目标文本中各个句子分别对应的停顿时长,作为所述目标说话人的句间停顿特征,其中,一个句子对应的停顿时长为该句子与相邻句子之间的时间间隔。
3.根据权利要求2所述的文本分割方法,其特征在于,所述根据所述目标语音获取所述目标文本中各个词分别对应的停顿时长,包括:
根据所述目标文本中的各个词以及各个词的相邻词在所述目标语音中的位置,确定所述目标文本中各个词分别对应的停顿时长。
4.根据权利要求2所述的文本分割方法,其特征在于,所述根据所述目标语音获取所述目标文本中各个词分别对应的停顿时长,包括:
根据所述目标文本中各个句子的第一个词以及各个句子的前向相邻句子的最后一个词在所述目标语音中的位置,确定所述目标文本中各个句子分别对应的停顿时长;
或者,
根据所述目标文本中各个句子的最后一个词以及各个句子的后向相邻句子的第一个词在所述目标语音中的位置,确定所述目标文本中各个句子分别对应的停顿时长。
5.根据权利要求2所述的文本分割方法,其特征在于,所述根据所述目标说话人的语音停顿特征,对所述目标文本进行分割,包括:
根据所述目标文本中每个词对应的停顿时长和每个词的周边词对应的停顿时长,确定所述目标文本中每个词对应的停顿时长统计特征;
根据所述目标文本中每个句子对应的停顿时长和每个句子的周边句子对应的停顿时长,确定所述目标文本中每个句子对应的停顿时长统计特征;
根据所述目标文本中每个词对应的停顿时长统计特征和所述目标文本中每个句子对应的停顿时长统计特征,对所述目标文本进行分割。
6.根据权利要求5所述的文本分割方法,其特征在于,所述根据所述目标文本中每个词对应的停顿时长和每个词的周边词对应的停顿时长,确定所述目标文本中每个词对应的停顿时长统计特征,包括:
针对所述目标文本中的每个目标词:
获取所述目标词对应的一个词串,并计算所述目标词对应的词串中各个词分别对应的停顿时长的均值和方差,作为所述目标词对应的停顿时长统计特征,其中,所述目标词对应的词串由所述目标词和所述目标词的周边词组成;
或者,
获取所述目标词对应的多个长度不同的词串,计算所述目标词对应的每个词串中各个词分别对应的停顿时长的均值和方差,得到所述目标词对应的多个停顿时长统计特征,将所述目标词对应的多个停顿时长统计特征拼接,拼接后特征作为所述目标词最终对应的停顿时长统计特征。
7.根据权利要求5所述的文本分割方法,其特征在于,所述根据所述目标文本中每个句子对应的停顿时长和每个句子的周边句子对应的停顿时长,确定所述目标文本中每个句子对应的停顿时长统计特征,包括:
针对所述目标文本中的每个目标句子:
获取所述目标句子对应的一个句子序列,并计算所述目标句子对应的句子序列中各个句子分别对应的停顿时长的均值和方差,作为所述目标句子对应的停顿时长统计特征,其中,所述目标句子对应的句子序列由所述目标句子和所述目标句子的周边句子组成;
或者,
获取所述目标句子对应的多个长度不同的句子序列,计算所述目标句子对应的每个句子序列中各个句子分别对应的停顿时长的均值和方差,得到所述目标句子对应的多个停顿时长统计特征,将所述目标句子对应的多个停顿时长统计特征拼接,拼接后特征作为所述目标句子最终对应的停顿时长统计特征。
8.根据权利要求5所述的文本分割方法,其特征在于,所述根据所述目标文本中每个词对应的停顿时长统计特征和所述目标文本中每个句子对应的停顿时长统计特征,对所述目标文本进行分割,包括:
利用所述目标文本、所述目标文本中每个词对应的停顿时长统计特征、所述目标文本中每个句子对应的停顿时长统计特征以及预先建立的文本分割模型,对所述目标文本进行分割;
其中,所述文本分割模型采用具有分割标注的训练文本,以及所述训练文本中每个词对应的停顿时长统计特征以及所述训练文本中每个句子对应的停顿时长统计特征训练得到。
9.根据权利要求8所述的文本分割方法,其特征在于,所述利用所述目标文本、所述目标文本中每个词对应的停顿时长统计特征、所述目标文本中每个句子对应的停顿时长统计特征以及预先建立的文本分割模型,对所述目标文本进行分割,包括:
针对所述目标文本中的每个目标句子,将所述目标句子、所述目标句子对应的停顿时长统计特征、所述目标句子中每个词对应的停顿时长统计特征,输入所述文本分割模型,得到所述目标句子为分割边界的概率,根据所述目标句子为分割边界的概率,确定所述目标句子是否为分割边界;
根据确定出的分割边界对所述目标文本进行分割。
10.根据权利要求9所述的文本分割方法,其特征在于,所述将所述目标句子、所述目标句子对应的停顿时长统计特征、所述目标句子中每个词对应的停顿时长统计特征,输入所述文本分割模型,得到所述目标句子为分割边界的概率,包括:
将所述目标句子和所述目标句子中各个词分别对应的停顿时长统计特征输入所述文本分割模型的词编码模块,得到所述目标句子中各个词分别对应的语义表征向量;
将所述目标句子中各个词分别对应的语义表征向量输入所述文本分割模型的句向量确定模块,得到所述目标句子对应的句向量;
将所述目标句子对应的句向量和所述目标句子对应的停顿时长统计特征输入所述文本分割模型的句子编码模块,得到所述目标句子对应的、能够表征所述目标句子的语义以及语速和韵律的目标句向量;
将所述目标句子对应的目标句向量输入所述文本分割模型的概率确定模块,得到所述目标句子为分割边界的概率。
11.一种文本分割装置,其特征在于,包括:待分割文本获取模块、语音停顿特征获取模块和文本分割模块;
所述待分割文本获取模块,用于获取目标说话人的目标语音的识别文本,作为待分割的目标文本;
所述语音停顿特征获取模块,用于根据所述目标语音和所述目标文本,获取所述目标说话人的语音停顿特征,其中,所述目标说话人的语音停顿特征能够反映所述目标说话人的语速和韵律变化情况;
所述文本分割模块,用于根据所述目标说话人的语音停顿特征,对所述目标文本进行分割。
12.根据权利要求11所述的文本分割装置,其特征在于,所述语音停顿特征包括:词间停顿特征和句间停顿特征;
所述语音停顿特征获取模块包括:词间停顿特征获取子模块和句间停顿特征获取子模块;
所述词间停顿特征获取子模块,用于根据所述目标语音获取所述目标文本中各个词分别对应的停顿时长,作为所述目标说话人的词间停顿特征,其中,所述停顿时长为对应词与相邻词之间的时间间隔;
所述句间停顿特征获取子模块,用于根据所述目标语音获取所述目标文本中各个句子分别对应的停顿时长,作为所述目标说话人的句间停顿特征,其中,所述停顿时长为对应句子与相邻句子之间的时间间隔。
13.一种文本分割设备,其特征在于,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如权利要求1~10中任一项所述的文本分割方法的各个步骤。
14.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1~10中任一项所述的文本分割方法的各个步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011545165.9A CN112686018A (zh) | 2020-12-23 | 2020-12-23 | 一种文本分割方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011545165.9A CN112686018A (zh) | 2020-12-23 | 2020-12-23 | 一种文本分割方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112686018A true CN112686018A (zh) | 2021-04-20 |
Family
ID=75451419
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011545165.9A Pending CN112686018A (zh) | 2020-12-23 | 2020-12-23 | 一种文本分割方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112686018A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117113974A (zh) * | 2023-04-26 | 2023-11-24 | 荣耀终端有限公司 | 文本分段方法、装置、芯片、电子设备及介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004138661A (ja) * | 2002-10-15 | 2004-05-13 | Nippon Telegr & Teleph Corp <Ntt> | 音声素片データベース作成方法、音声合成方法、音声素片データベース作成装置、音声合成装置、音声データベース作成プログラム、音声合成プログラム |
CN101000764A (zh) * | 2006-12-18 | 2007-07-18 | 黑龙江大学 | 基于韵律结构的语音合成文本处理方法 |
CN102231278A (zh) * | 2011-06-10 | 2011-11-02 | 安徽科大讯飞信息科技股份有限公司 | 实现语音识别中自动添加标点符号的方法及系统 |
CN105244022A (zh) * | 2015-09-28 | 2016-01-13 | 科大讯飞股份有限公司 | 音视频字幕生成方法及装置 |
CN106331893A (zh) * | 2016-08-31 | 2017-01-11 | 科大讯飞股份有限公司 | 实时字幕显示方法及系统 |
CN108845979A (zh) * | 2018-05-25 | 2018-11-20 | 科大讯飞股份有限公司 | 一种语音转写方法、装置、设备及可读存储介质 |
CN110381389A (zh) * | 2018-11-14 | 2019-10-25 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的字幕生成方法和装置 |
WO2019214145A1 (zh) * | 2018-05-10 | 2019-11-14 | 平安科技(深圳)有限公司 | 文本情绪分析方法、装置及存储介质 |
CN111128254A (zh) * | 2019-11-14 | 2020-05-08 | 网易(杭州)网络有限公司 | 音频播放方法、电子设备及存储介质 |
CN111210822A (zh) * | 2020-02-12 | 2020-05-29 | 支付宝(杭州)信息技术有限公司 | 语音识别方法及其装置 |
CN111508522A (zh) * | 2019-01-30 | 2020-08-07 | 沪江教育科技(上海)股份有限公司 | 一种语句分析处理方法及系统 |
-
2020
- 2020-12-23 CN CN202011545165.9A patent/CN112686018A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004138661A (ja) * | 2002-10-15 | 2004-05-13 | Nippon Telegr & Teleph Corp <Ntt> | 音声素片データベース作成方法、音声合成方法、音声素片データベース作成装置、音声合成装置、音声データベース作成プログラム、音声合成プログラム |
CN101000764A (zh) * | 2006-12-18 | 2007-07-18 | 黑龙江大学 | 基于韵律结构的语音合成文本处理方法 |
CN102231278A (zh) * | 2011-06-10 | 2011-11-02 | 安徽科大讯飞信息科技股份有限公司 | 实现语音识别中自动添加标点符号的方法及系统 |
CN105244022A (zh) * | 2015-09-28 | 2016-01-13 | 科大讯飞股份有限公司 | 音视频字幕生成方法及装置 |
CN106331893A (zh) * | 2016-08-31 | 2017-01-11 | 科大讯飞股份有限公司 | 实时字幕显示方法及系统 |
WO2019214145A1 (zh) * | 2018-05-10 | 2019-11-14 | 平安科技(深圳)有限公司 | 文本情绪分析方法、装置及存储介质 |
CN108845979A (zh) * | 2018-05-25 | 2018-11-20 | 科大讯飞股份有限公司 | 一种语音转写方法、装置、设备及可读存储介质 |
CN110381389A (zh) * | 2018-11-14 | 2019-10-25 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的字幕生成方法和装置 |
CN111508522A (zh) * | 2019-01-30 | 2020-08-07 | 沪江教育科技(上海)股份有限公司 | 一种语句分析处理方法及系统 |
CN111128254A (zh) * | 2019-11-14 | 2020-05-08 | 网易(杭州)网络有限公司 | 音频播放方法、电子设备及存储介质 |
CN111210822A (zh) * | 2020-02-12 | 2020-05-29 | 支付宝(杭州)信息技术有限公司 | 语音识别方法及其装置 |
Non-Patent Citations (2)
Title |
---|
YOURI MARYN 等: "Toward Improved Ecological Validity in the Acoustic Measurement of Overall Voice Quality: Combining Continuous Speech and Sustained Vowels", JOURNAL OF VOICE, vol. 24, no. 5, 2 November 2009 (2009-11-02), pages 540 - 555, XP027225710 * |
马欢等: "维吾尔语文语转换系统文本分析模块初探", 计算机工程, vol. 32, no. 16, pages 267 - 268 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117113974A (zh) * | 2023-04-26 | 2023-11-24 | 荣耀终端有限公司 | 文本分段方法、装置、芯片、电子设备及介质 |
CN117113974B (zh) * | 2023-04-26 | 2024-05-24 | 荣耀终端有限公司 | 文本分段方法、装置、芯片、电子设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6222821B2 (ja) | 誤り修正モデル学習装置、及びプログラム | |
JP6677419B2 (ja) | 音声対話方法及び装置 | |
CN111797632B (zh) | 信息处理方法、装置及电子设备 | |
CN112634867A (zh) | 模型训练方法、方言识别方法、装置、服务器及存储介质 | |
US20200160850A1 (en) | Speech recognition system, speech recognition method and computer program product | |
CN111435592B (zh) | 一种语音识别方法、装置及终端设备 | |
CN112992125B (zh) | 一种语音识别方法、装置、电子设备、可读存储介质 | |
CN112397056B (zh) | 语音评测方法及计算机存储介质 | |
CN111223476B (zh) | 语音特征向量的提取方法、装置、计算机设备和存储介质 | |
CN111462751A (zh) | 解码语音数据的方法、装置、计算机设备和存储介质 | |
CN112509560B (zh) | 一种基于缓存语言模型的语音识别自适应方法和系统 | |
CN112201275B (zh) | 声纹分割方法、装置、设备及可读存储介质 | |
CN111354347A (zh) | 一种基于自适应热词权重的语音识别方法及系统 | |
CN115965009A (zh) | 文本纠错模型的训练与文本纠错方法、设备 | |
CN115376495A (zh) | 语音识别模型训练方法、语音识别方法及装置 | |
CN112767921A (zh) | 一种基于缓存语言模型的语音识别自适应方法和系统 | |
CN112151020A (zh) | 语音识别方法、装置、电子设备及存储介质 | |
CN112686018A (zh) | 一种文本分割方法、装置、设备及存储介质 | |
CN111554270B (zh) | 训练样本筛选方法及电子设备 | |
CN111508481B (zh) | 语音唤醒模型的训练方法、装置、电子设备及存储介质 | |
CN112559725A (zh) | 文本匹配方法、装置、终端和存储介质 | |
CN108899016B (zh) | 一种语音文本规整方法、装置、设备及可读存储介质 | |
CN112733546A (zh) | 表情符号生成方法、装置、电子设备及存储介质 | |
CN112802476B (zh) | 语音识别方法和装置、服务器、计算机可读存储介质 | |
CN113327577B (zh) | 语音合成方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20230522 Address after: 230026 Jinzhai Road, Baohe District, Hefei, Anhui Province, No. 96 Applicant after: University of Science and Technology of China Applicant after: IFLYTEK Co.,Ltd. Address before: NO.666, Wangjiang West Road, hi tech Zone, Hefei City, Anhui Province Applicant before: IFLYTEK Co.,Ltd. |