CN117113974B

CN117113974B - 文本分段方法、装置、芯片、电子设备及介质

Info

Publication number: CN117113974B
Application number: CN202310472366.8A
Authority: CN
Inventors: 崔和涛; 张云柯; 徐成国
Original assignee: Honor Device Co Ltd
Current assignee: Honor Device Co Ltd
Priority date: 2023-04-26
Filing date: 2023-04-26
Publication date: 2024-05-24
Anticipated expiration: 2043-04-26
Also published as: CN117113974A

Abstract

本申请实施例提供了一种文本分段方法、装置、芯片、电子设备及介质，该方法包括：在存在对应第一文本的至少一个第二文本待分段的情况下，根据至少一个第二文本和第一文本，获取目标文本特征和目标语音特征；其中，第一文本对应的第一语音为语音段中的任一句语音，至少一个第二文本一一对应于语音段中的在第一语音之前的至少一句语音，且至少一句语音和第一语音在语音段中依次相邻；根据目标文本特征和目标语音特征，确定是否需要在至少一个第二文本和第一文本之间分段，若是则在至少一个第二文本和第一文本之间进行分段。本申请实施例能够对语音转换得到的文本进行分段。

Description

文本分段方法、装置、芯片、电子设备及介质

技术领域

本申请涉及电子设备技术领域，特别涉及一种文本分段方法、装置、芯片、电子设备及介质。

背景技术

通常情况下，人们说话的速度高于打字写字的速度，为提高书写效率，可以通过语音文本转换功能，将人们说话的语音转换为相应文本。

目前，用户输入的语音转换成文本后是一段连续的文本，影响用户的阅读体验。如此有必要提供一种文本分段方法。

发明内容

本申请实施例提供了一种文本分段方法、装置、芯片、电子设备及介质，能够对语音转换得到的文本进行分段。

第一方面，本申请实施例提供一种文本分段方法，包括：在存在对应第一文本的至少一个第二文本待分段的情况下，根据至少一个第二文本和第一文本，获取目标文本特征和目标语音特征；其中，第一文本对应的第一语音为语音段中的任一句语音，至少一个第二文本一一对应于语音段中的在第一语音之前的至少一句语音，且至少一句语音和第一语音在语音段中依次相邻；根据目标文本特征和目标语音特征，确定是否需要在至少一个第二文本和第一文本之间分段；在需要在至少一个第二文本和第一文本之间分段的情况下，在至少一个第二文本和第一文本之间进行分段。

根据第一文本及相应的一个或多个待分段文本，来确定文本特征和语音特征，并根据确定出的文本特征和语音特征进行文本分段处理，如此可以实现对文本的准确分段。

一个实施例中，在至少一个第二文本和第一文本之间进行分段之后，文本分段方法还包括：通过第一段落展示至少一个第二文本，且通过第二段落展示第一文本；其中，第一段落为已结束分段的段落，第二段落为未结束分段的段落。

若判断出第一文本与其对应的至少一个第二文本分属不同段落，则可以进行分段展示，这一展示内容通常与实际分段需求保持一致，如此可便于用户实时查看到分段展示出的语音识别文本，可提升用户阅读体验。

一个实施例中，文本分段方法还包括：在无需在至少一个第二文本和第一文本之间分段的情况下，确定第一文本待分段；通过第一段落展示至少一个第二文本和第一文本，其中，第一段落为未结束分段的段落。

若判断出第一文本与其对应的至少一个第二文本归属同一段落，则可以不进行分段展示，而是通过同一段落进行展示，这一展示内容通常与实际分段需求保持一致，如此可便于用户实时查看到通过同一段落展示出的语音识别文本，可提升用户阅读体验。

一个实施例中，文本分段方法还包括：展示电子设备的第一应用，第一应用包括语音输入控件；获取经语音输入控件输入的第一语音；对第一语音进行语音文本转换处理，得到第一文本。

通过文本特征和语音特征进行语音识别文本的文本分段处理，可以解决语音输入文本的分段展示问题，从而提升了语音输入场景下的文本展示效果。

一个实施例中，目标文本特征包括第一特征值，第一特征值根据至少一个第二文本得到；根据目标文本特征和目标语音特征，确定是否需要在至少一个第二文本和第一文本之间分段，包括：根据第一映射关系，将第一特征值映射为第一值，其中，第一映射关系使得预设阈值区间基于第一映射关系能够被映射至概率函数的横轴上的指定区间；以第一值作为概率函数的横坐标值，根据概率函数获得对应第一值的纵坐标值，作为第一概率值；根据第一概率值，确定是否需要在至少一个第二文本和第一文本之间分段。

先基于一定的映射关系对第一特征值进行映射，再使用映射出的值和概率函数来计算文本分段概率。如此可使得文本分段概率与实际分段需求相一致，从而可实现文本的准确分段，提升用户阅读体验。

一个实施例中，根据第一概率值，确定是否需要在至少一个第二文本和第一文本之间分段，包括：在概率函数的纵坐标值区间内，生成随机值；在随机值小于第一概率值的情况下，确定需要在至少一个第二文本和第一文本之间分段；在随机值大于第一概率值的情况下，确定无需在至少一个第二文本和第一文本之间分段。

基于生成第一概率值的概率函数，通过在概率函数的纵坐标值区间内生成随机值，以生成的随机值来模拟第一概率值所指示的分段概率，从而可以实现以相应概率进行分段的效果。如此，可以具有分段顺滑效果。

一个实施例中，根据目标文本特征和目标语音特征，确定是否需要在至少一个第二文本和第一文本之间分段，包括：根据目标时间间隔、预设最小间隔阈值和预设最大间隔阈值，以及根据目标语速波动率、预设最小波动率阈值和预设最大波动率阈值，确定是否需要在至少一个第二文本和第一文本之间分段；其中，目标时间间隔为第一语音与语音段中的第一语音的前一句语音之间的时间间隔，目标语速波动率为第一文本对应的语速与至少一个第二文本对应的语速的绝对差值除以至少一个第二文本对应的语速所得到的数值。

基于第一文本的目标时间间隔、目标语速波动率这些语音特征，可以实现对文本分段与否的准确判断。

一个实施例中，根据目标文本特征和目标语音特征，确定是否需要在至少一个第二文本和第一文本之间分段，包括：根据第一文本中的关键词、预设的关键词白名单和预设的关键词黑名单，以及根据至少一个第二文本的总文本长度、预设最小长度阈值、预设居中长度阈值和预设最大长度阈值，以及根据至少一个第二文本的总分句数量、预设最小数量阈值、预设居中数量阈值和预设最大数量阈值，确定是否需要在至少一个第二文本和第一文本之间分段；其中，关键词白名单包括对应分段的关键词，关键词黑名单包括对应不分段的关键词。

基于第一文本中的关键词、至少一个第二文本的总文本长度、至少一个第二文本的总分句数量这些文本特征，可以实现对文本分段与否的准确判断。

第二方面，本申请实施例提供一种文本分段装置，包括：获取模块，用于在存在对应第一文本的至少一个第二文本待分段的情况下，根据至少一个第二文本和第一文本，获取目标文本特征和目标语音特征；其中，第一文本对应的第一语音为语音段中的任一句语音，至少一个第二文本一一对应于语音段中的在第一语音之前的至少一句语音，且至少一句语音和第一语音在语音段中依次相邻；确定模块，用于根据目标文本特征和目标语音特征，确定是否需要在至少一个第二文本和第一文本之间分段；处理模块，用于在需要在至少一个第二文本和第一文本之间分段的情况下，在至少一个第二文本和第一文本之间进行分段。

第三方面，本申请实施例提供一种电子芯片，包括：处理器，其用于执行存储在存储器上的计算机程序指令，其中，当计算机程序指令被处理器执行时，触发电子芯片执行如第一方面中任一项的方法。

第四方面，本申请实施例提供一种电子设备，电子设备包括用于存储计算机程序指令的存储器、用于执行计算机程序指令的处理器和通信装置，其中，当计算机程序指令被该处理器执行时，触发电子设备执行如第一方面中任一项的方法。

第五方面，本申请实施例提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行如第一方面中任一项的方法。

第六方面，本申请实施例提供一种计算机程序产品，计算机程序产品包括计算机程序，当计算机程序在计算机上运行时，使得计算机执行如第一方面中任一项的方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本申请一个实施例提供的一种电子设备的结构示意图；

图2为本申请一个实施例提供的一种文本显示示意图；

图3为本申请一个实施例提供的另一种文本显示示意图；

图4为本申请一个实施例提供的一种文本分段方法的流程示意图；

图5为本申请一个实施例提供的一种概率函数的示意图；

图6为本申请一个实施例提供的另一种文本分段方法的流程示意图。

具体实施方式

为了更好的理解本申请的技术方案，下面结合附图对本申请实施例进行详细描述。

应当明确，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“至少一个”是指一个或者多个，“多个”是指两个或两个以上。本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。其中A，B可以是单数或者复数。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。“以下至少一项”及其类似表达，是指的这些项中的任意组合，包括单项或复数项的任意组合。例如，a，b和c中的至少一项可以表示：a,b,c,a-b,a-c,b-c,或a-b-c，其中a,b,c可以是单个，也可以是多个。

应当理解，尽管在本申请实施例中可能采用术语第一、第二等来描述设定阈值，但这些设定阈值不应限于这些术语。这些术语仅用来将设定阈值彼此区分开。例如，在不脱离本申请实施例范围的情况下，第一设定阈值也可以被称为第二设定阈值，类似地，第二设定阈值也可以被称为第一设定阈值。

本申请任一实施例提供的文本分段方法可以应用于图1所示的电子设备100中。图1示出了电子设备100的结构示意图。

电子设备100可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块(subscriber identification module，SIM)卡接口195等。其中传感器模块180可以包括压力传感器，陀螺仪传感器，气压传感器，磁传感器，加速度传感器，距离传感器，接近光传感器，指纹传感器，温度传感器，触摸传感器，环境光传感器，骨传导传感器等。

可以理解的是，本申请实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中，电子设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

一些实施例中，处理器110可以是片上装置SOC(System on Chip，系统级芯片)，该处理器110中可以包括中央处理器(Central Processing Unit，CPU)，还可以进一步包括其他类型的处理器。一些实施例中，处理器110可以是PWM控制芯片。

处理器110还可包括必要的硬件加速器或逻辑处理硬件电路，如ASIC，或一个或多个用于控制技术方案程序执行的集成电路等。此外，处理器110可以具有操作一个或多个软件程序的功能，软件程序可以存储在存储介质中。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

一些实施例中，电子设备100的存储器可以是只读存储器(read-only memory，ROM)、可存储静态信息和指令的其它类型的静态存储设备、随机存取存储器(randomaccess memory，RAM)或可存储信息和指令的其它类型的动态存储设备，也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory，EEPROM)、只读光盘(compact disc read-only memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其它磁存储设备，或者还可以是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何计算机可读介质。

一些实施例中，处理器110可以和存储器可以合成一个处理装置，也可以是彼此独立的部件，处理器110可用于执行存储器中存储的程序代码。具体实现时，该存储器也可以集成在处理器110中，或者，独立于处理器110。

在一些实施例中，处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口，集成电路内置音频(inter-integrated circuitsound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purposeinput/output，GPIO)接口，用户标识模块(subscriber identity module，SIM)接口，和/或通用串行总线(universal serial bus，USB)接口等。

USB接口130是符合USB标准规范的接口，具体可以是Mini USB接口，Micro USB接口，USB Type C接口等。

可以理解的是，本申请实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对电子设备100的结构限定。在本申请另一些实施例中，电子设备100也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

充电管理模块140用于从充电器接收充电输入。电源管理模块141用于连接电池142、充电管理模块140与处理器110。

电子设备100的无线通信功能可以通过天线1，天线2，移动通信模块150，无线通信模块160，调制解调处理器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。电子设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。例如：可以将天线1复用为无线局域网的分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。

移动通信模块150可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器，开关，功率放大器，低噪声放大器(low noise amplifier，LNA)等。移动通信模块150可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大，经天线1转为电磁波辐射出去。在一些实施例中，移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中，移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。

调制解调处理器可以包括调制器和解调器。其中，调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后，被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A，受话器170B等)输出声音信号，或通过显示屏194显示图像或视频。在一些实施例中，调制解调处理器可以是独立的器件。在另一些实施例中，调制解调处理器可以独立于处理器110，与移动通信模块150或其他功能模块设置在同一个器件中。

无线通信模块160可以提供应用在电子设备100上的包括无线局域网(wirelesslocal area networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)，调频(frequency modulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。

在一些实施例中，电子设备100的天线1和移动通信模块150耦合，天线2和无线通信模块160耦合，使得电子设备100可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯系统(global system for mobile communications，GSM)，通用分组无线服务(general packet radio service，GPRS)，码分多址接入(codedivision multiple access，CDMA)，宽带码分多址(wideband code division multipleaccess，WCDMA)，时分码分多址(time-division code division multiple access，TD-SCDMA)，长期演进(long term evolution，LTE)，BT，GNSS，WLAN，NFC，FM，和/或IR技术等。所述GNSS可以包括全球卫星定位系统(global positioning system，GPS)，全球导航卫星系统(global navigation satellite system，GLONASS)，北斗卫星导航系统(beidounavigation satellite system，BDS)，准天顶卫星系统(quasi-zenith satellitesystem，QZSS)和/或星基增强系统(satellite based augmentation systems，SBAS)。

电子设备100通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194用于显示图像，视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)，有机发光二极管(organic light-emittingdiode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的，AMOLED)，柔性发光二极管(flex light-emittingdiode，FLED)，Miniled，MicroLed，Micro-oLed，量子点发光二极管(quantum dot lightemitting diodes，QLED)等。在一些实施例中，电子设备100可以包括1个或N个显示屏194，N为大于1的正整数。

在本申请一个实施例中，可以通过显示屏194展示语音输入控件，并在用户触发语音输入控件且发出语音后，实时展示语音识别文本的分段结果，即通过显示屏194分段展示用户所说语音的文本。

电子设备100可以通过ISP，摄像头193，视频编解码器，GPU，显示屏194以及应用处理器等实现拍摄功能。

ISP用于处理摄像头193反馈的数据。摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。

视频编解码器用于对数字视频压缩或解压缩。电子设备100可以支持一种或多种视频编解码器。这样，电子设备100可以播放或录制多种编码格式的视频，例如：动态图像专家组(moving picture experts group，MPEG)1，MPEG2，MPEG3，MPEG4等。

外部存储器接口120可以用于连接外部存储卡，例如Micro SD卡，实现扩展电子设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器121可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序(比如声音播放功能，图像播放功能等)等。存储数据区可存储电子设备100使用过程中所创建的数据(比如音频数据，电话本等)等。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。处理器110通过运行存储在内部存储器121的指令，和/或存储在设置于处理器中的存储器的指令，执行电子设备100的各种功能应用以及数据处理。

电子设备100可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，以及应用处理器等实现音频功能。例如音乐播放，录音等。

在本申请一个实施例中，用户点击语音输入控件后，电子设备100可以通过麦克风170C实时采集用户所说的语音。

压力传感器用于感受压力信号，可以将压力信号转换成电信号。在一些实施例中，压力传感器可以设置于显示屏194。压力传感器的种类很多，如电阻式压力传感器，电感式压力传感器，电容式压力传感器等。当有触摸操作作用于显示屏194，电子设备100根据压力传感器检测所述触摸操作强度。电子设备100也可以根据压力传感器的检测信号计算触摸的位置。

陀螺仪传感器可以用于确定电子设备100的运动姿态。气压传感器用于测量气压。在一些实施例中，电子设备100通过气压传感器测得的气压值计算海拔高度，辅助定位和导航。磁传感器包括霍尔传感器。加速度传感器可检测电子设备100在各个方向上(一般为三轴)加速度的大小。距离传感器，用于测量距离。电子设备100可以通过红外或激光测量距离。在一些实施例中，拍摄场景，电子设备100可以利用距离传感器测距以实现快速对焦。接近光传感器可以包括例如发光二极管(LED)和光检测器，例如光电二极管。环境光传感器用于感知环境光亮度。指纹传感器用于采集指纹。电子设备100可以利用采集的指纹特性实现指纹解锁，访问应用锁，指纹拍照，指纹接听来电等。温度传感器用于检测温度。

触摸传感器，也称“触控器件”。触摸传感器可以设置于显示屏194，由触摸传感器与显示屏194组成触摸屏，也称“触控屏”。触摸传感器用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中，触摸传感器也可以设置于电子设备100的表面，与显示屏194所处的位置不同。

按键190包括开机键，音量键等。按键190可以是机械按键，也可以是触摸式按键。马达191可以产生振动提示。马达191可以用于来电振动提示，也可以用于触摸振动反馈。指示器192可以是指示灯，可以用于指示充电状态，电量变化，也可以用于指示消息，未接来电，通知等。

SIM卡接口195用于连接SIM卡。电子设备100可以支持1个或N个SIM卡接口，N为大于1的正整数。

电子设备100的软件系统可以采用分层架构，事件驱动架构，微核架构，微服务架构，或云架构。

通常情况下，人们说话的速度高于打字写字的速度，为提高书写效率，可以通过语音文本转换功能，将人们说话的语音转换为相应文本，转换得到的文本或称作语音识别文本。

一种相关技术1中，用户输入的语音转换成文本后是一段连续的文本。如图2所示，用户可以在电子设备的笔记应用中输入语音，笔记应用进而可以将语音转换为文本，并通过不分段的方式来展示文本内容，即展示的文本内容为一段连续的文本。

如图2所示，所展示文本的文本长度较长、文本句子数量较多，通过一段连续文本进行展示时，用户的阅读体验不佳。

为提升用户的阅读体验，可以对语音识别文本进行分段展示。

一种相关技术2中，可以仅根据语音识别文本中文本的文本特征(或称文本相关特征)，进行文本分段处理。

文本的语音特征(比如用户说话间隔、用户说话语速等)是影响文本分段的重要因素，而相关技术2没有考虑到语音特征对文本分段的影响，故与同时根据文本的语音特征和文本特征进行文本分段处理相比，相关技术2的文本分段效果不够理想。

另一种相关技术3中，可以将语音识别文本进行向量化，进而基于深度学习，通过语义分析的方式，来进行文本分段处理。

相关技术3的实现需要用到大量目标场景的标注数据，使得开发和维护成本高。另外，由于标注数据与场景相关，不同场景的应用效果不够理想。

本申请一个实施例提供了一种文本分段方法，可以根据语音识别文本中文本的语音特征和文本特征，来确定语音识别文本中的文本分段位置，进而可据此对语音识别文本进行分段展示。

一个实施例中，可以根据文本的语音特征和文本特征来制定分段策略，并根据分段策略进行文本分段。

一个实施例中，文本特征可以有文本的长度、文本中句子的数量、文本中的分段/不分段关键词等。

一个实施例中，语音特征可以有用户说话间隔、用户说话语速等。

与上述相关技术2仅根据文本特征进行文本分段处理不同，本申请实施例提供的文本分段方法在文本特征的基础上融合了语音特征，同时根据文本的语音特征和文本特征进行文本分段处理，以一并考虑文本特征和语音特征对文本分段的影响，故文本分段效果更理想。

与上述相关技术3根据语义特征进行文本分段处理不同，本申请实施例提供的文本分段方法可以根据文本的语音特征和文本特征来制定分段策略，并根据分段策略进行文本分段处理，方案整体复杂度更低，分段速度更快。此外，与相关技术3需要用到大量目标场景的标注数据不同，本申请实施例提供的文本分段方法可以根据文本的语音特征和文本特征来制定分段策略，并根据分段策略进行文本分段处理，且这一实现方式无需用到目标场景的标注数据，故可以不涉及相关技术3所存在的问题。

下面，对本申请实施例提供的文本分段方法的一些适用场景进行说明。

场景一：

用户打开手机的笔记应用后，手机显示笔记应用中的语音输入控件。用户点击语音输入控件并开始说话。手机在语音输入控件被触发后，开始采集用户输入的语音，并将采集到的语音实时转换得到相应文本。用户每说一句话，手机可以转换得到相应的一个文本。

对于最新转换得到的当前文本，手机在其上一文本或上多个文本待分段(即尚未确定是否将待分段的文本作为一个完整段落)的情况下，根据当前文本及其之前的待分段文本获取文本特征和语音特征，并根据获取到的文本特征和语音特征判断是否在当前文本和其上一文本之间进行分段。

若判断为需要分段(即确定将待分段的文本作为一个段落)，则基于当前文本的上一文本所在的段落，另起一段来展示当前文本。此时，上一文本所在段落中的文本均已分段，当前文本待分段。

若判断为无需分段(即确定暂不将待分段的文本作为一个段落)，基于当前文本的上一文本所在的段落，在该段落的末端展示当前文本，而非另起一段来展示当前文本。此时，该段落中的文本均待分段。

一个实施例中，通过执行本申请任一实施例提供的文本分段方法，手机通过笔记应用展示语音识别文本的示意图可以如图3所示。

如图3所示，所展示文本整体的文本长度较长、文本句子数量较多，但通过将文本分为三段进行分别展示，各个段落的文本长度不会过长，各个段落的文本句子数量不会太多，且分段位置符合用户实际需求，故用户的阅读体验更好。

场景二：

用户通过录音设备录制了一段语音。电子设备对该段录音进行语音文本转换处理，得到文本序列，该文本序列包括该段录音中每一句语音所对应的文本内容。

电子设备在得到文本序列后，依次对于文本序列中的每一文本，在其上一文本或上多个文本待分段(即尚未确定是否将待分段的文本作为一个完整段落)的情况下，根据该文本及其之前的待分段文本获取文本特征和语音特征，并根据获得的文本特征和语音特征，判断是否在该文本和该文本的上一文本之间进行分段，得到相应分段结果。根据各次得到的分段结果，对文本序列进行分段，并展示分段后的文本序列。

除了可以适用于以上所示场景，本申请实施例提供的文本分段方法还可适用于在此未示出的其他可行场景，在此不做一一描述。

如图4所示，本申请一个实施例提供了一种文本分段方法，可以包括以下步骤401～步骤403：

步骤401，在存在对应第一文本的至少一个第二文本待分段的情况下，根据至少一个第二文本和第一文本，获取目标文本特征和目标语音特征。其中，第一文本对应的第一语音为语音段中的任一句语音，至少一个第二文本一一对应于语音段中的在第一语音之前的至少一句语音，且至少一句语音和第一语音在语音段中依次相邻。

若存在至少一个第二文本，可以根据第一文本及相应的待分段文本来获取目标文本特征和目标语音特征，目标文本特征为与至少一个第二文本和第一文本相对应的文本特征，目标语音特征为与至少一个第二文本和第一文本相对应的语音特征，以便后续可以根据获得的两类特征判断是否在至少一个第二文本和第一文本之间分段，即判断是否将待分段的至少一个第二文本作为一个段落。

在本申请一个实施例中，若不存在至少一个第二文本，可以确定第一文本待分段，以便后续对第一文本的下一文本进行分段与否的判断时，可以根据第一文本及其下一文本获取文本特征和语音特征，进而据此判断是否在第一文本及其下一文本之间分段，即判断是否将待分段的第一文本作为一个段落。

一个实施例中，在场景1中，电子设备可以将用户输入的语音实时转换为文本。在场景1中，上述第一文本可以为电子设备通过识别用户最新输入的语音所得到文本。用户最新输入的语音为用户在一段时间内输入语音(即一段语音，或称语音段)中的一句语音。

通过对用户最新输入语音的文本进行如图4所示的处理操作，可以确定是否在该文本及其上一文本间进行分段，进而可据此对用户最新输入语音的文本进行分段或不分段展示。

在本申请一个实施例中，在步骤401之前，文本分段方法还可以包括：展示电子设备的第一应用，第一应用包括语音输入控件；获取经语音输入控件输入的第一语音；对第一语音进行语音文本转换处理，得到第一文本。通过文本特征和语音特征进行语音识别文本的文本分段处理，可以解决语音输入文本的分段展示问题，从而提升了语音输入场景下的文本展示效果。

一个实施例中，第一应用可以为具有语音输入控件的应用。另一实施例中，第一应用还可具有展示语音识别文本的功能。一种可行实现方式中，第一应用可以为笔记应用。

用户需要输入语音并查看相应语音识别文本时，可以打开第一应用，以使电子设备展示第一应用的界面。用户可以通过点击控件等方式，来触发语音输入控件。

电子设备可在语音输入控件被触发后，实时获取用户输入的语音信息，并对获取到的语音信号进行实时的语音文本转换处理，以得到用户输入语音的文本内容。电子设备可以实时对获得的文本进行是否分段的判断，并通过第一应用的界面根据分段判断结果展示获得的文本。

用户输入语音后即可实时查看到相应文本，且文本的分段情况可满足用户的实际需求，以便于用户阅读文本，则用户的阅读体验佳。

另一实施例中，在场景2中，可以在获得一段语音(比如一段录音)之后，电子设备对该段语音进行语音识别转换处理。

在场景2的一种可行实现方式中，经语音识别转换处理，可以得到该段语音的文本序列。其中，文本序列中包括该段语音中每一句语音的相应文本内容，且这些文本内容在文本序列中的排列顺序与相应各句语音在语音段中的存在顺序一一对应。

在得到文本序列之后，可以依次针对文本序列中的每一个文本均进行如图4所示的处理操作，即可以依次将文本序列中的每一个文本作为上述第一文本，以确定是否在第一文本及其上一文本间进行分段。在确定出所有分段位置后，可以据此对文本序列进行分段，之后展示文本序列的分段结果。

在场景2的另一种可行实现方式中，经语音识别转换处理，可以依次得到该段语音中每一句语音的文本。可以在每得到语音段中一句语音的文本后，将该文本作为上述第一文本。

通过对当前转换出的文本进行如图4所示的处理操作，可以确定是否在该文本及其上一文本间进行分段，进而可据此对当前转换出的文本进行分段或不分段展示。

在本申请一个实施例中，在将用户输入的语音转换为文本后，可以得到文本序列[T₁,T₂,…,T_n]，n可以表示用户说话的总句数，T_i可以表示用户说的第i句语音的文本。该文本序列可以作为分段框架的输入数据。

一种实现方式中，该文本序列可以通过实时转换用户输入的语音得到，另一实现方式中，该文本序列也可以为通过转换已有的语音段得到。

一个实施例中，文本序列中的每一个文本均可包括：文本所对应语音的开始时间(或称用户说话开始时间)t_start、文本所对应语音的结束时间(或称用户说话结束时间)t_end、以及文本内容text。

一个实施例中，可以得到如下所示文本序列：

3841900000 3897000000 AA？AAAA，AAAA，AAAAAAAAAA。

3925100000 4000200000 BBBBBBB，BBBBB。BBB，BBBBBBBBBBB。

4092400000 4227700000 C，CCC，CCCC，CCCCC，CCCCC，CCC，CCCCC。

4244800000 4252700000 DDD。

4277600000 4284900000 EEE。

4297900000 4302700000 FF？

4314200000 4448700000 GGGGG，GGG？GGGGGG，GGGGGG，GGGGGGGG。

4465200000 4560700000 HHHHH，HHHHH。HHHH，HHHHHHHHH。

4600200000 4802400000 IIIIIII，IIIIIIIIII，IIIIIIIII。

4846100000 4945800000 JJJJJJJ。JJJJJJJJJJJ。JJJJJJJJJJJJJJ。

4960700000 5020500000 KKKKKKKKK？KKKKKKKKK。

5035500000 5048800000 L，LLLLLL。

5067100000 5105100000 MMMMMMMMMM。

该文本序列可以包括13个文本，各个文本均包括开始时间(见上述第一列的内容)、结束时间(见上述第二列的内容)和文本内容(见上述第三列的内容)。

一种可行实现方式中，可以取句号、感叹号、问号等标点符号来表示一个句子。文本序列包括的任一文本中均可包括一个或多个句子，即一句语音中可以包括用户所说的一句或多句话，不同句语音的区分可以基于语音文本转换处理过程所得到。

通过对文本序列进行文本分段处理，可以得到文本序列的各个分段位置。根据分段位置可以对文本序列进行分段，得到文本段落[S₁,s₂,…,S_m]，m可以表示段落总数，m≤n，S_j可以表示得到的第j个段落，每一个段落均可包含文本序列中的一个或者多个文本，不同段落包含的文本不重叠。

一个实施例中，根据文本序列[T₁,T₂,…,T_n]得到的文本段落[S₁,S₂,…,S_m]可以如下所示：

S₁：T₁,…,T_a

S₂：Ta₊₁,…,T_b

…

S_m：T_c,…,T_n

在本申请一个实施例中，用于实现文本分段的分段流程可以包括以下内容：

1)初始化过程：构建待分段文本集合：history＝[]，以及构建文本段落集合：S＝[]。

待分段文本集合比如记作history，可用于存储上一次分段以后的历史句子的文本，存储的这些文本均待分段而非已分段。文本段落集合可用于存储分段出的各个文本段落。

2)将文本序列[T₁,T₂,…,T_n]中的每一个文本依次作为第一文本T_i并执行以下操作：

2.1)若history为空，将T_i加入到history中，然后执行3)，若history不为空，执行2.2)；

2.2)判断history中的文本与T_i之间是否分段，若分段执行2.3)，若不分段执行2.4)；

2.3)将history中的文本作为一个s加入到S中，并清空history后将T_i加入到history中，然后执行3)；

2.4)将T_i加入到history中；

3)若T_i为最后一个文本，且history不为空，则将history中的文本作为一个s加入到S中，并执行4)，若T_i不为最后一个文本则再次执行2)；

4)返回结果S。

基于上述分段流程，以对文本序列[T₁,T₂,…,T_n]进行分段为例，首先可将T₁作为第一文本。由于T₁为语音段中第一句语音的文本，不存在T₁的上一个文本，则history此时为空，不存在T₁对应的待分段文本，则可以确定T₁待分段，并将T₁加入到history中。

然后可将T₂作为第一文本。由于history此时包括T₁不为空，存在T₂对应的一个第二文本(即T₁)待分段，则可以基于根据T₁和T₂所得到的文本特征和语音特征，判断是否在T₁和T₂之间进行分段。假设判断为不在T₁和T₂之间进行分段，则可以将T₂加入到history中，history此时包括待分段的T₁和T₂。

之后可将T₃作为第一文本。由于history此时包括T₁和T₂不为空，存在T₃对应的两个第二文本(即T₁和T₂)待分段，则可以基于根据T₁、T₂和T₃所得到的文本特征和语音特征，判断是否在T₁T₂和T₃之间进行分段。假设判断为不在T₁T₂和T₃之间进行分段，则可以将T₃加入到history中，history此时包括待分段的T₁、T₂和T₃。

之后可将T₄作为第一文本。由于history此时包括T₁、T₂和T₃不为空，存在T₄对应的三个第二文本(即T₁、T₂和T₃)待分段，则可以基于根据T₁、T₂、T₃和T₄所得到的文本特征和语音特征，判断是否在T₁T₂T₃和T₄之间进行分段。假设判断为在T₁T₂T₃和T₄之间进行分段，则可以将history此时包括T₁、T₂和T₃作为一个段落记作S₁，并将S₁存入文本段落集合S中，以及清空history，并将T₄加入到history中，history此时包括待分段的T₄。

然后可将T₅作为第一文本。由于history此时包括T₄不为空，存在T₅对应的一个第二文本(即T₄)待分段，则可以基于根据T₄和T₅所得到的文本特征和语音特征，判断是否在T₄和T₅之间进行分段。基于是否在T₄和T₅之间进行分段的判断结果，可执行相应处理。

如此循环，直至完成文本序列中每一文本的分段判断处理。在完成最后一个文本的分段判断处理后，可以将history中的所有文本作为最后一个段落放入文本段落集合S中。

步骤402，根据目标文本特征和目标语音特征，确定是否需要在至少一个第二文本和第一文本之间分段。

在本申请一个实施例中，目标语音特征可以包括：目标时间间隔(interval)，其中，目标时间间隔为第一语音与语音段中的第一语音的前一句语音之间的时间间隔。

基于此，在本申请一个实施例中，步骤402可以包括：根据目标时间间隔、预设最小间隔阈值和预设最大间隔阈值，确定是否需要在至少一个第二文本和第一文本之间分段。

若用户前后说出两个语音时的时间间隔较大，该两个语音的文本可以分属不同段落。若用户前后说出两个语音时的时间间隔较小，该两个语音的文本可以归属同一段落。基于第一文本的目标时间间隔这一语音特征，可以实现对文本分段与否的准确判断。

一个实施例中，预设最小间隔阈值和预设最大间隔阈值可以为预设的两个定值。

一个实施例中，以文本T_i和文本T_i+1间的时间间隔(或称说话间隔)为例，文本T_i+1的目标时间间隔△t_i+1＝文本T_i+1所对应语音的开始时间-文本T_i+1所对应语音的开始时间。

一种可行实现方式中，若时间间隔△t_i+1小于预设最小间隔阈值(min_interval)，可以不在文本T_i和文本T_i+1间分段；若时间间隔△t_i+1大于预设最大间隔阈值(max_interval)，可以在文本T_i和文本T_i+1间分段；若时间间隔△t_i+1介于预设最小间隔阈值和预设最大间隔阈值之间，可以结合文本T_i+1的其他特征判断是否在文本T_i和文本T_i+1间分段。

一个实施例中，可以计算第一文本与上述history中最后一个文本间的时间间隔，作为第一文本的目标时间间隔，以及可以计算上述history中各个相邻文本间的时间间隔，并计算这些时间间隔的均值记作历史说话间隔。可以根据历史说话间隔，设置第一文本对应的预设最小间隔阈值和预设最大间隔阈值，如此有助于实现第一文本和history间分段与否的准确判断。

在本申请一个实施例中，目标语音特征可以包括：目标语速波动率，其中，目标语速波动率为第一文本对应的语速与至少一个第二文本对应的语速的绝对差值除以至少一个第二文本对应的语速所得到的数值。

基于此，在本申请一个实施例中，步骤402可以包括：根据目标语速波动率、预设最小波动率阈值和预设最大波动率阈值，确定是否需要在至少一个第二文本和第一文本之间分段。

与用户临近所说语音的语速相比，若用户当前说话的语速存在明显变化(比如说话过快或过慢)，可以认为当前语音与之前的语音分属不同段落。若用户当前说话的语速未存在明显变化，可以认为当前语音与之前的语音归属同一段落。为准确体现语速变化的明显与否，基于至少一个第二文本对应的语速(而非基于用户所有已说语音的语速或设定的固定语速)来确定第一文本的语速波动率。基于第一文本的目标语速波动率这一语音特征，可以实现对文本分段与否的准确判断。

一个实施例中，预设最小波动率阈值和预设最大波动率阈值可以为预设的两个定值。

一个实施例中，以文本T_i的语速(speaking_speed)为例，文本T_i的语速Vi＝文本T_i的文本长度/(文本T_i所对应语音的结束时间-文本T_i所对应语音的开始时间)。

一个实施例中，第一文本的说话语速波动率(即上述目标语速波动率)＝|当前说话语速-历史说话语速|/历史说话语速。|X|可以表示取X的绝对值。

其中，历史说话语速(即上述至少一个第二文本对应的语速)＝历史文本长度/历史说话时间。历史文本长度为上述history中文本的总长度，历史说话时间为history中文本所对应语音的总说话用时。

其中，当前说话语速(即上述第一文本对应的语速)＝当前句子文本长度/当前说话时间。当前句子文本长度为第一文本的长度，当前说话时间为第一文本所对应语音的说话用时。

一种可行实现方式中，以第一文本为文本T_i为例，若目标语速波动率小于预设最小波动率阈值(min_speaking_speed)，可以不在文本T_i-1和文本T_i间分段；若目标语速波动率大于预设最大波动率阈值(max_speaking_speed)，可以在文本T_i-1和文本T_i间分段；若目标语速波动率介于预设最小波动率阈值和预设最大波动率阈值之间，可以结合文本T_i的其他特征判断是否在文本T_i-1和文本T_i间分段。

在本申请一个实施例中，目标文本特征可以包括：第一文本中的关键词。

基于此，在本申请一个实施例中，步骤402可以包括：根据第一文本中的关键词、预设的关键词白名单和预设的关键词黑名单，确定是否需要在至少一个第二文本和第一文本之间分段；其中，关键词白名单包括对应分段的关键词，关键词黑名单包括对应不分段的关键词。

一个实施例中，挖掘黑/白名单关键词的实现方式可以为：统计相关场景中的中文语料，然后过滤高频关键词，再通过人工筛选的方式确定黑/白名单关键词。

一种可行实现方式中，关键词白名单可以包括“综上所述”这一关键词，关键词黑名单可以包括“也”这一关键词。

一种可行实现方式中，若第一文本包括关键词白名单中的至少一个关键词且不包括关键词黑名单中的任一关键词，则可以在至少一个第二文本和第一文本之间分段；若第一文本包括关键词黑名单中的至少一个关键词且不包括关键词白名单中的任一关键词，则可以不在至少一个第二文本和第一文本之间分段；若第一文本没有包括关键词白名单和关键词黑名单中任一关键词，可以结合第一文本的其他特征判断是否在至少一个第二文本和第一文本之间分段。

在本申请一个实施例中，目标文本特征可以包括：至少一个第二文本的总文本长度(length)。

基于此，在本申请一个实施例中，步骤402可以包括：根据至少一个第二文本的总文本长度、预设最小长度阈值、预设居中长度阈值和预设最大长度阈值，确定是否需要在至少一个第二文本和第一文本之间分段。

一个实施例中，预设最小长度阈值、预设居中长度阈值和预设最大长度阈值可以为预设的三个定值。

一种实现方式中，至少一个第二文本的总文本长度比如可以为上述history中文本长度的总和。

一种可行实现方式中，若至少一个第二文本的总文本长度小于预设最小长度阈值(min_length)，则可以不在至少一个第二文本和第一文本之间分段；若至少一个第二文本的总文本长度大于预设最大长度阈值(max_length)，则可以在至少一个第二文本和第一文本之间分段；若至少一个第二文本的总文本长度大于预设居中长度阈值(mid_length)且小于预设最大长度阈值，则大概率可以在至少一个第二文本和第一文本之间分段。

在本申请一个实施例中，目标文本特征可以包括：至少一个第二文本的总分句数量。

基于此，在本申请一个实施例中，步骤402可以包括：根据至少一个第二文本的总分句数量、预设最小数量阈值、预设居中数量阈值和预设最大数量阈值，确定是否需要在至少一个第二文本和第一文本之间分段。

一个实施例中，预设最小数量阈值、预设居中数量阈值和预设最大数量阈值可以为预设的三个定值。

一种实现方式中，至少一个第二文本的总分句数量比如可以为上述history中文本的总分句数量。

一种可行实现方式中，可以取句号、感叹号、问号等标点符号来表示一个句子，并可根据这些标点符号来统计句子的数量。

一种可行实现方式中，若至少一个第二文本的总分句数量小于预设最小数量阈值(min_sen_count)，则可以不在至少一个第二文本和第一文本之间分段；若至少一个第二文本的总分句数量大于预设最大数量阈值(max_sen_count)，则可以在至少一个第二文本和第一文本之间分段；若至少一个第二文本的总分句数量大于预设居中数量阈值(mid_sen_count)且小于预设最大数量阈值，则大概率可以在至少一个第二文本和第一文本之间分段。

在本申请一个实施例中，目标文本特征包括第一特征值，第一特征值根据至少一个第二文本得到；步骤402可以包括：根据第一映射关系，将第一特征值映射为第一值，其中，第一映射关系使得预设阈值区间基于第一映射关系能够被映射至概率函数的横轴上的指定区间；以第一值作为概率函数的横坐标值，根据概率函数获得对应第一值的纵坐标值，作为第一概率值；根据第一概率值，确定是否需要在至少一个第二文本和第一文本之间分段。

第一概率值可用于描述需要在至少一个第二文本和第一文本之间分段的概率。

一个实施例中，第一特征值可以为至少一个第二文本的总文本长度。另一实施例中，第一特征值可以为至少一个第二文本的总分句数量。

上述概率函数可用于将文本特征映射为概率值，映射得到的概率值作为分段概率来判断是否进行分段。

一个实施例中，上述概率函数可以为如图5所示的Sigmod函数。请参考图5，Sigmod函数的横坐标的取值范围可以为负无穷至正无穷，纵坐标的取值范围可以为0～1。

考虑到若直接使用第一特征值和概率函数来计算文本分段概率，所得结果与实际分段需求相差较大，不便于文本准确分段，从而会影响用户阅读体验，则可以先基于一定的映射关系对第一特征值进行映射，再使用映射出的值和概率函数来计算文本分段概率。如此可使得文本分段概率与实际分段需求相一致，从而可实现文本的准确分段，提升用户阅读体验。

在第一特征值为至少一个第二文本的总文本长度的情况下，一个实施例中，上述预设阈值区间可以为[min_length，mid_length]，而另一实施例中，上述预设阈值区间可以为[mid_length，max_length]。

在第一特征值为至少一个第二文本的总分句数量的情况下，一个实施例中，上述预设阈值区间可以为[min_sen_count，mid_sen_count]，而另一实施例中，上述预设阈值区间可以为[mid_sen_count，max_sen_count]。

一种可行实现方式中，若第一特征值不在预设阈值区间内，可基于将预设阈值区间映射至指定区间的映射关系，对第一特征值进行等比例映射。

一个实施例中，可以将上述预设阈值区间映射到Sigmod函数的横坐标区间[-1,5]这一指定区间。

通过将第一特征值的映射后的值作为横坐标值代入概率函数，可以得到相应的纵坐标值作为第一概率值。一个实施例中，第一概率值可以为取值范围0～1中的一个概率值，第一概率值可用于指示在至少一个第二文本和第一文本之间分段的概率，可以根据第一概率值的具体取值，来确定是否在至少一个第二文本和第一文本之间分段。第一概率值越大，则在至少一个第二文本和第一文本之间分段的概率越大，反之分段的概率越小。

一种可行实现方式中，可以根据预设概率阈值和第一概率值的大小对比结果，来确定是否分段，比如若第一概率值大于预设概率阈值则分段，否则不分段。

另一种可行实现方式中，可以基于第一概率值，并结合随机值，来确定是否分段。

在本申请一个实施例中，根据第一概率值，确定是否需要在至少一个第二文本和第一文本之间分段这一步骤可以包括：在概率函数的纵坐标值区间内，生成随机值；在随机值小于第一概率值的情况下，确定需要在至少一个第二文本和第一文本之间分段；在随机值大于第一概率值的情况下，确定无需在至少一个第二文本和第一文本之间分段。

一个实施例中，可以通过随机函数来生成随机值。

基于生成第一概率值的概率函数，通过在概率函数的纵坐标值区间内生成随机值，以生成的随机值来模拟第一概率值所指示的分段概率，从而可以实现以相应概率进行分段的效果。其中，若生成的随机值小于第一概率值则需要分段，若生成的随机值大于第一概率值则无需分段。如此，可以具有分段顺滑效果。

以第一概率值为0.4为例，第一概率值为0.4可以表示存在40％的分段概率和60％的不分段概率，而随机生成小于0.4的随机数的概率为40％，随机生成大于0.4的随机数的概率为60％，故若生成的随机数小于0.4，则可进行分段，若生成的随机数大于0.4，则可不分段。

步骤403，在需要在至少一个第二文本和第一文本之间分段的情况下，在至少一个第二文本和第一文本之间进行分段。

一个实施例中，若需要在至少一个第二文本和第一文本之间分段，则可以执行分段操作(比如在分段位置处设置分段标记等)，以在至少一个第二文本和第一文本之间进行分段。

在本申请一个实施例中，在至少一个第二文本和第一文本之间进行分段之后，文本分段方法还包括：通过第一段落展示至少一个第二文本，且通过第二段落展示第一文本；其中，第一段落为已结束分段的段落，第二段落为未结束分段的段落。对于已结束分段的段落，其中的各个文本已分段，而对于未结束分段的段落，其中的各个文本待分段。

一个实施例中，第二段落可以为第一段落的下一个段落。

一个实施例中，若无需在至少一个第二文本和第一文本之间分段，则可以执行不分段操作(比如将第一文本确定为待分段的文本)，以不在至少一个第二文本和第一文本之间进行分段。

在本申请一个实施例中，文本分段方法还包括：在无需在至少一个第二文本和第一文本之间分段的情况下，确定第一文本待分段；通过第一段落展示至少一个第二文本和第一文本，其中，第一段落为未结束分段的段落。对于未结束分段的段落，其中的各个文本待分段。

图1所示实施例根据第一文本及相应的一个或多个待分段文本，来确定文本特征和语音特征，并根据确定出的文本特征和语音特征进行文本分段处理，如此可以实现对文本的准确分段。

请参考图6，本申请一个实施例提供了另一种文本分段方法，可以包括以下步骤：

步骤601，在存在对应第一文本的至少一个第二文本待分段的情况下，根据至少一个第二文本和第一文本，获取目标文本特征和目标语音特征；目标文本特征包括：第一文本中的关键词、和根据至少一个第二文本得到的文本特征。

其中，第一文本对应的第一语音为语音段中的任一句语音，至少一个第二文本一一对应于语音段中的在第一语音之前的至少一句语音，且至少一句语音和第一语音在语音段中依次相邻。

至少一个第二文本作为历史句子，第一文本作为当前句子，步骤601中以历史句子和当前句子作为输入数据，以便后续据此判断是否在历史句子和当前句子间分段。

一个实施例中，本申请其他实施例所述的history不为空可以表示存在对应第一文本的至少一个第二文本待分段，该至少一个第二文本为history中的文本，第一文本为T_i。

一个实施例中，根据至少一个第二文本得到的文本特征可以包括至少一个第二文本的总文本长度和/或至少一个第二文本的总分句数量。

一个实施例中，目标语音特征可以包括本申请其他实施例所述的目标时间间隔和/或目标语速波动率。

步骤602，判断根据至少一个第二文本得到的文本特征是否大于(或称超过)文本特征最大阈值，若是，在至少一个第二文本和第一文本之间分段，否则执行步骤603。

一个实施例中，根据至少一个第二文本得到的文本特征包括至少一个第二文本的总文本长度和至少一个第二文本的总分句数量，则文本特征最大阈值包括针对总文本长度的最大阈值(比如上述预设最大长度阈值：max_length)和针对总分句数量的最大阈值(比如上述预设最大数量阈值：max_sen_count)。

一个实施例中，在根据至少一个第二文本得到的文本特征包括至少一个第二文本的总文本长度和至少一个第二文本的总分句数量的情况下，该两个特征分别与相应阈值进行对比，任一特征大于相应的文本特征最大阈值，即可认为根据至少一个第二文本得到的文本特征是否大于文本特征最大阈值。

步骤603，判断第一条件是否成立，第一条件包括目标语音特征小于(或称未超过)语音特征最小阈值、且根据至少一个第二文本得到的文本特征小于文本特征居中阈值，若是，不在至少一个第二文本和第一文本之间分段，否则执行步骤604。

一个实施例中，目标语音特征包括目标时间间隔和目标语速波动率，则语音特征最小阈值包括针对时间间隔的最小阈值(比如上述预设最小间隔阈值：min_interval)和针对语速波动率的最小阈值(比如上述min_speaking_speed)。

一个实施例中，在目标语音特征包括目标时间间隔和目标语速波动率的情况下，各个特征分别与相应阈值进行对比，任一特征小于相应的语音特征最小阈值，即可认为目标语音特征小于语音特征最小阈值。

步骤604，判断根据至少一个第二文本得到的文本特征是否小于文本特征最小阈值，若是，不在至少一个第二文本和第一文本之间分段，否则执行步骤605。

步骤605，判断第一文本中的关键词和预设关键词黑名单是否有相同的关键词，关键词黑名单包括对应不分段的关键词，若是，不在至少一个第二文本和第一文本之间分段，否则执行步骤606。

步骤606，判断第一文本中的关键词和预设关键词白名单是否有相同的关键词，关键词白名单包括对应分段的关键词，若是，执行步骤607，否则执行步骤608。

步骤607，根据第一阈值区间对应的映射关系一，对根据至少一个第二文本得到的文本特征进行映射得到映射值，并执行步骤610，映射关系一使得第一阈值区间基于映射关系一能够被映射至概率函数的横轴上的指定区间，第一阈值区间为从文本特征最小阈值到文本特征居中阈值的区间。

步骤607中根据第一阈值区间进行映射，而非根据第二阈值区间进行映射，如此可使得文本分段数量适宜、段落文本长度适宜，避免出现根据第二阈值区间映射时会使得文本分段数量过少、段落文本长度过长的情况。

步骤608，判断根据至少一个第二文本得到的文本特征是否大于文本特征居中阈值，若是执行步骤609，否则，不在至少一个第二文本和第一文本之间分段。

步骤609，根据第二阈值区间对应的映射关系二，对根据至少一个第二文本得到的文本特征进行映射得到映射值，并执行步骤610，映射关系二使得第二阈值区间基于映射关系二能够被映射至概率函数的横轴上的指定区间，第二阈值区间为从文本特征居中阈值到文本特征最大阈值的区间。

步骤609中根据第二阈值区间进行映射，而非根据第一阈值区间进行映射，如此可使得文本分段数量适宜、段落文本长度适宜，避免出现根据第一阈值区间映射时会使得文本分段数量过过、段落文本长度过短的情况。

步骤609中的指定区间通常可与步骤607中的指定区间相同，比如均为对应Sigmod函数的横坐标区间[-1,5]这一指定区间。

通过基于指定区间对第一文本的文本长度特征、分句数量特征进行映射，可以使得基于映射所得数值生成的概率值可以准确指示针对第一文本的分段概率，使得分段处理结果符合实际分段需求。

步骤610，以映射值作为概率函数的横坐标值，根据概率函数获得对应映射值的纵坐标值，作为第一概率值。

步骤611，在概率函数的纵坐标值区间内，生成随机值。

步骤612，判断随机值是否小于第一概率值，若是，在至少一个第二文本和第一文本之间分段，否则，不在至少一个第二文本和第一文本之间分段。

图6所示实施例中，文本的文本特征包括文本中的关键词，可统计文本关键词，并设置关键词白名单和关键词黑名单，作为文本分段判断的依据。

除了关键词，文本的文本特征还可涉及文本的长度、文本的分句数量，并设置最大、居中、最小这三种阈值，作为文本分段判断的依据。基于这两种文本特征，还可结合概率函数和随机数，来进行文本分段判断，从而可以应对段落文本长度的顺滑问题，使得文本分段结果更顺滑。

图6所示实施例中，文本的语音特征可涉及文本的说话时间间隔、文本的语速波动率，并设置最大、最小这两种阈值，作为文本分段判断的依据。

通过结合文本的文本特征和语音特征设定分段规则以进行文本分段处理，可以实现对文本的准确分段。

本申请一个实施例提供一种文本分段装置，可以包括：获取模块，用于在存在对应第一文本的至少一个第二文本待分段的情况下，根据至少一个第二文本和第一文本，获取目标文本特征和目标语音特征；其中，第一文本对应的第一语音为语音段中的任一句语音，至少一个第二文本一一对应于语音段中的在第一语音之前的至少一句语音，且至少一句语音和第一语音在语音段中依次相邻；确定模块，用于根据目标文本特征和目标语音特征，确定是否需要在至少一个第二文本和第一文本之间分段；处理模块，用于在需要在至少一个第二文本和第一文本之间分段的情况下，在至少一个第二文本和第一文本之间进行分段。

本申请一个实施例还提供一种电子芯片，该任务处理芯片安装在电子设备(UE)中，电子芯片包括：处理器，其用于执行存储在存储器上的计算机程序指令，其中，当计算机程序指令被处理器执行时，触发电子芯片执行本申请任意方法实施例提供的方法步骤。

本申请一实施例还提出了一种终端设备，终端设备包括通信模块、用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发终端设备执行本申请任意方法实施例提供的方法步骤。

本申请一实施例还提出了一种服务器设备，服务器设备包括通信模块、用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发服务器设备执行本申请任意方法实施例提供的方法步骤。

本申请一个实施例还提供一种电子设备，电子设备包括多根天线、用于存储计算机程序指令的存储器、用于执行计算机程序指令的处理器和通信装置(比如可以基于NR协议实现5G通信的通信模块)，其中，当计算机程序指令被该处理器执行时，触发电子设备执行本申请任意方法实施例提供的方法步骤。

具体的，在本申请一实施例中，一个或多个计算机程序被存储在上述存储器中，该一个或多个计算机程序包括指令，当该指令被上述设备执行时，使得上述设备执行本申请实施例所述的方法步骤。

进一步的，本申请实施例阐明的设备、装置、模块，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。

本领域内的技术人员应明白，本申请实施例可提供为方法、装置、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。

在本申请所提供的几个实施例中，任一功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

具体的，本申请一实施例中还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行本申请实施例提供的方法步骤。

本申请一实施例还提供一种计算机程序产品，该计算机程序产品包括计算机程序，当其在计算机上运行时，使得计算机执行本申请实施例提供的方法步骤。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机，服务器，或者网络装置等)或处理器(Processor)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。

本申请实施例中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本领域普通技术人员可以意识到，本申请实施例中描述的各单元及算法步骤，能够以电子硬件、计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，本申请中的各个实施例各个实施例之间相同相似的部分互相参见即可。比如本申请实施例描述的系统、装置和单元的具体工作过程，可以参考本申请方法实施例中的对应过程，在此不再赘述。

以上所述仅为本申请的具体实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种文本分段方法，其特征在于，包括：

在存在对应第一文本的至少一个第二文本待分段的情况下，根据所述至少一个第二文本和所述第一文本，获取目标文本特征和目标语音特征；

其中，所述第一文本对应的第一语音为语音段中的任一句语音，所述至少一个第二文本一一对应于所述语音段中的在所述第一语音之前的至少一句语音，且所述至少一句语音和所述第一语音在所述语音段中依次相邻；

根据所述目标文本特征和所述目标语音特征，确定是否需要在所述至少一个第二文本和所述第一文本之间分段；

在需要在所述至少一个第二文本和所述第一文本之间分段的情况下，在所述至少一个第二文本和所述第一文本之间进行分段；

其中，目标文本特征包括：第一文本中的关键词、和根据至少一个第二文本得到的文本特征；

所述根据所述目标文本特征和所述目标语音特征，确定是否需要在所述至少一个第二文本和所述第一文本之间分段，包括：

步骤602，判断根据至少一个第二文本得到的文本特征是否大于文本特征最大阈值，若是，在至少一个第二文本和第一文本之间分段，否则执行步骤603；

步骤603，判断第一条件是否成立，第一条件包括目标语音特征小于语音特征最小阈值、且根据至少一个第二文本得到的文本特征小于文本特征居中阈值，若是，不在至少一个第二文本和第一文本之间分段，否则执行步骤604；

步骤604，判断根据至少一个第二文本得到的文本特征是否小于文本特征最小阈值，若是，不在至少一个第二文本和第一文本之间分段，否则执行步骤605；

步骤605，判断第一文本中的关键词和预设关键词黑名单是否有相同的关键词，关键词黑名单包括对应不分段的关键词，若是，不在至少一个第二文本和第一文本之间分段，否则执行步骤606；

步骤606，判断第一文本中的关键词和预设关键词白名单是否有相同的关键词，关键词白名单包括对应分段的关键词，若是，执行步骤607，否则执行步骤608；

步骤607，根据第一阈值区间对应的映射关系一，对根据至少一个第二文本得到的文本特征进行映射得到映射值，并执行步骤610，映射关系一使得第一阈值区间基于映射关系一能够被映射至概率函数的横轴上的指定区间，第一阈值区间为从文本特征最小阈值到文本特征居中阈值的区间；

步骤608，判断根据至少一个第二文本得到的文本特征是否大于文本特征居中阈值，若是执行步骤609，否则，不在至少一个第二文本和第一文本之间分段；

步骤609，根据第二阈值区间对应的映射关系二，对根据至少一个第二文本得到的文本特征进行映射得到映射值，并执行步骤610，映射关系二使得第二阈值区间基于映射关系二能够被映射至概率函数的横轴上的指定区间，第二阈值区间为从文本特征居中阈值到文本特征最大阈值的区间；

步骤610，以映射值作为概率函数的横坐标值，根据概率函数获得对应映射值的纵坐标值，作为第一概率值；

步骤611，在概率函数的纵坐标值区间内，生成随机值；

2.根据权利要求1所述的方法，其特征在于，在所述至少一个第二文本和所述第一文本之间进行分段之后，所述方法还包括：

通过第一段落展示所述至少一个第二文本，且通过第二段落展示所述第一文本；

其中，所述第一段落为已结束分段的段落，所述第二段落为未结束分段的段落。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在无需在所述至少一个第二文本和所述第一文本之间分段的情况下，确定所述第一文本待分段；

通过第一段落展示所述至少一个第二文本和所述第一文本，其中，所述第一段落为未结束分段的段落。

4.根据权利要求1-3中任一所述的方法，其特征在于，所述方法还包括：

展示电子设备的第一应用，所述第一应用包括语音输入控件；

获取经所述语音输入控件输入的所述第一语音；

对所述第一语音进行语音文本转换处理，得到所述第一文本。

5.根据权利要求1所述的方法，其特征在于，所述目标文本特征包括第一特征值，所述第一特征值根据所述至少一个第二文本得到；

根据第一映射关系，将所述第一特征值映射为第一值，其中，所述第一映射关系使得预设阈值区间基于所述第一映射关系能够被映射至概率函数的横轴上的指定区间；

以所述第一值作为所述概率函数的横坐标值，根据所述概率函数获得对应所述第一值的纵坐标值，作为第一概率值；

根据所述第一概率值，确定是否需要在所述至少一个第二文本和所述第一文本之间分段。

6.根据权利要求5所述的方法，其特征在于，所述根据所述第一概率值，确定是否需要在所述至少一个第二文本和所述第一文本之间分段，包括：

在所述概率函数的纵坐标值区间内，生成随机值；

在所述随机值小于所述第一概率值的情况下，确定需要在所述至少一个第二文本和所述第一文本之间分段；

在所述随机值大于所述第一概率值的情况下，确定无需在所述至少一个第二文本和所述第一文本之间分段。

7.根据权利要求1所述的方法，其特征在于，所述根据所述目标文本特征和所述目标语音特征，确定是否需要在所述至少一个第二文本和所述第一文本之间分段，包括：

根据目标时间间隔、预设最小间隔阈值和预设最大间隔阈值，以及根据目标语速波动率、预设最小波动率阈值和预设最大波动率阈值，确定是否需要在所述至少一个第二文本和所述第一文本之间分段；

其中，所述目标时间间隔为所述第一语音与所述语音段中的所述第一语音的前一句语音之间的时间间隔，所述目标语速波动率为所述第一文本对应的语速与所述至少一个第二文本对应的语速的绝对差值除以所述至少一个第二文本对应的语速所得到的数值。

8.根据权利要求1所述的方法，其特征在于，所述根据所述目标文本特征和所述目标语音特征，确定是否需要在所述至少一个第二文本和所述第一文本之间分段，包括：

根据所述第一文本中的关键词、预设的关键词白名单和预设的关键词黑名单，以及根据所述至少一个第二文本的总文本长度、预设最小长度阈值、预设居中长度阈值和预设最大长度阈值，以及根据所述至少一个第二文本的总分句数量、预设最小数量阈值、预设居中数量阈值和预设最大数量阈值，确定是否需要在所述至少一个第二文本和所述第一文本之间分段；

其中，所述关键词白名单包括对应分段的关键词，所述关键词黑名单包括对应不分段的关键词。

9.一种文本分段装置，其特征在于，包括：

获取模块，用于在存在对应第一文本的至少一个第二文本待分段的情况下，根据所述至少一个第二文本和所述第一文本，获取目标文本特征和目标语音特征；其中，所述第一文本对应的第一语音为语音段中的任一句语音，所述至少一个第二文本一一对应于所述语音段中的在所述第一语音之前的至少一句语音，且所述至少一句语音和所述第一语音在所述语音段中依次相邻；

确定模块，用于根据所述目标文本特征和所述目标语音特征，确定是否需要在所述至少一个第二文本和所述第一文本之间分段；

处理模块，用于在需要在所述至少一个第二文本和所述第一文本之间分段的情况下，在所述至少一个第二文本和所述第一文本之间进行分段；

步骤611，在概率函数的纵坐标值区间内，生成随机值；

10.一种电子芯片，其特征在于，包括：

处理器，其用于执行存储在存储器上的计算机程序指令，其中，当所述计算机程序指令被所述处理器执行时，触发所述电子芯片执行权利要求1-8中任一项所述的方法。

11.一种电子设备，其特征在于，所述电子设备包括用于存储计算机程序指令的存储器、用于执行计算机程序指令的处理器和通信装置，其中，当所述计算机程序指令被该处理器执行时，触发所述电子设备执行如权利要求1-8中任一项所述的方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行如权利要求1-8中任一项所述的方法。