CN111737991B

CN111737991B - 文本断句位置的识别方法及系统、电子设备及存储介质

Info

Publication number: CN111737991B
Application number: CN202010628393.6A
Authority: CN
Inventors: 杨赫; 罗超; 胡泓
Original assignee: Ctrip Computer Technology Shanghai Co Ltd
Current assignee: Ctrip Computer Technology Shanghai Co Ltd
Priority date: 2020-07-01
Filing date: 2020-07-01
Publication date: 2023-12-12
Anticipated expiration: 2040-07-01
Also published as: CN111737991A

Abstract

本发明公开了文本断句位置的识别方法及系统、电子设备及存储介质，其中，文本断句位置的识别方法包括以下步骤：接收语音识别后的文本数据，并将所述文本数据中的每个字符映射为字符向量；利用Bi‑LSTM模型提取每个字符向量的语义特征，得到隐向量；对所述隐向量进行处理，并将处理后的隐向量输入至CRF模型；使用维特比算法对CRF模型的输出结果进行解码，根据全局最优序列预测输出所述字符向量的标签；根据每个字符对应的标签识别所述文本数据的所有断句位置。本发明通过Bi‑LSTM模型提取语义特征，利用CRF模型作为输出层，实现了文本断句位置的识别，进而提高了后续意图识别、命名实体识别、分类任务等下游任务的准确率。

Description

文本断句位置的识别方法及系统、电子设备及存储介质

技术领域

本发明涉及信息技术领域，特别涉及一种文本断句位置的识别方法及系统、电子设备及存储介质。

背景技术

随着人工智能技术的发展，很多重复性的工作将交由机器完成，客服机器人就是一种实例。要使客服机器人更好的服务于客户和下游任务，比如客户说的话的意图识别、命名实体识别等的准确率是至关重要的。断句功能在上述过程中起到一个桥梁作用。当客户说的话因为长度过长，无法进行正确的意图识别或者分类时，将长句截断，即将长句变成短句，以提升后续意图识别、命名实体识别、分类任务等的准确率。

当前，深度学习在人工智能领域应用广泛，基于深度学习的模型，随着层数的加宽和加深，能够很好地实现特征提取的作用，相较于传统的机器学习方法，利用深度学习做工程应用时，省去了人工提取特征的步骤，往往还能取得更好的效果。因此，深度学习在文本、图像、音频等领域都被广泛地使用。

发明内容

本发明要解决的技术问题是为了克服现有技术中语音识别得到的文本数据由于未断句导致后续意图识别、命名实体识别、分类任务等下游任务准确率低下的缺陷，提供一种文本断句位置的识别方法及系统、电子设备及存储介质。

本发明是通过下述技术方案来解决上述技术问题：

本发明提供一种文本断句位置的识别方法，包括以下步骤：

接收语音识别后的文本数据，并将所述文本数据中的每个字符映射为字符向量；

利用Bi-LSTM(Bidirectional Long Short-Term Memory，双向长短期记忆网络)模型提取每个字符向量的语义特征，得到隐向量；

对所述隐向量进行处理，并将处理后的隐向量输入至CRF(conditional randomfield，条件随机场)模型；

使用维特比算法对CRF模型的输出结果进行解码，根据全局最优序列预测输出所述字符向量的标签，其中，所述标签用于表征所述字符后面是否为断句位置；

根据每个字符对应的标签识别所述文本数据的所有断句位置。

较佳地，所述根据每个字符对应的标签识别所述文本数据的所有断句位置，具体包括以下步骤：

若目标字符对应的标签表征所述目标字符后面为断句位置，则判断所述目标字符与下一个位置的字符组成的字符串是否为单词；

若否，则识别所述目标字符后面为断句位置。

若目标字符对应的标签表征所述目标字符后面为断句位置，且所述目标字符为英文字符，则判断所述目标字符的下一个位置是否为英文字符；

若否，则识别所述目标字符后面为断句位置。

较佳地，基于以下步骤训练所述Bi-LSTM模型和所述CRF模型：

对人工标记的目标文本数据添加用于表征是否为断句位置的标签；

将所述目标文本数据中的每个字符映射为字符向量；

利用Bi-LSTM模型提取每个字符向量的语义特征，得到隐向量；

对所述隐向量进行处理，并将处理后的隐向量输入至CRF模型；

使用维特比算法对CRF模型的输出结果进行解码，根据全局最优序列预测输出所述字符向量的标签；

根据人工标注的断句位置与预测得到的标签调整所述Bi-LSTM模型和所述CRF模型的参数，直至预测得到的标签所对应的损失值达到收敛。

较佳地，所述对所述隐向量进行处理包括以下步骤：按照最后一个维度对所述隐向量进行拼接。

本发明还提供一种文本断句位置的识别系统，包括：

接收模块，用于接收语音识别后的文本数据，并将所述文本数据中的每个字符映射为字符向量；

提取模块，用于利用Bi-LSTM模型提取每个字符向量的语义特征，得到隐向量；

处理模块，用于对所述隐向量进行处理，并将处理后的隐向量输入至CRF模型；

预测模块，用于使用维特比算法对CRF模型的输出结果进行解码，根据全局最优序列预测输出所述字符向量的标签，其中，所述标签用于表征所述字符后面是否为断句位置；

识别模块，用于根据每个字符对应的标签识别所述文本数据的所有断句位置。

较佳地，所述识别模块具体用于在目标字符对应的标签表征所述目标字符后面为断句位置的情况下，判断所述目标字符与下一个位置的字符组成的字符串是否为单词，若否，则识别所述目标字符后面为断句位置。

较佳地，所述识别模块具体用于在目标字符对应的标签表征所述目标字符后面为断句位置且所述目标字符为英文字符的情况下，判断所述目标字符的下一个位置是否为英文字符，若否，则识别所述目标字符后面为断句位置。

本发明还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述的文本断句位置的识别方法。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的文本断句位置的识别方法的步骤。

本发明的积极进步效果在于：通过将接收的文本数据中的每个字符映射为字符向量，利用Bi-LSTM模型提取每个字符向量的语义特征，得到隐向量，并对所述隐向量进行处理后输入至CRF模型，以及使用维特比算法对CRF模型的输出结果进行解码，根据全局最优序列预测输出所述字符向量的标签，最后根据每个字符对应的标签识别所述文本数据的所有断句位置。与现有技术中未对语音识别得到的文本数据进行断句相比，通过Bi-LSTM模型提取语义特征，并利用CRF模型作为输出层，实现了文本断句位置的识别，进而提高了后续意图识别、命名实体识别、分类任务等下游任务的准确率。

附图说明

图1为本发明实施例1提供的一种文本断句位置的识别方法的流程图。

图2为本发明实施例1提供的一种文本断句位置的识别方法的框架图。

图3为本发明实施例2提供的一种文本断句位置的识别系统的结构框图。

图4为本发明实施例3的电子设备的结构示意图。

具体实施方式

下面通过实施例的方式进一步说明本发明，但并不因此将本发明限制在所述的实施例范围之中。

实施例1

本实施例提供一种文本断句位置的识别方法，参照图1，该文本断句位置的识别方法包括以下步骤：

步骤S101、接收语音识别后的文本数据，并将所述文本数据中的每个字符映射为字符向量。

在具体实施中，客服机器人通过ASR(Automatic Speech Recognition，自动语音识别技术)将人的语音转换为文本，得到步骤S101中的文本数据。其中，通过ASR语音识别后得到的文本数据是不带任何标点符号的一些单字或单词，例如[“您好”，“请问”，“订单”，“号”，“是”，“多少”]，这样获得的不带标点符号的结果直接导致后续任务，比如用户话术意图匹配，用户话术场景识别，用户话术情感分类等的正确率过低。然而将识别出的文本数据进行断句，将切割后的语句做一些处理后进行下游任务，可以大幅提升下游任务的准确率。

本实施方式中，针对[“您好”，“请问”，“订单”，“号”，“是”，“多少”]的文本数据，将其中的每个字符映射为字符向量(char Embedding)，例如将“您”映射为字符向量x₁、将“好”映射为字符向量x₂。

在可选的一种实施方式中，步骤S101中还包括对上述文本数据进行预处理，并将得到的词语放入不同的子列表中。上述例子中的文本数据，经过预处理后，分别将“您好”、“请问”、“订单”、“号”、“是”以及“多少”放入至六个子列表中。

步骤S102、利用Bi-LSTM模型提取每个字符向量的语义特征，得到隐向量。

Bi-LSTM作为常用的NLP(Natural Language Processing，自然语言处理)方面特征提取器，其输入门、遗忘门以及记忆细胞之间的配合，可以很好地解决RNN(RecurrentNeural Network，循环神经网络)模型不能把握文本全局信息的问题。遗忘门以及记忆细胞之间的相加操作，又可以很好地解决深度学习模型在序列过长情况下，梯度衰减问题。

参照图2，针对字符向量x_i，利用Bi-LSTM提取语义特征，得到i时刻的隐向量h_i：

步骤S103、对所述隐向量进行处理，并将处理后的隐向量输入至CRF模型。CRF模型可以兼顾label->char的喷射概率以及label->label之间的转移概率，故在特征提取后使用CRF模型作为输出层，用于预测字符向量的标签。

在可选的一种实施方式中，按照最后一个维度对上述隐向量进行拼接处理，并将拼接完成的隐向量输入至CRF模型。

步骤S104、使用维特比算法对CRF模型的输出结果进行解码，根据全局最优序列预测输出所述字符向量的标签，其中，所述标签用于表征所述字符后面是否为断句位置。

由于维特比算法具有获取全局最优序列的特点，负责CRF模型输出序列的最终解码工作。

本实施例中，CRF模型与Bi-LSTM模型的配合，可以完美实现ASR识别文本数据的断句位置。

步骤S105、根据每个字符对应的标签识别所述文本数据的所有断句位置。

在可选的一种实施方式中，步骤S105具体包括：

若是，则识别所述目标字符后面不为断句位置；若否，则识别所述目标字符后面为断句位置。

在一个例子中，针对目标字符“您”映射后的字符向量，步骤S104预测输出的标签表征目标字符“您”后面为断句位置，通过判断目标字符“您”与下一个位置的字符“好”组成的字符串“您好”为单词，最终识别目标字符“您”后面不是断句位置。本实施方式中，组成的字符串是否为单词是根据输入的ASR识别结果的每一个子字符串决定的。其中，步骤S101中接收的文本数据是ASR识别的分好词的结果。

在另一个例子中，针对目标字符“好”映射后的字符向量，步骤S104预测输出的标签表征目标字符“好”后面为断句位置，通过判断目标字符“好”与下一个位置的字符“请”组成的字符串“好请”不是一个单词，则最终识别目标字符“好”后面是断句位置。

在可选的另一种实施方式中，文本数据中携带有英文字符，例如[“客人”，“张”，“三”，“的”，“订单”，“号”，“可以”，“check”，“一”，“下”，“吗”，“Thank”，“you”]。步骤S105具体包括：

若目标字符对应的标签表征所述目标字符后面为断句位置，且所述目标字符为英文字符，则判断所述目标字符的下一个位置是否为英文字符。

若目标字符的下一个位置不是英文字符，则识别所述目标字符后面为断句位置。在一个例子中，针对目标字符“k”(其所在的单词为check)映射后的字符向量，步骤S104预测输出的标签表征目标字符“k”后面为断句位置，通过判断目标字符“k”的下一个位置“一”不是英文字符，最终识别目标字符“k”后面是断句位置。

若目标字符的下一个位置是英文字符，则进一步判断目标字符所在的单词与下一个位置英文字符所在的单词是否分别存放在两个子列表中，如果这两个单词分别存放在两个子列表中，则最终识别目标字符后面是断句位置，解码时在这两个单词之间增加空格。

在一个例子中，针对目标字符“k”(其所在的单词为Thank)映射后的字符向量，步骤S104预测输出的标签表征目标字符“k”后面为断句位置，通过判断目标字符“k”的下一个位置“y”为英文字符，进一步判断目标字符“k”所在的单词“Thank”与下一个位置英文字符“y”所在的单词“you”分别存放在两个子列表中，那么最终识别目标字符“k”后面为断句位置，解码时在这两个单词之间增加空格，即输出“Thank you”，而不是输出“Thankyou”。

在可选的一种实施方式中，文本数据中携带有数字，例如[“客人”，“的”，“订单”，“号”，“是”，“2345433”]。为了防止将数字类型的表达错误断开，步骤S105具体包括：

若目标字符对应的标签表征所述目标字符后面为断句位置，且所述目标字符为数字，则判断所述目标字符的下一个位置是否为数字，若下一个位置也是数字，则最终识别目标字符后面不是断句位置。

在上述例子中，针对目标字符“2”映射后的字符向量，步骤S104预测输出的标签表征目标字符“2”后面为断句位置，通过判断目标字符“2”的下一个位置“3”为数字，则最终识别目标字符“2”后面不是断句位置。

在可选的一种实施方式中，基于以下步骤训练步骤S102中的Bi-LSTM模型和步骤S103中的CRF模型：

步骤S201、对人工标记的目标文本数据添加用于表征是否为断句位置的标签。

在可选的一种实施方式中，对人工标记的目标文本数据添加两种标签，具体地，将一句话中需要断开的位置标记为O，其他位置的字符标记为N。举个例子，针对人工标记的“您好。我这边是携程旅行网。”的目标文本数据，添加标签后为NONNNNNNNNO。

在可选的另一种实施方式中，对人工标记的目标文本数据添加三种标签，具体地，将一句话的开头字符标记为B，中间字符标记为I，需要断开的位置标记为O。举个例子，针对人工标记的“您好。我这边是携程旅行网。”的目标文本数据，添加标签后为BOBIIIIIIIO。

步骤S202、将所述目标文本数据中的每个字符映射为字符向量，例如将“您”映射为字符向量x₁、“好”映射为字符向量x₂、“我”映射为字符向量x₃。

步骤S203、利用Bi-LSTM模型提取每个字符向量的语义特征，得到隐向量。

步骤S204、对上述隐向量进行处理，并将处理后的隐向量输入至CRF模型。

步骤S205、使用维特比算法对CRF模型的输出结果进行解码，根据全局最优序列预测输出所述字符向量的标签。

步骤S206、根据人工标注的断句位置与预测得到的标签调整所述Bi-LSTM模型和所述CRF模型的参数，直至预测得到的标签所对应的损失值达到收敛。

步骤S206中，针对每个字符向量，若预测得到的标签所表征的断句位置与人工标注的断句位置不同，举个例子，预测得到的标签表征“您”字符后面是断句位置，而人工并未在“您”字符后面标注断句位置，这种情况会导致模型对应的损失值升高，此时需要调整Bi-LSTM模型和CRF模型的参数，然后利用调整后的参数再次执行步骤203-206。

步骤S206中，针对每个字符向量，若预测得到的标签所表征的断句位置与人工标注的断句位置相同，举个例子，预测得到的标签表征“好”字符后面是断句位置，而人工也在“好”字符后面标注了断句位置，这种情况下模型对应的损失值会降低，判断损失值是否低于预设阈值，即判断损失值是否达到收敛，若达到收敛，则停止调整Bi-LSTM模型和CRF模型的参数。也即Bi-LSTM模型和CRF模型训练完成，可以利用训练好的模型对新输入的文本数据的断句位置进行预测。

本实施例中，利用Bi-LSTM模型和CRF模型对人工已经标记好的正确的断句样本进行学习，学到训练样本中每一句话需要断开位置的信息。再使用损失值较低的模型对新输入的文本数据进行预测，从而获得文本数据的断句位置。

实施例2

本实施例提供一种文本断句位置的识别系统，参照图3，文本断句位置的识别系统20包括接收模块21、提取模块22、处理模块23、预测模块24以及识别模块25。

接收模块21用于接收语音识别后的文本数据，并将所述文本数据中的每个字符映射为字符向量。

提取模块22用于利用Bi-LSTM模型提取每个字符向量的语义特征，得到隐向量。

处理模块23用于对所述隐向量进行处理，并将处理后的隐向量输入至CRF模型。

预测模块24用于使用维特比算法对CRF模型的输出结果进行解码，根据全局最优序列预测输出所述字符向量的标签，其中，所述标签用于表征所述字符后面是否为断句位置。

识别模块25用于根据每个字符对应的标签识别所述文本数据的所有断句位置。

在可选的一种实施方式中，识别模块25具体用于在目标字符对应的标签表征所述目标字符后面为断句位置的情况下，判断所述目标字符与下一个位置的字符组成的字符串是否为单词，若否，则识别所述目标字符后面为断句位置。

在可选的另一种实施方式中，识别模块25具体用于在目标字符对应的标签表征所述目标字符后面为断句位置且所述目标字符为英文字符的情况下，判断所述目标字符的下一个位置是否为英文字符，若否，则识别所述目标字符后面为断句位置。

实施例3

图4为本实施例提供的一种电子设备的结构示意图。所述电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现实施例1的文本断句位置的识别方法。图4显示的电子设备3仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

电子设备3可以以通用计算设备的形式表现，例如其可以为服务器设备。电子设备3的组件可以包括但不限于：上述至少一个处理器4、上述至少一个存储器5、连接不同系统组件(包括存储器5和处理器4)的总线6。

总线6包括数据总线、地址总线和控制总线。

存储器5可以包括易失性存储器，例如随机存取存储器(RAM)51和/或高速缓存存储器52，还可以进一步包括只读存储器(ROM)53。

存储器5还可以包括具有一组(至少一个)程序模块54的程序/实用工具55，这样的程序模块54包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

处理器4通过运行存储在存储器5中的计算机程序，从而执行各种功能应用以及数据处理，例如本发明实施例1的文本断句位置的识别方法。

电子设备3也可以与一个或多个外部设备7(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口8进行。并且，模型生成的设备3还可以通过网络适配器9与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器9通过总线6与模型生成的设备3的其它模块通信。应当明白，尽管图中未示出，可以结合模型生成的设备3使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

实施例4

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现实施例1的文本断句位置的识别方法的步骤。

其中，可读存储介质可以采用的更具体可以包括但不限于：便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。

在可能的实施方式中，本发明还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行实现实施例1的文本断句位置的识别方法的步骤。

其中，可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码，所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

Claims

1.一种文本断句位置的识别方法，其特征在于，包括以下步骤：

利用Bi-LSTM模型提取每个字符向量的语义特征，得到隐向量；

根据每个字符对应的标签识别所述文本数据的所有断句位置；

所述根据每个字符对应的标签识别所述文本数据的所有断句位置，具体包括以下步骤：

若否，则识别所述目标字符后面为断句位置；

若否，则识别所述目标字符后面为断句位置。

2.如权利要求1所述的识别方法，其特征在于，基于以下步骤训练所述Bi-LSTM模型和所述CRF模型：

将所述目标文本数据中的每个字符映射为字符向量；

利用Bi-LSTM模型提取每个字符向量的语义特征，得到隐向量；

3.如权利要求1所述的识别方法，其特征在于，所述对所述隐向量进行处理包括以下步骤：按照最后一个维度对所述隐向量进行拼接。

4.一种文本断句位置的识别系统，其特征在于，包括：

识别模块，用于根据每个字符对应的标签识别所述文本数据的所有断句位置；

所述识别模块具体用于在目标字符对应的标签表征所述目标字符后面为断句位置的情况下，判断所述目标字符与下一个位置的字符组成的字符串是否为单词，若否，则识别所述目标字符后面为断句位置；在目标字符对应的标签表征所述目标字符后面为断句位置且所述目标字符为英文字符的情况下，判断所述目标字符的下一个位置是否为英文字符，若否，则识别所述目标字符后面为断句位置。

5.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-3中任一项所述的文本断句位置的识别方法。

6.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-3中任一项所述的文本断句位置的识别方法的步骤。