CN115374766A - 文本标点恢复方法及相关设备 - Google Patents
文本标点恢复方法及相关设备 Download PDFInfo
- Publication number
- CN115374766A CN115374766A CN202211058771.7A CN202211058771A CN115374766A CN 115374766 A CN115374766 A CN 115374766A CN 202211058771 A CN202211058771 A CN 202211058771A CN 115374766 A CN115374766 A CN 115374766A
- Authority
- CN
- China
- Prior art keywords
- punctuation
- prediction
- segment
- ith
- expressed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000011084 recovery Methods 0.000 title claims abstract description 30
- 230000008030 elimination Effects 0.000 claims abstract description 11
- 238000003379 elimination reaction Methods 0.000 claims abstract description 11
- 238000012549 training Methods 0.000 claims description 39
- 230000015654 memory Effects 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 5
- 206010037180 Psychiatric symptoms Diseases 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000004891 communication Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 210000002569 neuron Anatomy 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000012937 correction Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 241000282326 Felis catus Species 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 239000000945 filler Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
本申请提供一种文本标点恢复方法及相关设备。该方法包括:获取待处理文本的特征信息;将特征信息输入标点预测模型,得到输出结果;特征信息包括多个第一片段,输出结果包括第一片段的各个第一预测语句在第一片段中的位置、第一片段的各个第一预测语句的标点类别的概率和第一片段的各个第一预测语句的标点类别的置信度;基于输出结果进行第一预测语句的冗余剔除,得到恢复标点的文本。这样能够通过一次待处理文本的特征信息的输入得到恢复标点的文本,不需要循环输入每一个文字来判断该文字后是否有标点,提高了文本标点恢复效率。
Description
技术领域
本申请涉及语音处理技术领域,尤其涉及一种文本标点恢复方法及相关设备。
背景技术
语音识别通过声音信息得到所对应的文字后,需要标点恢复才能得到正确的句子。
基于上述情况,现有技术中采用的文本标点恢复的方式需要通过循环输入每一个文字来判断该文字后是否有标点,存在文本标点恢复效率低的问题。
发明内容
有鉴于此,本申请的目的在于提出一种文本标点恢复方法及相关设备,用以解决或部分解决上述技术问题。
基于上述目的,本申请的第一方面提供了一种文本标点恢复方法,包括:
获取待处理文本的特征信息;
将所述特征信息输入标点预测模型,得到输出结果;所述特征信息包括多个第一片段,所述输出结果包括所述第一片段的各个第一预测语句在所述第一片段中的位置、所述第一片段的各个第一预测语句的标点类别的概率和所述第一片段的各个第一预测语句的标点类别的置信度;
基于所述输出结果进行第一预测语句的冗余剔除,得到恢复标点的文本。
本申请的第二方面提供了一种文本标点恢复装置,包括:
特征信息获取模块,被配置为获取待处理文本的特征信息;
预测模块,被配置为将所述特征信息输入标点预测模型,得到输出结果;所述特征信息包括多个第一片段,所述输出结果包括所述第一片段的各个第一预测语句在所述第一片段中的位置、所述第一片段的各个第一预测语句的标点类别的概率和所述第一片段的各个第一预测语句的标点类别的置信度;
冗余剔除模块,被配置为基于所述输出结果进行第一预测语句的冗余剔除,得到恢复标点的文本。
本申请的第三方面提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现第一方面所述的方法。
本申请的第四方面提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使计算机执行第一方面所述方法。
本申请的第五方面提供了一种计算机程序产品,包括计算机程序指令,当所述计算机程序指令在计算机上运行时,使得所述计算机执行如第一方面所述的方法。
从上面所述可以看出,本申请提供的文本标点恢复方法及相关设备,获取待处理文本的特征信息,将特征信息输入标点预测模型,利用标点预测模型得到输出结果,该输出结果包括第一片段的各个第一预测语句在第一片段中的位置、第一片段的各个第一预测语句的标点类别的概率和第一片段的各个第一预测语句的标点类别的置信度,最后再基于输出结果进行第一预测语句的冗余剔除,得到恢复标点的文本,这样能够通过一次待处理文本的特征信息的输入得到恢复标点的文本,不需要循环输入每一个文字来判断该文字后是否有标点,提高了文本标点恢复效率。
附图说明
为了更清楚地说明本申请或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1A为本申请实施例的文本标点恢复方法的流程图;
图1B为步骤101的步骤展开示意图;
图1C为本申请实施例的标点预测模型的获得过程示意图;
图1D为步骤1022的步骤展开示意图;
图2A为本申请实施例的A第一预测语句的位置和B第一预测语句的位置重叠度计算示意图;
图2B为本申请实施例的文本标点恢复示意图;
图3为本申请实施例的文本标点恢复装置的结构示意图;
图4为本申请实施例的电子设备的示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本申请进一步详细说明。
需要说明的是,除非另外定义,本申请实施例使用的技术术语或者科学术语应当为本申请所属领域内具有一般技能的人士所理解的通常意义。本申请实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
相关技术中一般采用通过循环输入每一个文字的方式来判断该文字后是否有标点,例如文本共有8个字,输入第一个字,判断第一个字后面是文字还是标点,将判断的文字或标点类型输出,然后将第一个字和输出的第二个字或标点类型再输入到模型中判断第二个字或标点类型后面是文字还是标点,再将判断的文字或标点类型输出,再重复将第一个字、第二个字或标点类型、第三个字或标点类型输入到模型中进行判断,重复执行上述过程,直至文本的8个字全部判断结束。但是这种通过循环输入每一个文字来判断该文字后是否有标点的方式,存在文本标点恢复效率低的问题。
为了能够通过一次待处理文本的特征信息的输入得到恢复标点的文本,不需要循环输入每一个文字来判断该文字后是否有标点,提高文本标点恢复效率,本申请的实施例提供了一种文本标点恢复方法。
图1A示出了本申请实施例所提供的示例性文本标点恢复方法的流程示意图。
如图1A所示,所述文本标点恢复方法可以进一步包括以下步骤:
步骤101,获取待处理文本的特征信息。
在一些实施例中,该步骤可以利用神经网络预先进行语音识别的训练,得到能够实现将语音识别成文字的神经网络模型,通过该神经网络模型对语音进行识别,得到待处理文本,然后从待处理文本中提取出特征信息。
作为一个可选实施例,如图1B所示,步骤101可以进一步包括:
步骤1011,将所述待处理文本进行填充(Padding),得到填充文本。
步骤1012,对所述填充文本进行词嵌入处理,得到词嵌入信息。
步骤1013,对所述词嵌入信息进行自注意力(Self-Attention)计算,得到所述待处理文本的特征信息。
通过上述方案,由于待处理文本的长度不一致,利用填充(Padding)对不同长度的待处理文本进行补齐,使得待处理文本的长度保持一致,得到填充文本。
词嵌入信息为词向量,对填充文本进行词嵌入处理,将单个词在预定义的向量空间中映射为对应的实数向量,比如在一个文本中包含“猫”“狗”等若干单词,而这若干单词映射到向量空间中,“猫”对应的向量为(0.10.20.3),“狗”对应的向量为(0.20.20.4),通过词嵌入处理这种方式将单词转变为词向量。
利用自注意力机制对词嵌入信息进行自注意力计算,得到待处理文本的特征信息,通过自注意力机制解决了由于词嵌入信息大小不一,导致特征信息的提取效果差的问题。
作为一个可选实施例,在进行自注意力计算时,可以采用Transformer(自注意力模型)模型来实现。
可以理解,上述实施例中采用自注意力机制来提取待处理文本的特征信息,但实际上,还可以利用其他的机器学习模型来从待处理文本中提取待处理文本的特征信息。这些机器学习模型,例如,可以是卷积神经网络(Convolutional Neural Network,CNN)模型、长期短记忆(Long short-term memory,LSTM)模型、循环神经网络(Recurrent NeuralNetwork,RNN)模型,等等。
步骤102,将所述特征信息输入标点预测模型,得到输出结果;所述特征信息包括多个第一片段,所述输出结果包括所述第一片段的各个第一预测语句在所述第一片段中的位置、所述第一片段的各个第一预测语句的标点类别的概率和所述第一片段的各个第一预测语句的标点类别的置信度。
在该步骤中,特征信息可以是将待处理文本划分为多个第一片段后对应的多个子特征信息,还可以是输入到标点预测模型后被模型划分成的多个第一片段,每个第一片段都有对应的子特征信息。
将特征信息输入标点预测模型,通过标点预测模型得到第一片段的各个第一预测语句在第一片段中的位置、第一片段的各个第一预测语句的标点类别的概率和第一片段的各个第一预测语句的标点类别的置信度。其中,第一预测语句表示每个第一片段中可能为句子的语句。
在一些实施例中,如图1C所示,步骤102中的标点预测模型通过以下过程获得:
步骤1021,获取训练数据集;所述训练数据集包括多个训练样本,所述训练样本包括多个第二片段、各个第二片段包含的语句在所述第二片段中的位置以及各个语句的标点类别;
步骤1022,利用所述训练数据集,训练初始模型,得到所述标点预测模型。
在上述方案中,第二片段表示每个训练样本划分成的片段,各个第二片段包含的语句表示每个第二片段中实际为句子的语句,各个第二片段包含的语句在第二片段中的位置表示各个片段中实际为句子的语句在相应第二片段中的位置,各个语句的标点类别表示每个实际为句子的语句的真实标点类别。
通过训练数据集对初始模型进行训练,使得经过训练的初始模型作为标点预测模型。其中,初始模型可以是全连接层模型。
此外,在对初始模型进行训练时,可以将从待处理文本中提取待处理文本的特征信息的机器学习模型(例如,Transformer、RNN、CNN、LSTM,等等)与初始模型连接在一起进行整体训练,还可以分别单独训练初始模型和机器学习模型,然后将经过训练的初始模型和机器学习模型连接。
在一些实施例中,如图1D所示,步骤1022可以进一步包括:
步骤10221,将所述训练数据输入所述初始模型,输出预测结果。
步骤10222,根据所述预测结果和所述训练数据,计算位置误差损失、分类误差损失和置信度误差损失。
步骤10223,根据所述位置误差损失、所述分类误差损失和所述置信度误差损失,调整所述初始模型。
步骤10224,重复执行上述步骤,直至达到预设次数,得到所述标点预测模型。
在上述方案中,将所述训练数据集输入至初始模型,输出预测结果。
根据训练数据集中各个第二片段中每个实际为句子的语句的位置和预测结果中各个第二片段中预测的语句位置计算位置误差损失。
根据所述训练数据集中各个实际为句子的语句的真实标点类别的置信度和预测结果中预测的语句的各个标点类别的置信度计算置信度误差损失。
根据所述训练数据集中各个语句的真实标点类别的概率和预测结果中各个预测的语句的各个标点类别的概率计算分类误差损失。
利用位置误差损失对所初始模型中预设的预测各个预测的语句位置的神经元的连接权重进行误差修正。
利用置信度误差损失对初始模型中预设的预测的语句的各个标点类别置信度的神经元的连接权重进行误差修正。
利用分类误差损失对初始模型中预设的预测的语句的各个标点类别的概率的神经元的连接权重进行误差修正。
重复执行上述过程,直至达到预设的次数,将设有经过预设次数调整的上述连接权重的初始模型作为标点信息预测模型。
在一些实施例中,所述预测结果包括所述第二片段的各个第二预测语句在所述第二片段中的位置、所述第二片段的各个第二预测语句的标点类别的概率和所述第二片段的各个第二预测语句的标点类别的置信度;
若所述第二预测语句的位置为对应的第二片段的开头或结尾,所述位置误差损失表达为:
其中,i表示为第i个第二片段,j表示为第j个第二预测语句,xi表示为第i个第二片段中的第j个第二预测语句的开头与第i个第二片段的中心的距离,表示为第i个第二片段中的第j个第二预测语句的开头与第i个第二片段的中心的预测距离,yi表示为第i个第二片段中的第j个语句的结尾与第i个第二片段的中心的距离,表示为第i个第二片段中的第j个第二预测语句的结尾与第i个第二片段的中心的预测距离,表示为第i个第二片段中第j个第二预测语句是否与预测相关,λcoord表示为所述位置误差损失的超参数,N表示为第二片段的数量,m表示为第二预测语句的数量;
若所述第二预测语句的位置为对应的第二片段的中心,所述位置误差损失表达为:
其中,i表示为第i个第二片段,j表示为第j个第二预测语句,xi表示为第i个第二片段中的第j个第二预测语句的中心,表示为第i个第二片段中的第j个第二预测语句的预测中心,yi表示为第i个第二片段中的第j个第二预测语句的开头或结尾与第i个第二片段中的第j个第二预测语句的中心的距离,表示为第i个第二片段中的第j个第二预测语句的开头或结尾与第i个第二片段中的第j个第二预测语句的中心的预测距离,表示为第i个第二片段中第j个第二预测语句是否与预测相关,λcoord表示为所述位置误差损失的超参数N表示为第二片段的数量,m表示为第二预测语句的数量;
所述分类误差损失表达为:
其中,i表示为第i个第二片段,表示为第二预测语句的中心是否出现在第i个第二片段中,c表示为标点类别,pi(c)表示为第i个第二片段中标点类别的概率,表示为第i个第二片段中为预测标点类别的概率,N表示为第二片段的数量;
所述置信度误差损失表达为:
其中,i表示为第i个第二片段,j表示为第j个第二预测语句,表示为第i个第二片段中第j个第二预测语句是否与预测相关,λnoobj表示为所述置信度误差损失的超参数,Ci表示为第i个第二片段中的标点类别的置信度,表示为第i个第二片段中的预测标点类别的置信度,N表示为第二片段的数量,m表示为第二预测语句的数量。
在上述方案中,根据位置误差损失、分类误差损失和置信度误差损失在对初始模型进行训练的过程中,不断对预设的预测各个第二预测语句位置的神经元的连接权重、预设的预测第二预测语句的各个标点类别置信度的神经元的连接权重、预设的预测第二预测语句的各个标点类别的概率的神经元的连接权重进行修正,从而保障经过训练得到的标点预测模型效果。
步骤103,基于所述输出结果进行第一预测语句的冗余剔除,得到恢复标点的文本。
在该步骤中,利用非极大值抑制剔除输出结果中冗余的第一预测语句,从而得到恢复标点的文本。
在一些实施例中,步骤103,包括:
步骤A1,对每个所述第一预测语句执行以下操作:
将所述第一预测语句的各个标点类别的置信度分别与预设的置信度阈值进行对比,剔除置信度小于所述置信度阈值的标点类别;
在剩余的标点类别中,筛选出概率最大的标点类别,作为所述第一预测语句的最终标点类别。
在上述方案中,比如,第一预测语句有7种标点类别(,。?!:;“),将每种标点类别的置信度分别与预设的置信度阈值进行对比,然后剔除置信度小于置信度阈值的标点类比,此时,第一预测语句剩余的标点类别为(,?!),然后在剩余的标点类别中筛选出概率最大的标点类别作为第一预测语句的最终标点类别(,)。可以理解,上述示例中标点类别仅是示例性的,实际在进行处理时会根据具体样本数据发生变化,在此不对本申请的保护范围作出限定。
在一些实施例中,步骤103,包括:
步骤B1,计算最终标点类别相同的两个第一预测语句的重叠度;
步骤B2,响应于确定所述重叠度大于或等于重叠度阈值,剔除置信度小的第一预测语句。
在上述方案中,对最终标点类别相同的两个第一预测语句的重叠度进行计算,根据预先设定的重叠度阈值。若标点类别相同的两个第一预测语句的重叠度大于或等于重叠度阈值,则认为两个第一预测语句为同一句子,剔除置信度小的第一预测语句。若两个第一预测语句的重叠度小于重叠度阈值,则认为两个第一预测语句为不同句子,均保留。
在一些实施例中,步骤B1,包括:
利用以下重叠度函数计算重叠度:
IOU=Area(A∩B)/Area(AUB),
其中,A表示为A第一预测语句的位置,B表示为B第一预测语句的位置,IOU表示重叠度。
在上述方案中,如图2A所示,重叠度表示为A第一预测语句的位置与B第一预测语句的位置的重叠区域与这两个区域的合并位置的比值。
通过上述方案,获取待处理文本的特征信息,将特征信息输入标点预测模型,利用标点预测模型得到输出结果,该输出结果包括第一片段的各个第一预测语句在第一片段中的位置、第一片段的各个第一预测语句的标点类别的概率和第一片段的各个第一预测语句的标点类别的置信度,最后再基于输出结果进行第一预测语句的冗余剔除,得到恢复标点的文本,这样能够通过一次待处理文本的特征信息的输入得到恢复标点的文本,不需要循环输入每一个文字来判断该文字后是否有标点,提高了文本标点恢复效率。
本申请将文本标点恢复过程以一个实施例进行具体描述,如图2B所示,具体如下:
输入文本(即待处理文本),例如输入文本为:去吗配吗这褴褛的披风战吗战啊以最卑微的梦致那黑夜中的呜咽与怒吼谁说站在光里的才算英雄,共42个字,对待处理文本进行padding(即填充)处理,得到填充文本,例如填充文本为50个字。
然后对填充文本进行词嵌入处理,例如词嵌入维度为512,得到词嵌入信息,维度为50*512。
之后对词嵌入信息进行特征提取(例如,利用多头自注意力机制(例如12层)),得到待处理文本的特征信息,此时,维度调整为10*2560。
再将特征信息输入全连接层(即标点预测模型),通过全连接层切割文本,将特征信息切割成的多个第一片段,这里切割成10个第一片段,每个第一片段都有对应的子特征信息。
通过全连接层得到位置(即第一片段的各个第一预测语句在所述第一片段中的位置)、置信度(即第一片段的各个第一预测语句的标点类别的置信度)、类别信息(即第一片段的各个第一预测语句的标点类别的概率),若每个第一片段包含3个第一预测语句,则通过全连接层得到10个第一片段中每个第一片段所对应的3个第一预测语句在第一片段中的位置、第一片段的各个第一预测语句的标点类别的置信度和第一片段的各个第一预测语句的标点类别的概率。
然后再对位置、置信度类别信息进行非极大抑制处理,剔除冗余的第一预测语句,输出标点符号位置和类型(即标点类别),从而得到恢复标点的文本。例如,恢复后的文本可以是:去吗?配吗?这褴褛的披风。战吗?战啊!以最卑微的梦。致那黑夜中的呜咽与怒吼,谁说站在光里的才算英雄。
需要说明的是,本申请实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本申请实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
需要说明的是,上述对本申请的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种文本标点恢复装置。
参考图3,所述文本标点恢复装置,包括:
特征信息获取模块301,被配置为获取待处理文本的特征信息;
预测模块302,被配置为将所述特征信息输入标点预测模型,得到输出结果;所述特征信息包括多个第一片段,所述输出结果包括所述第一片段的各个第一预测语句在所述第一片段中的位置、所述第一片段的各个第一预测语句的标点类别的概率和所述第一片段的各个第一预测语句的标点类别的置信度;
冗余剔除模块303,被配置为基于所述输出结果进行第一预测语句的冗余剔除,得到恢复标点的文本。
在一些实施例中,所述文本标点恢复装置还包括标点预测模型训练模块,包括:
训练数据集获取单元,被配置为获取训练数据集;所述训练数据集包括多个训练样本,所述训练样本包括多个第二片段、各个第二片段包含的语句在所述第二片段中的位置以及各个语句的标点类别;
训练单元,被配置为利用所述训练数据集,训练初始模型,得到所述标点预测模型。
在一些实施例中,训练单元,具体被配置为:
将所述训练数据输入所述初始模型,输出预测结果;
根据所述预测结果和所述训练数据,计算位置误差损失、分类误差损失和置信度误差损失;
根据所述位置误差损失、所述分类误差损失和所述置信度误差损失,调整所述初始模型;
重复执行上述步骤,直至达到预设次数,得到所述标点预测模型。
在一些实施例中,所述预测结果包括所述第二片段的各个第二预测语句在所述第二片段中的位置、所述第二片段的各个第二预测语句的标点类别的概率和所述第二片段的各个第二预测语句的标点类别的置信度;
若所述第二预测语句的位置为对应的第二片段的开头或结尾,所述位置误差损失表达为:
其中,i表示为第i个第二片段,j表示为第j个第二预测语句,xi表示为第i个第二片段中的第j个第二预测语句的开头与第i个第二片段的中心的距离,表示为第i个第二片段中的第j个第二预测语句的开头与第i个第二片段的中心的预测距离,yi表示为第i个第二片段中的第j个语句的结尾与第i个第二片段的中心的距离,表示为第i个第二片段中的第j个第二预测语句的结尾与第i个第二片段的中心的预测距离,表示为第i个第二片段中第j个第二预测语句是否与预测相关,λcoord表示为所述位置误差损失的超参数,N表示为第二片段的数量,m表示为第二预测语句的数量;
若所述第二预测语句的位置为对应的第二片段的中心,所述位置误差损失表达为:
其中,i表示为第i个第二片段,j表示为第j个第二预测语句,xi表示为第i个第二片段中的第j个第二预测语句的中心,表示为第i个第二片段中的第j个第二预测语句的预测中心,yi表示为第i个第二片段中的第j个第二预测语句的开头或结尾与第i个第二片段中的第j个第二预测语句的中心的距离,表示为第i个第二片段中的第j个第二预测语句的开头或结尾与第i个第二片段中的第j个第二预测语句的中心的预测距离,表示为第i个第二片段中第j个第二预测语句是否与预测相关,λcoord表示为所述位置误差损失的超参数N表示为第二片段的数量,m表示为第二预测语句的数量;
所述分类误差损失表达为:
其中,i表示为第i个第二片段,表示为第二预测语句的中心是否出现在第i个第二片段中,c表示为标点类别,pi(c)表示为第i个第二片段中标点类别的概率,表示为第i个第二片段中为预测标点类别的概率,N表示为第二片段的数量;
所述置信度误差损失表达为:
其中,i表示为第i个第二片段,j表示为第j个第二预测语句,表示为第i个第二片段中第j个第二预测语句是否与预测相关,λnoobj表示为所述置信度误差损失的超参数,Ci表示为第i个第二片段中的标点类别的置信度,表示为第i个第二片段中的预测标点类别的置信度,N表示为第二片段的数量,m表示为第二预测语句的数量。
在一些实施例中,特征信息获取模块301,具体被配置为:
将所述待处理文本进行填充,得到填充文本;
对所述填充文本进行词嵌入处理,得到词嵌入信息;
对所述词嵌入信息进行自注意力计算,得到所述待处理文本的特征信息。
在一些实施例中,冗余剔除模块303,具体被配置为:
对每个所述第一预测语句执行以下操作:
将所述第一预测语句的各个标点类别的置信度分别与预设的置信度阈值进行对比,剔除置信度小于所述置信度阈值的标点类别;
在剩余的标点类别中,筛选出概率最大的标点类别,作为所述第一预测语句的最终标点类别。
在一些实施例中,冗余剔除模块303,包括:
重叠度计算单元,被配置为计算最终标点类别相同的两个第一预测语句的重叠度;
剔除单元,被配置为响应于确定所述重叠度大于或等于重叠度阈值,剔除置信度小的第一预测语句。
在一些实施例中,重叠度计算单元,具体被配置为:
利用以下重叠度函数计算重叠度:
IOU=Area(A∩B)/Area(AUB),
其中,A表示为A第一预测语句的位置,B表示为B第一预测语句的位置,IOU表示重叠度。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
上述实施例的装置用于实现前述任一实施例中相应的文本标点恢复方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上任意一实施例所述的文本标点恢复方法。
图4示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器401、存储器402、输入/输出接口403、通信接口404和总线405。其中处理器401、存储器402、输入/输出接口403和通信接口404通过总线405实现彼此之间在设备内部的通信连接。
处理器401可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器402可以采用ROM(Read Only Memory,只读存储器)、RAM(RandomAccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器402可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器402中,并由处理器401来调用执行。
输入/输出接口403用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口404用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线405包括一通路,在设备的各个组件(例如处理器401、存储器402、输入/输出接口403和通信接口404)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器401、存储器402、输入/输出接口403、通信接口404以及总线405,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
上述实施例的电子设备用于实现前述任一实施例中相应的文本标点恢复方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上任一实施例所述的文本标点恢复方法。
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的文本标点恢复方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种计算机程序产品,其包括计算机程序。在一些实施例中,所述计算机程序由一个或多个处理器可执行以使得所述处理器执行所述的文本标点恢复方法。对应于方法各实施例中各步骤对应的执行主体,执行相应步骤的处理器可以是属于相应执行主体的。
上述实施例的计算机程序产品用于使处理器执行如上任一实施例所述的文本标点恢复方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本申请的范围(包括权利要求)被限于这些例子;在本申请的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本申请实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本申请实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本申请实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本申请实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本申请的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本申请实施例。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本申请的具体实施例对本申请进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本申请实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本申请实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (12)
1.一种文本标点恢复方法,其特征在于,包括:
获取待处理文本的特征信息;
将所述特征信息输入标点预测模型,得到输出结果;所述特征信息包括多个第一片段,所述输出结果包括所述第一片段的各个第一预测语句在所述第一片段中的位置、所述第一片段的各个第一预测语句的标点类别的概率和所述第一片段的各个第一预测语句的标点类别的置信度;
基于所述输出结果进行第一预测语句的冗余剔除,得到恢复标点的文本。
2.根据权利要求1所述的方法,其特征在于,所述标点预测模型通过以下过程获得:
获取训练数据集;所述训练数据集包括多个训练样本,所述训练样本包括多个第二片段、各个第二片段包含的语句在所述第二片段中的位置以及各个语句的标点类别;
利用所述训练数据集,训练初始模型,得到所述标点预测模型。
3.根据权利要求2所述的方法,其特征在于,利用所述训练数据集,训练初始模型,得到所述标点预测模型,包括:
将所述训练数据输入所述初始模型,输出预测结果;
根据所述预测结果和所述训练数据,计算位置误差损失、分类误差损失和置信度误差损失;
根据所述位置误差损失、所述分类误差损失和所述置信度误差损失,调整所述初始模型;
重复执行上述步骤,直至达到预设次数,得到所述标点预测模型。
4.根据权利要求3所述的方法,其特征在于,所述预测结果包括所述第二片段的各个第二预测语句在所述第二片段中的位置、所述第二片段的各个第二预测语句的标点类别的概率和所述第二片段的各个第二预测语句的标点类别的置信度;
若所述第二预测语句的位置为对应的第二片段的开头或结尾,所述位置误差损失表达为:
其中,i表示为第i个第二片段,j表示为第j个第二预测语句,xi表示为第i个第二片段中的第j个第二预测语句的开头与第i个第二片段的中心的距离,表示为第i个第二片段中的第j个第二预测语句的开头与第i个第二片段的中心的预测距离,yi表示为第i个第二片段中的第j个语句的结尾与第i个第二片段的中心的距离,表示为第i个第二片段中的第j个第二预测语句的结尾与第i个第二片段的中心的预测距离,表示为第i个第二片段中第j个第二预测语句是否与预测相关,λcoord表示为所述位置误差损失的超参数,N表示为第二片段的数量,m表示为第二预测语句的数量;
若所述第二预测语句的位置为对应的第二片段的中心,所述位置误差损失表达为:
其中,i表示为第i个第二片段,j表示为第j个第二预测语句,xi表示为第i个第二片段中的第j个第二预测语句的中心,表示为第i个第二片段中的第j个第二预测语句的预测中心,yi表示为第i个第二片段中的第j个第二预测语句的开头或结尾与第i个第二片段中的第j个第二预测语句的中心的距离,表示为第i个第二片段中的第j个第二预测语句的开头或结尾与第i个第二片段中的第j个第二预测语句的中心的预测距离,表示为第i个第二片段中第j个第二预测语句是否与预测相关,λcoord表示为所述位置误差损失的超参数N表示为第二片段的数量,m表示为第二预测语句的数量;
所述分类误差损失表达为:
其中,i表示为第i个第二片段,表示为第二预测语句的中心是否出现在第i个第二片段中,c表示为标点类别,pi(c)表示为第i个第二片段中标点类别的概率,表示为第i个第二片段中为预测标点类别的概率,N表示为第二片段的数量;
所述置信度误差损失表达为:
5.根据权利要求1所述的方法,其特征在于,所述获取待处理文本的特征信息,包括:
将所述待处理文本进行填充,得到填充文本;
对所述填充文本进行词嵌入处理,得到词嵌入信息;
对所述词嵌入信息进行自注意力计算,得到所述待处理文本的特征信息。
6.根据权利要求1所述的方法,其特征在于,所述基于所述输出结果进行第一预测语句的冗余剔除,得到恢复标点的文本,包括:
对每个所述第一预测语句执行以下操作:
将所述第一预测语句的各个标点类别的置信度分别与预设的置信度阈值进行对比,剔除置信度小于所述置信度阈值的标点类别;
在剩余的标点类别中,筛选出概率最大的标点类别,作为所述第一预测语句的最终标点类别。
7.根据权利要求6所述的方法,其特征在于,所述基于所述输出结果进行第一预测语句的冗余剔除,得到恢复标点的文本,包括:
计算最终标点类别相同的两个第一预测语句的重叠度;
响应于确定所述重叠度大于或等于重叠度阈值,剔除置信度小的第一预测语句。
8.根据权利要求7所述的方法,其特征在于,计算最终标点类别相同的两个第一预测语句的重叠度,包括:
利用以下重叠度函数计算重叠度:
IOU=Area(A∩B)/Area(A∪B),
其中,A表示为A第一预测语句的位置,B表示为B第一预测语句的位置,IOU表示重叠度。
9.一种文本标点恢复装置,其特征在于,包括:
特征信息获取模块,被配置为获取待处理文本的特征信息;
预测模块,被配置为将所述特征信息输入标点预测模型,得到输出结果;所述特征信息包括多个第一片段,所述输出结果包括所述第一片段的各个第一预测语句在所述第一片段中的位置、所述第一片段的各个第一预测语句的标点类别的概率和所述第一片段的各个第一预测语句的标点类别的置信度;
冗余剔除模块,被配置为基于所述输出结果进行第一预测语句的冗余剔除,得到恢复标点的文本。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至8任意一项所述的方法。
11.一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,其特征在于,所述计算机指令用于使计算机执行权利要求1至8任一所述方法。
12.一种计算机程序产品,包括计算机程序指令,当所述计算机程序指令在计算机上运行时,使得计算机执行如权利要求1-8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211058771.7A CN115374766A (zh) | 2022-08-31 | 2022-08-31 | 文本标点恢复方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211058771.7A CN115374766A (zh) | 2022-08-31 | 2022-08-31 | 文本标点恢复方法及相关设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115374766A true CN115374766A (zh) | 2022-11-22 |
Family
ID=84069900
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211058771.7A Pending CN115374766A (zh) | 2022-08-31 | 2022-08-31 | 文本标点恢复方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115374766A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117113941A (zh) * | 2023-10-23 | 2023-11-24 | 新声科技(深圳)有限公司 | 标点符号恢复方法、装置、电子设备及存储介质 |
-
2022
- 2022-08-31 CN CN202211058771.7A patent/CN115374766A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117113941A (zh) * | 2023-10-23 | 2023-11-24 | 新声科技(深圳)有限公司 | 标点符号恢复方法、装置、电子设备及存储介质 |
CN117113941B (zh) * | 2023-10-23 | 2024-02-06 | 新声科技(深圳)有限公司 | 标点符号恢复方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114372477B (zh) | 文本识别模型的训练方法、文本识别方法及装置 | |
CN107767870B (zh) | 标点符号的添加方法、装置和计算机设备 | |
US20190279035A1 (en) | Systems and methods for recognizing characters in digitized documents | |
CN112528637B (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
KR102143745B1 (ko) | 음절 기반의 벡터를 이용한 한글 오류 보정 방법 및 한글 오류 보정 시스템 | |
CN110377733B (zh) | 一种基于文本的情绪识别方法、终端设备及介质 | |
CN112182217A (zh) | 多标签文本类别的识别方法、装置、设备和存储介质 | |
CN110263218B (zh) | 视频描述文本生成方法、装置、设备和介质 | |
CN112784582A (zh) | 纠错方法、装置和计算设备 | |
US20230123327A1 (en) | Method and device for recognizing text, and method and device for training text recognition model | |
CN112632227A (zh) | 简历匹配方法、装置、电子设备、存储介质和程序产品 | |
US20210192137A1 (en) | Information processing apparatus, information processing method, and computer-readable recording medium | |
CN113435531B (zh) | 零样本图像分类方法、系统、电子设备及存储介质 | |
CN115374766A (zh) | 文本标点恢复方法及相关设备 | |
CN116152833A (zh) | 基于图像的表格还原模型的训练方法及表格还原方法 | |
CN114639096A (zh) | 文本识别方法、装置、电子设备和存储介质 | |
CN114529910A (zh) | 手写文字识别方法、装置、存储介质及电子设备 | |
CN111507250B (zh) | 图像识别方法、设备及存储介质 | |
CN113157941A (zh) | 业务特征数据处理、文本生成方法、装置及电子设备 | |
US20230153550A1 (en) | Machine Translation Method and Apparatus, Device and Storage Medium | |
CN114239760B (zh) | 多模态模型训练以及图像识别方法、装置、电子设备 | |
CN113704466B (zh) | 基于迭代网络的文本多标签分类方法、装置及电子设备 | |
CN114330303A (zh) | 文本纠错方法及相关设备 | |
CN113723367A (zh) | 一种答案确定方法、判题方法及装置和电子设备 | |
CN113239693A (zh) | 意图识别模型的训练方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |