CN110688833B

CN110688833B - 文本校正方法、装置和设备

Info

Publication number: CN110688833B
Application number: CN201910870203.9A
Authority: CN
Inventors: 齐全; 裘初; 高鹏东; 穆凯辉; 王博
Original assignee: Suzhou Chuangyiyun Network Technology Co ltd
Current assignee: Suzhou Chuangyiyun Network Technology Co ltd
Priority date: 2019-09-16
Filing date: 2019-09-16
Publication date: 2022-12-02
Anticipated expiration: 2039-09-16
Also published as: CN110688833A

Abstract

本申请提供了一种文本校正方法、装置和设备，其中，该方法包括：确定目标文本包含的多个特征信息中各个特征信息的信息序列；根据各个特征信息的信息序列的类型对多个特征信息进行分类，得到标准特征信息集和待调整特征信息集；将所述标准特征信息集对应的各个类型的信息序列转换为有限状态自动机；基于有限状态自动机，确定所述各个类型的信息序列与待调整特征信息集的匹配度；将匹配度最高值对应的信息序列作为校正信息序列对待调整特征信息集中各特征信息的信息序列进行校正。在本申请实施例中，可以根据目标文本中各个特征信息的标准撰写方式，对待调整特征信息集中的各特征信息进行二次校正，从而提高对目标文本的特征信息识别的准确度。

Description

文本校正方法、装置和设备

技术领域

本申请涉及数据处理技术领域，特别涉及一种文本校正方法、装置和设备。

背景技术

剧本管理是制片环节中的任务之一，制片人员需要根据剧本内容安排拍摄场次、准备服装道具、安排化妆师、规划影片制作费用、跟踪拍摄进度等。其中，对于剧本中拍摄单元起始句的识别和类别分析是剧本管理的基础任务之一，剧本中拍摄单元的起始句可以包括：拍摄的场次、时间、地点、内外景和任务等类别。

现有技术中一般采用深度学习算法对文本进行分析处理，以确定文本中的拍摄单元起始句。由于采用深度学习算法需要大量的训练数据，使得训练数据必然来自多个不同的剧本，而不同剧本在撰写习惯上存在差异，使得可能存在文本中描述剧情的句子由于类似于某个作为训练数据的拍摄单元起始句而被错误的识别的情况，以及可能存在拍摄单元起始句被正确识别但是类别信息提取错误的情况，从而采用现有的文本分析方法无法对剧本中的拍摄单元起始句进行准确的识别。

针对上述问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种文本校正方法、装置和设备，以解决采用现有的文本分析方法无法对剧本中的拍摄单元起始句进行准确的识别的问题。

本申请实施例提供了一种文本校正方法，包括：确定目标文本包含的多个特征信息中各个特征信息的信息序列；根据所述多个特征信息中各个特征信息的信息序列的类型，对所述多个特征信息进行分类，得到标准特征信息集和待调整特征信息集；将所述标准特征信息集中特征信息对应的各个类型的信息序列转换为有限状态自动机；基于所述有限状态自动机，确定所述标准特征信息集中包括的各个类型的信息序列与所述待调整特征信息集的匹配度；将匹配度最高值对应的信息序列作为校正信息序列；根据所述校正信息序列对所述待调整特征信息集中各特征信息的信息序列进行校正。

在一个实施例中，基于所述标准特征信息集中包括的至少一种类型的信息序列的有限状态自动机，确定所述标准特征信息集中包括的各个类型的信息序列与所述待调整特征信息集的匹配度，包括：确定所述标准特征信息集中特征信息对应的各个类型的信息序列的转移概率矩阵；确定所述标准特征信息集中特征信息对应的各个类型的信息序列的放射概率矩阵；将所述标准特征信息集中特征信息对应的各个类型的信息序列的转移概率矩阵、放射概率矩阵和有限状态自动机作为第一输入模型，采用维特比算法计算所述待调整特征信息集中特征信息的信息序列与所述标准特征信息集中各个类型的信息序列匹配概率最高的信息序列和对应的第一概率最高值；确定所述标准特征信息集中包括的各个类型的信息序列的第一权重；将所述各个类型的信息序列的第一权重和所述第一概率最高值的乘积，作为所述第一概率最高值对应的信息序列与所述待调整特征信息集中特征信息的第一匹配度。

在一个实施例中，在确定所述标准特征信息集中包括的各个类型的信息序列的第一权重之前，还包括：将所述转移概率矩阵、所述放射概率矩阵和初始状态矩阵作为第二输入模型，采用维特比算法计算所述待调整特征信息集中各个特征信息的信息序列匹配概率最高的信息序列和对应的第二概率最高值；确定在不受所述有限状态自动机约束情况下的第二权重；将所述第二权重和所述待调整特征信息集中各个特征信息对应的第二概率最高值的乘积作为所述待调整特征信息集中各特征信息与所述第二概率最高值对应的信息序列的第二匹配度。

在一个实施例中，将匹配度最高值对应的信息序列作为校正信息序列，包括：将所述待调整特征信息集中目标特征信息对应的第二匹配度与所述第一匹配度进行比较，得到匹配度最高值；将匹配度最高值对应的信息序列作为所述目标特征信息的校正信息序列；相应的，根据所述校正信息序列对所述待调整特征信息集中各特征信息的信息序列进行校正，包括：根据所述校正信息序列对所述目标特征信息的信息序列进行校正。

在一个实施例中，确定所述多个特征信息中各个特征信息的信息序列，包括：对所述多个特征信息中各个特征信息进行分词；根据分词结果，确定所述各个特征信息包含的多个特征词和各个特征词排列的顺序；根据所述各个特征信息包含的多个特征词和各个特征词排列的顺序，对所述各个特征信息进行标记，得到所述各个特征信息的信息序列；根据所述各个特征信息包含的多个特征词的类别和各个特征词排列的顺序，确定所述各个特征信息的信息序列的类型。

在一个实施例中，根据所述多个特征信息中各个特征信息的信息序列的类型，对所述多个特征信息进行分类，得到标准特征信息集和待调整特征信息集，包括：确定各个信息序列类型对应的特征信息的数量；按照所述各个信息序列类型对应的特征信息的数量的大小对所述各个信息序列类型进行排序；确定排序第一的信息序列类型对应的特征信息的数量与特征信息总数量的比值是否大于等于预设阈值；在确定排序第一的信息序列类型对应的特征信息的数量与特征信息总数量的比值大于等于所述预设阈值的情况下，将所述排序第一的信息序列类型对应的特征信息作为所述标准特征信息集；将所述多个特征信息中除所述排序第一的信息序列类型对应的特征信息之外的特征信息作为所述待调整特征信息集。

在一个实施例中，在确定排序第一的信息序列类型对应的特征信息的数量与特征信息总数量的比值是否大于等于预设阈值之后，还包括：在确定排序第一的信息序列类型对应的特征信息的数量与特征信息总数量的比值小于所述预设阈值的情况下，确定排序第一的信息序列类型对应的特征信息的数量和排序第二的信息序列类型对应的特征信息的数量之和与特征信息总数量的比值是否大于等于所述预设阈值；在确定排序第一的信息序列类型对应的特征信息的数量和排序第二的信息序列类型对应的特征信息的数量之和与特征信息总数量的比值大于等于所述预设阈值的情况下，将所述排序第一的信息序列类型对应的特征信息和排序第二的信息序列类型对应的特征信息作为所述标准特征信息集；将所述多个特征信息中除所述排序第一的信息序列类型对应的特征信息和排序第二的信息序列类型对应的特征信息之外的特征信息作为所述待调整特征信息集。

在一个实施例中，在确定目标文本包含的多个特征信息中各个特征信息的信息序列之前，还包括：采用预设深度学习模型确定所述目标文中包含的多个特征信息。

在一个实施例中，采用条件随机场模型确定所述标准特征信息集中包括的各个类型的信息序列的转移概率矩阵。

本申请实施例还提供了一种文本校正装置，包括：第一确定模块，用于确定目标文本包含的多个特征信息中各个特征信息的信息序列；分类模块，用于根据所述多个特征信息中各个特征信息的信息序列的类型，对所述多个特征信息进行分类，得到标准特征信息集和待调整特征信息集；转换模块，用于将所述标准特征信息集中特征信息对应的各个类型的信息序列转换为有限状态自动机；第二确定模块，用于基于所述有限状态自动机，确定所述标准特征信息集中包括的各个类型的信息序列与所述待调整特征信息集的匹配度；处理模块，用于将匹配度最高值对应的信息序列作为校正信息序列；校正模块，用于根据所述校正信息序列对所述待调整特征信息集中各特征信息的信息序列进行校正。

本申请实施例还提供了一种文本校正设备，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现所述文本校正方法的步骤。

本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机指令，所述指令被执行时实现所述文本校正方法的步骤。

本申请实施例提供了一种文本校正方法，通过确定目标文本包含的多个特征信息中各个特征信息的信息序列，可以根据多个特征信息中各个特征信息的信息序列的类型对上述多个特征信息进行分类，得到标准特征信息集和待调整特征信息集。并将标准特征信息集中特征信息对应的各个类型的信息序列转换为有限状态自动机，基于转换得到的有限状态自动机，确定标准特征信息集中包括的各个类型的信息序列与待调整特征信息集的匹配度。可以将匹配度最高值对应的信息序列作为校正信息序列对所述待调整特征信息集中各特征信息的信息序列进行校正。从而可以根据目标文本中各个特征信息的标准撰写方式，对待调整特征信息集中的各特征信息进行二次校正，以避免采用多个不同的文本作为训练语料对目标文本进行分析处理存在的特征信息识别不准确的情况，从而可以提高对目标文本的特征信息识别的准确度。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，并不构成对本申请的限定。在附图中：

图1是根据本申请实施例提供的文本校正方法的步骤示意图；

图2是根据本申请具体实施例提供的场头分析模型的示意图；

图3是根据本申请实施例提供的文本校正装置的结构示意图；

图4是根据本申请实施例提供的文本校正设备的结构示意图。

具体实施方式

下面将参考若干示例性实施方式来描述本申请的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本申请，而并非以任何方式限制本申请的范围。相反，提供这些实施方式是为了使本申请公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域的技术人员知道，本申请的实施方式可以实现为一种系统、装置设备、方法或计算机程序产品。因此，本申请公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

考虑到现有的(问题)

基于以上问题，本发明实施例提供了一种文本校正方法，如图1所示，可以包括以下步骤：

S101：确定目标文本包含的多个特征信息中各个特征信息的信息序列。

在一个实施例中可以对目标文本进行预处理，其中，预处理可以包括但不限于以下至少之一：中文分词、文本的编码格式转换，去停用词等。并将进行预处理后的目标文本转换成向量的形式，采用统计学习算法或者深度学习算法对转换得到的向量进行处理，从而确定目标文本包含的多个特征信息。上述目标文本可以为半结构化文本，在一些实施例中，上述目标文本可以为：简历、法律文书、剧本等。上述特征信息可以为目标文本中具有特殊结构特征的句子或段落，在一些实施例中，上述特征信息可以为：简历中关于人才关键信息描述的句子、剧本中各拍摄单元的起始句等。

由于上述各个特征信息中信息实体通常由一个或多个连续的词组成，因此在确定了上述目标文本包含的多个特征信息之后，可以对多个特征信息中各个特征信息进行分词，根据分词结果可以确定各个特征信息包含的多个特征词和各个特征词排列的顺序。根据各个特征信息包含的多个特征词和各个特征词排列的顺序，可以对各个特征信息进行标记，得到各个特征信息的信息序列。在一个实施例中，可以采用“IBO”(I代表信息实体内部、B代表信息实体开始、O代表其他)的形式进行标记，标记符号采用“位置-类别”的标记方法，例如上述信息序列可以为：1【B-场次】刘【B-地点】家别墅【I-地点】白【B-时间】天【I-时间】内【B-内外景】景【I-内外景】。

进一步的，可以根据各个特征信息包含的多个特征词的类别和各个特征词排列的顺序，确定各个特征信息的信息序列的类型，其中，包含的特征词的类别和各个特征词排列的顺序均相同的特征信息可以归为一类。例如：信息序列的类型为：1【场次】2【地点】3【时间】4【内外景】与信息序列的类型为：1【场次】2【时间】3【地点】4【内外景】是两种不同的信息序列类型。信息序列：1【B-场次】刘【B-地点】家别墅【I-地点】白【B-时间】天【I-时间】内【B-内外景】景【I-内外景】的信息序列的类型为：1【场次】2【地点】3【时间】4【内外景】。

在将各个特征信息转换为信息序列时，存在某些特征信息无法成功进行转换的情况下，可以将这些情况认定为是由于目标文本中的非特征信息类似训练语料而被错误的识别为特征信息，使得其无法按照上述方式转换为信息序列，即该些转换失败的特征信息是不符合要求的，在一个实施例中，可以将该些特征信息丢弃。

S102：根据多个特征信息中各个特征信息的信息序列的类型，对多个特征信息进行分类，得到标准特征信息集和待调整特征信息集。

由于各个特征信息可以根据包含的多个特征词的类别和各个特征词排列的顺序确定其对应的信息序列的类型，因此可以根据确定的各个特征信息的信息序列的类型对上述多个特征信息进行分类，将信息序列的类型相同的特征信息归为一类。在一个实施例中，如果一个信息序列的类型对应的特征信息数量越多，则可以认为该信息序列类型对应的特征信息的格式是标准的，可以更好的表征目标文本的撰写习惯。本说明书一些实施例中，在对上述多个特征信息进行分类之后，可以确定各个信息序列类型对应的特征信息的数量，并按照各个信息序列类型对应的特征信息的数量的大小对各个信息序列类型正序排列，对应的特征信息的数量最多的信息序列类型排序为第一。可以将排序在预设名次内信息序列类型对应的特征信息作为标准特征信息集，其他信息序列类型对应的特征信息作为待调整特征信息集。当然，还可以采用其他的方法划分出标准特征信息集和待调整特征信息集，本说明书实施例不作具体限定，例如：预先设置标准特征信息集中特征信息对应的信息序列的类型，将符合预设类型要求的特征信息放入标准特征信息集，不符合要求的特征信息放入待调整特征信息集。

在一个实施例中，可以确定排序第一的信息序列类型对应的特征信息的数量与目标文本包含的特征信息的总数量的比值是否大于等于预设阈值，在确定大于等于预设阈值的情况下，可以将排序第一的信息序列类型对应的特征信息作为标准特征信息集，并将除排序第一的信息序列类型对应的特征信息之外的特征信息作为待调整特征信息集。上述预设阈值可以为大于0小于1的数值，例如可以为：0.8、0.85等，具体的可以根据实际情况确定，本申请对此不作限定。

在确定排序第一的信息序列类型对应的特征信息的数量与特征信息总数量的比值小于预设阈值的情况下，为了确保标准特征信息集中特征信息的数量符合预设要求，可以将排序第二的信息序列类型对应的特征信息也作为标准特征信息集中的数据。具体的，可以确定排序第一的信息序列类型对应的特征信息的数量和排序第二的信息序列类型对应的特征信息的数量之和与特征信息总数量的比值是否大于等于预设阈值，在确定大于等于上述预设阈值的情况下，可以排序第一的信息序列类型对应的特征信息和排序第二的信息序列类型对应的特征信息作为标准特征信息集，并将除排序第一的信息序列类型对应的特征信息和排序第二的信息序列类型对应的特征信息之外的特征信息作为待调整特征信息集。

如果此时排序第一的信息序列类型对应的特征信息的数量和排序第二的信息序列类型对应的特征信息的数量之和与特征信息总数量的比值仍小于上述预设阈值，可以继续将排序第三的信息序列类型对应的特征信息也作为标准特征信息集中的数据，直至达到上述预设阈值，在一些实施例中，也可以将适当降低上述预设阈值，具体的可以根据实际情况确定，本申请对此不作限定。

S103：将标准特征信息集中特征信息对应的各个类型的信息序列转换为有限状态自动机。

可以采用有限状态自动机记录不同类型的信息序列中包含的特征词类别的路径，由于不同类型的信息序列包含的特征词的类别和各个类别排列的顺序是不同的，因此，对于任一信息序列，如果将该信息序列送入由某个信息序列类型生成的有限状态自动机，信息序列最终到达成功结束状态，那么认为这个信息序列是和这个信息序列的类型是匹配的。如果信息序列最终到达失败状态，那么可以认为这个信息序列和这个信息序列类型是不匹配的。不同类型的信息序列分别对应生成一种有限状态自动机，其中，上述有限状态自动机是为研究有限内存的计算过程和某些语言类而抽象出的一种计算模型，有限状态自动机拥有有限数量的状态，每个状态可以迁移到零个或多个状态，输入字串决定执行哪个状态的迁移，这个过程也就是转移函数。

S104：基于有限状态自动机，确定标准特征信息集中包括的各个类型的信息序列与待调整特征信息集的匹配度。

可以基于上述有限状态自动机求取最优路径，即在不同类型的信息序列的限制下，确定待调整特征信息集的特征信息的信息序列中能够达到标准特征信息集对应的各个类型的信息序列的有限状态自动机成功结束状态的概率最高的信息序列。在一个实施例中，可以基于有限状态自动机计算待调整特征信息集的特征信息的信息序列达到标准特征信息集对应的各个类型的信息序列的概率值，确定出待调整特征信息集的特征信息的信息序列与标准特征信息集中包括的各个类型的信息序列的匹配度，如：可以将计算出的概率值作为匹配度。可以理解的是，标准特征信息集中包括的每一个类型的信息序列都对应一个匹配度。

维特比算法是一种动态规划算法用于寻找最有可能产生观测事件序列的-维特比路径-隐含状态序列，现有的采用维特比算法给条件随机场模型进行解码的过程通常只考虑信息序列的转移概率和发射概率，以求出所有路径中概率最大的路径。在一个实施例中，可以采用条件随机场模型确定标准特征信息集中包括的特征信息对应的至少一个信息序列类型的转移概率矩阵，并确定标准特征信息集中包括的特征信息对应的至少一个信息序列类型的放射概率矩阵，将上述标准特征信息集中包括的特征信息对应的各个信息序列类型的转移概率矩阵、放射概率矩阵和有限状态自动机作为第一输入模型，在有限状态自动机的约束下，采用维特比算法计算待调整特征信息集中特征信息的信息序列中与各个类型的信息序列匹配概率最高的信息序列和对应的第一概率最高值。可以理解的是，标准特征信息集中包括的每一种信息序列类型都可以计算得到一个对应的匹配概率最高的信息序列和对应的第一概率最高值。

在一个实施例中，上述第一输入模型为：λ＝(A,B,M)，A为n×l的放射概率矩阵，n为信息序列中包括的特征词的类别总数，l为信息序列长度，A[l_i,t]表示信息序列第t个特征词是l_i的概率。B为训练条件随机场得到的转移概率矩阵，B为n×n的矩阵，B[l_j,l_i]表示特征词的类别从l_j到l_i的转移概率，l_i代表第i个特征词的类别；M是不同信息序列类型对应的有限状态自动机，M[s_i,l_k]＝s_j代表状态i输入特征词类别k后的状态j，s_i代表有限状态自动机第i个状态。

在一个实施例中采用下述公式计算匹配概率最高的信息序列和对应的第一概率最高值，定义：

δ_t(l_i)＝max P(l_i,i_t-1,...,i₁|λ),i＝1,2,...,n

s_t(l_i)＝M[s_t-1(l_i-1),l_i]

δ_t+1(l_i)＝max[δ_t(l_j)B[l_j,l_i]val(M[s_t(l_j),l_i])]A[l_i,t+1]

其中，上述δ_t(l_i)代表当信息序列的第t个特征词类别是l_i时的最大概率；s_t(l_i)表示将δ_t(l_i)对应的信息序列依次送入有限状态机到达的状态，s₀代表初始状态；δ_t+1(l_i)代表当信息序列的第t+1个特征词类别是l_i时的最大概率；

表示令第t个特征词类别是l_i时获得最大概率的信息序列；val(M[s_t(l_j),l_i])标记当前信息序列是否到达失败状态，如果到达失败状态，那么val(M[s_t(l_j),l_i])＝0，否则val(M[s_t(l_j),l_i])＝1。

对应的求解步骤可以包括：

(1)初始化

δ₁(l_i)＝A[l_i,1]

s₁(l_i)＝M[s₀,l_i]

(2)根据上式进行递推，求出t＝1,2,...l-1的情况：

δ_t+1(l_i)＝max[δ_t(l_j)B[l_j,l_i]val(M[s_t(l_j),l_i])]A[l_i,t+1]

s_t(l_i)＝M[s_t-1(l_i-1),l_i]

(3)终止计算得到：

其中，上述P^*为匹配概率最高值；上述I＝(i₁,i₂,...i_l)，为匹配概率最高的信息序列，即序列I为输入有限状态自动机到达成功结束状态的最优序列，即该信息序列的概率在所有可以到达成功状态的信息序列中概率最高。

目标文本中通常包括多种类型的信息序列，本说明书实施例中可以从多个类型的信息序列中选择一种类型的信息序列来对待调整特征信息集中的特征信息的信息序列进行调整。在选择信息序列的类型时，可以确定不同类型的信息序列在目标文本中的第一权重，其中，权值的设置需要考虑该类型的信息序列在全部信息序列中所占的比值、该类型的信息序列包含信息种类多少以及是否包含关键信息等。在一个实施例中，可以将目标文本中该类型的信息序列的数量和目标文本的特征信息对应的信息序列的总数的比值作为该类型的信息序列的第一权重，可以理解的是，在其它实施例中还可以采用其它方式确定第一权重值，本申请对此不作限定。

进一步的，可以分别求取在不同类型的信息序列约束下的匹配度，即每一个类型的信息序列都对应计算得到一个匹配度，在一个实施例中，可以将各个类型的信息序列的第一权重和在各个类型的信息序列约束下的第一概率最高值的乘积，作为第一概率最高值对应的信息序列与上述待调整特征信息集中特征信息的第一匹配度。

在目标文本的撰写过程中可能存在一些特殊情况，由于信息序列内容本身的特殊性，使得其不受常规的信息序列类型的约束，需要采用特殊的表达形式。因此，可以在不受各类型的信息序列的约束的情况下，采用维特比算法计算待调整特征信息集中各个特征信息的信息序列中匹配概率最高的信息序列和对应的第二概率最高值。其中，可以将转移概率矩阵、放射概率矩阵和初始状态矩阵作为第二输入模型。在一个实施例中，在不受有限状态自动机约束情况下的第二权重可以通过下述公式计算得到：

可以理解的是，在其它实施例中也可以采用其它方式确定第二权重，本申请对此不作限定。可以将上述第二权重和第二概率最高值的乘积，作为待调整特征信息集中各特征信息与第二概率最高值对应的信息序列的第二匹配度。

S105：将匹配度最高值对应的信息序列作为校正信息序列。

在一个实施例中，可以将在不同类型的信息序列的约束下的各个第一匹配度进行比较，确定一个匹配度最高值，并将匹配度最高值对应的匹配概率最高值的信息序列作为校正信息序列，以确定待调整特征信息集中各特征信息的信息序列该如何进行调整。

在一个实施例中，可以将待调整特征信息集中目标特征信息对应的第二匹配度与在不同类型的信息序列的约束下的各个第一匹配度进行比较，得到匹配度最高值，如果该匹配度最高值对应的是第一匹配度，则意味着目标特征信息不具备特殊性，需要将匹配度最高值对应的匹配概率最高值的信息序列作为校正信息序列一对目标特征信息的信息序列进行调整。如果该匹配度最高值对应的时第二匹配度，则意味着该目标特征信息具备特殊性，不受一般类型的信息序列的约束。

S106：根据校正信息序列对待调整特征信息集中各特征信息的信息序列进行校正。

可以根据校正信息序列包含的特征词的类别和各个类别的特征词的排列顺序校正待调整特征信息集中各特征信息的信息序列包含的特征词的类别以及各个类别的特征词的排列顺序，从而将特征词类别识别错误的特征信息进行重新标记，得到正确的信息序列。

从以上的描述中，可以看出，本申请实施例实现了如下技术效果：通过确定目标文本包含的多个特征信息中各个特征信息的信息序列，可以根据多个特征信息中各个特征信息的信息序列的类型对上述多个特征信息进行分类，得到标准特征信息集和待调整特征信息集。并将标准特征信息集中特征信息对应的各个类型的信息序列转换为有限状态自动机，基于转换得到的有限状态自动机，确定标准特征信息集中包括的各个类型的信息序列与待调整特征信息集的匹配度。可以将匹配度最高值对应的信息序列作为校正信息序列对所述待调整特征信息集中各特征信息的信息序列进行校正。从而可以根据目标文本中各个特征信息的标准撰写方式，对待调整特征信息集中的各特征信息进行二次校正，以避免采用多个不同的文本作为训练语料对目标文本进行分析处理存在的特征信息识别不准确的情况，从而可以提高对目标文本的特征信息识别的准确度。

下面结合一个具体实施例对上述方法进行说明，然而，值得注意的是，该具体实施例仅是为了更好地说明本申请，并不构成对本申请的不当限定。

剧本从句子形式上来拆分的话主要分为三种：场头、对话和描述。剧本分析分为两步，第一步是将剧本中的句子分类为：场头、描述和对话，句子分类算法采用的是Bi-LSTM+Attention模型进行分类。第二步是对类别为场头的句子进行分析，场头分析模型如图2中所示，采用Bi-LSTM+Attention+CRF模型。模型首先使用word2vector将剧本中的句子转化为词向量表示，之后将词向量输入到Bi-LSTM层中，其中，word2vector是一个用于处理文本的双层神经网络，它的输入是文本语料，输出则是一组向量(该文本语料中词语的特征向量)。虽然word2vector并不是深度神经网络，但它可以将文本转换为深度神经网络能够理解的数值形式。Bi-LSTM融合两组学习方向相反(一个按句子顺序，一个按句子逆序)的LSTM层，能够在理论上实现当前词即包含历史信息、又包含未来信息，更有利于对当前词进行标注。将Bi-LSTM输出送入注意力(Attention)层中。注意力层的引入是为了解决Bi-LSTM模型中单个定长的编码向量无法保留较长的输入序列中的所有有用信息的问题。注意力层输出送入CRF层，通过引入CRF加入了对标签数据之间顺序性的考虑。

采用CRF(条件随机场，Conditional Random Field)作为分析场头模型的最后一层，可以保证场头序列标记的合法，由于在场头中信息实体通常由一个或多个连续的词组成，因此，场头可以采用“IBO”(I代表信息实体内部、B代表信息实体开始、O代表其他)的形式进行标记，场头标记符号采用“位置-类别”的标记方法，以得到场头对应的标记序列，例如：场头：1、刘家别墅、白天、内景可以标记为：1【B-场次】刘【B-地点】家别墅【I-地点】白【B-时间】天【I-时间】内【B-内外景】景【I-内外景】，每个场头均可以标记为上述格式。

场头一般指剧本中用于介绍剧情发生的环境信息的句子，例如：6、日、长春宫正殿、内，这个场头表示拍摄单元编号是6，发生在白天，地点是长春宫正殿，内景。一般场头信息包含场次、时间、内外景、地点、天气等信息，不同剧本中场头信息的格式和作者的书写习惯有关存在较大差异，但是同一篇剧本中场头格式是趋于一致的。可以根据场头分析模型的输出结果确定分析得到的每个场头包含的类别的信息和不同类别信息的排列方式，例如：1、刘家别墅、白天、内景，这个场头包含的场头类别信息和排列方式如表1中所示：

表1：信息槽示例

序号	类别	内容
			1	场次	1
2	地点	刘家别墅
			3	时间	白天
4	内外景	内景

可以将场头分析模型的输出结果都整理成上述格式，这样格式的信息可以称为信息槽。信息槽可以定义为按照场头关键类别信息及其出现次序形成的信息序列。其中，相同类别的信息如果在场头中顺序相邻的话认为是同一个类别信息，放在一个信息槽中，相同类别信息如果出现的顺序不相邻的话认为是不同槽中的相同类别信息。一篇剧本中场头的样式是趋同，即类别信息及其出现的次序应该是趋同的，信息槽模式相同。可以认为具有相同信息槽格式且占比相对较高的场头是被正确识别的场头。对于无法转换为信息槽格式的场头，可以认为该场头是剧本中对话或描述语言被错误的识别为了场头。

在将场头分析模型的输出结果都转换成信息槽之后，可以根据信息槽中的序号列和类别列对场头分类，将序号列和类别列完全相同的场头被分入同一类。确定不同类型的信息槽对应的场头的数量，将数量最多的信息槽类型作为正确的场头分析结果，可以将其作为训练数据，其它场头作为待优化数据。如果当前作为训练数据的场头数量占比不到全部场头的80％，那么将第二多的信息槽类别对应的场头添加至训练数据中，持续该步骤直至用于训练的场头占比达到全部场头的80％。以避免剧本作者在编写场头时比较随意，没有按照统一格式进行编写的情况。

维特比算法是机器学习中应用广泛的动态规划算法，该算法的核心思想是：通过综合状态之间的转移概率和前一个状态的情况计算出概率最大的状态转换路径，从而推断出隐含状态的序列的情况，即在每一步的所有选择都保存了前继所有步骤到当前步骤当前选择的最小总代价(或者最大价值)以及当前代价的情况下后续步骤的选择。依次计算完所有步骤后，通过回溯的方法找到最优选择路径。在本实施例中，计算满足指定信息槽约束条件下概率最大的路径，即受限条件下的最大概率。信息槽包含两部分信息：类别信息以及信息出现的顺序。对应的受限的条件有两个：最大路径需要包含信息槽的类别信息；最大路径包含的信息槽的信息的出现次序要和信息槽中信息的顺序一致。

利用有限状态自动机记录场头对应的标记序列和信息槽之间的匹配程度，可以基于上述确定的训练数据，采用条件随机场模型确定信息槽中每两种类别信息在标记序列中的转换概率，从而得到转移概率矩阵，上述场头分析模型中注意力层的输出结果为放射概率矩阵。输入模型为：λ＝(A,B,M)，A为n×l的放射概率矩阵，n为标记序列中包括的类别信息的总数，l为标记序列长度，A[l_i,t]表示信息序列第t个标记是l_i的概率。B为训练条件随机场得到的转移概率矩阵，B为n×n的矩阵，B[l_j,l_i]表示标记从l_j到l_i的转移概率，l_i代表第i个标记的类别；M是不同信息槽对应的有限状态自动机，M[s_i,l_k]＝s_j代表状态i输入标记k后的状态j，s_i代表有限状态自动机第i个状态。

采用下述公式求取最优路径和对应的最大概率，定义：

δ_t(l_i)＝max P(l_i,i_t-1,...,i₁|λ),i＝1,2,...,n

s_t(l_i)＝M[s_t-1(l_i-1),l_i]

δ_t+1(l_i)＝max[δ_t(l_j)B[l_j,l_i]val(M[s_t(l_j),l_i])]A[l_i,t+1]

对应的求解步骤可以包括：

(1)初始化

δ₁(l_i)＝A[l_i,1]

s₁(l_i)＝M[s₀,l_i]

(2)根据上式进行递推，求出t＝1,2,...l-1的情况：

δ_t+1(l_i)＝max[δ_t(l_j)B[l_j,l_i]val(M[s_t(l_j),l_i])]A[l_i,t+1]

s_t(l_i)＝M[s_t-1(l_i-1),l_i]

(3)终止计算得到：

其中，上述P^*为匹配概率最高值；上述I＝(i₁,i₂,...i_l)，为匹配概率最高的信息序列，即序列I为输入有限状态自动机到达成功结束状态的最优序列，即该信息序列的概率在所有可以到达成功状态的信息序列中概率最高。从而求出概率最高的到达有限状态自动机成功结束状态的标记序列，即与时间槽匹配的概率最高的标记序列。

如果剧本中存在多个类型的信息槽的话，对应的会生成多个类型的标记序列，在确定如何校正上述待优化场头时，需要从多个类型的标记序列中选择一种标记序列对待优化场头进行调整。为了使选择的标记序列对应的信息槽类型更具有代表性，可以确定不同类型的时间槽的权重，时间槽权重的设置可以考虑：满足时间槽的场头在全部场头中所占的比值、时间槽包含类别信息的种类数量、是否包含关键信息等，也可以根据具体使用场景调整信息槽权重值。在一个实施例中使用以下公式计算信息槽权重值：

信息槽权重值＝满足信息槽格式的场头数目/全部场头数目

在剧本中可能存在一些特殊情况，由于场头包含的内容本身的特殊性，使得其不受常规的信息槽类型的约束，需要采用特殊的表达形式，例如：当场头中包含梦境时，则该场头不涉及时间、内外景等信息，使得其必然不能转化为常规格式的信息槽。因此，在不受信息槽约束的情况下，该标记序列不考虑信息槽，只考虑转移概率和发射概率，采用维特比算法计算匹配概率最高的标记序列和概率最高值。在一个实施例中，在不受信息槽约束的情况下的权重值使用下述公式计算：

权重值＝1/全部场头数目

计算在各个信息槽约束下对应的最大概率值和各个信息槽权重值的乘积作为概率最高的标记序列的得分，并计算各个待优化场头在不受信息槽约束下对应的最大概率和权重值的乘积作为各个待优化场头对应的概率最高的标记序列的得分。将各个待优化场头对应的概率最高的标记序列的得分与在不同信息槽约束下的概率最高的标记序列的得分进行比较，确定各个待优化场头对应的获得得分最高的标记序列，并将其作为校正该待优化场头的最终标记序列，对待优化场头进行校正。

例如：场头分析结果可以包括：104[B场次]山顶[B地点]日[B时间]外[B外景]；105露营地[B地点]夜[B时间]外[B外景]；106露营地[B地点]夜[B时间]外[B外景]；107[B场次]大巴车[B地点]夜[B时间]内[B内景]；108[B场次]大街[B地点]夜[B时间]外[B外景]；109[B场次]大巴车[B地点]夜[B时间]内[B内景]；110[B场次]凌肖[B地点]病房[I地点]日[B时间]内[B内景]。其中，105露营地[B地点]夜[B时间]外[B外景]；106露营地[B地点]夜[B时间]外[B外景]两个场头的标记序列的格式与其它场头不相同，经过计算分析可以将这两个场头的标记序列校正为：105[B场次]露营地[B地点]夜[B时间]外[B外景]；106[B场次]露营地[B地点]夜[B时间]外[B外景]。

基于同一发明构思，本申请实施例中还提供了一种文本校正装置，如下面的实施例。由于文本校正装置解决问题的原理与文本校正方法相似，因此文本校正装置的实施可以参见文本校正方法的实施，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。图3是本申请实施例的文本校正装置的一种结构框图，如图3所示，可以包括：第一确定模块301、分类模块302、转换模块303、第二确定模块304、处理模块305和校正模块306，下面对该结构进行说明。

第一确定模块301，可以用于确定目标文本包含的多个特征信息中各个特征信息的信息序列；

分类模块302，可以用于根据多个特征信息中各个特征信息的信息序列的类型，对多个特征信息进行分类，得到标准特征信息集和待调整特征信息集；

转换模块303，可以用于将标准特征信息集中特征信息对应的各个类型的信息序列转换为有限状态自动机；

第二确定模块304，可以用于基于有限状态自动机，确定标准特征信息集中包括的各个类型的信息序列与待调整特征信息集的匹配度；

处理模块305，可以用于将匹配度最高值对应的信息序列作为校正信息序列；

校正模块306，可以用于根据校正信息序列对待调整特征信息集中各特征信息的信息序列进行校正。

本申请实施方式还提供了一种电子设备，具体可以参阅图4所示的基于本申请实施例提供的文本校正方法的电子设备组成结构示意图，电子设备具体可以包括输入设备41、处理器42、存储器43。其中，输入设备41具体可以用于输入目标文本。处理器42具体可以用于确定目标文本包含的多个特征信息中各个特征信息的信息序列；根据多个特征信息中各个特征信息的信息序列的类型，对多个特征信息进行分类，得到标准特征信息集和待调整特征信息集；将标准特征信息集中特征信息对应的各个类型的信息序列转换为有限状态自动机；基于有限状态自动机，确定标准特征信息集中包括的各个类型的信息序列与待调整特征信息集的匹配度；将匹配度最高值对应的信息序列作为校正信息序列；根据校正信息序列对待调整特征信息集中各特征信息的信息序列进行校正。存储器43具体可以用于存储匹配度、校正信息序列等参数。

在本实施方式中，输入设备具体可以是用户和计算机系统之间进行信息交换的主要装置之一。输入设备可以包括键盘、鼠标、摄像头、扫描仪、光笔、手写输入板、语音输入装置等；输入设备用于把原始数据和处理这些数的程序输入到计算机中。输入设备还可以获取接收其他模块、单元、设备传输过来的数据。处理器可以按任何适当的方式实现。例如，处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。存储器具体可以是现代信息技术中用于保存信息的记忆设备。存储器可以包括多个层次，在数字系统中，只要能保存二进制数据的都可以是存储器；在集成电路中，一个没有实物形式的具有存储功能的电路也叫存储器，如RAM、FIFO等；在系统中，具有实物形式的存储设备也叫存储器，如内存条、TF卡等。

在本实施方式中，该电子设备具体实现的功能和效果，可以与其它实施方式对照解释，在此不再赘述。

本申请实施方式中还提供了一种基于文本校正方法的计算机存储介质，计算机存储介质存储有计算机程序指令，在计算机程序指令被执行时可以实现：确定目标文本包含的多个特征信息中各个特征信息的信息序列；根据多个特征信息中各个特征信息的信息序列的类型，对多个特征信息进行分类，得到标准特征信息集和待调整特征信息集；将标准特征信息集中特征信息对应的各个类型的信息序列转换为有限状态自动机；基于有限状态自动机，确定标准特征信息集中包括的各个类型的信息序列与待调整特征信息集的匹配度；将匹配度最高值对应的信息序列作为校正信息序列；根据校正信息序列对待调整特征信息集中各特征信息的信息序列进行校正。

在本实施方式中，上述存储介质包括但不限于随机存取存储器(Random AccessMemory,RAM)、只读存储器(Read-Only Memory,ROM)、缓存(Cache)、硬盘(Hard DiskDrive,HDD)或者存储卡(Memory Card)。存储器可以用于存储计算机程序指令。网络通信单元可以是依照通信协议规定的标准设置的，用于进行网络连接通信的接口。

在本实施方式中，该计算机存储介质存储的程序指令具体实现的功能和效果，可以与其它实施方式对照解释，在此不再赘述。

显然，本领域的技术人员应该明白，上述的本申请实施例的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本申请实施例不限制于任何特定的硬件和软件结合。

虽然本申请提供了如上述实施例或流程图的方法操作步骤，但基于常规或者无需创造性的劳动在方法中可以包括更多或者更少的操作步骤。在逻辑性上不存在必要因果关系的步骤中，这些步骤的执行顺序不限于本申请实施例提供的执行顺序。的方法的在实际中的装置或终端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。

应该理解，以上描述是为了进行图示说明而不是为了进行限制。通过阅读上述描述，在所提供的示例之外的许多实施方式和许多应用对本领域技术人员来说都将是显而易见的。因此，本申请的范围不应该参照上述描述来确定，而是应该参照前述权利要求以及这些权利要求所拥有的等价物的全部范围来确定。

以上仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请实施例可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种文本校正方法，其特征在于，包括：

确定目标文本包含的多个特征信息中各个特征信息的信息序列；

根据所述多个特征信息中各个特征信息的信息序列的类型，对所述多个特征信息进行分类，得到标准特征信息集和待调整特征信息集；

将所述标准特征信息集中特征信息对应的各个类型的信息序列转换为有限状态自动机；

基于所述有限状态自动机，确定所述标准特征信息集中包括的各个类型的信息序列与所述待调整特征信息集的匹配度；

将匹配度最高值对应的信息序列作为校正信息序列；

根据所述校正信息序列对所述待调整特征信息集中各特征信息的信息序列进行校正。

2.根据权利要求1所述的方法，其特征在于，基于所述标准特征信息集中包括的至少一种类型的信息序列的有限状态自动机，确定所述标准特征信息集中包括的各个类型的信息序列与所述待调整特征信息集的匹配度，包括：

确定所述标准特征信息集中特征信息对应的各个类型的信息序列的转移概率矩阵；

确定所述标准特征信息集中特征信息对应的各个类型的信息序列的放射概率矩阵；

将所述标准特征信息集中特征信息对应的各个类型的信息序列的转移概率矩阵、放射概率矩阵和有限状态自动机作为第一输入模型，采用维特比算法计算所述待调整特征信息集中特征信息的信息序列与所述标准特征信息集中各个类型的信息序列匹配概率最高的信息序列和对应的第一概率最高值；

确定所述标准特征信息集中包括的各个类型的信息序列的第一权重；

将所述各个类型的信息序列的第一权重和所述第一概率最高值的乘积，作为所述第一概率最高值对应的信息序列与所述待调整特征信息集中特征信息的第一匹配度。

3.根据权利要求2所述的方法，其特征在于，在确定所述标准特征信息集中包括的各个类型的信息序列的第一权重之前，还包括：

将所述转移概率矩阵、所述放射概率矩阵和初始状态矩阵作为第二输入模型，采用维特比算法计算所述待调整特征信息集中各个特征信息的信息序列匹配概率最高的信息序列和对应的第二概率最高值；

确定在不受所述有限状态自动机约束情况下的第二权重；

将所述第二权重和所述待调整特征信息集中各个特征信息对应的第二概率最高值的乘积作为所述待调整特征信息集中各特征信息与所述第二概率最高值对应的信息序列的第二匹配度。

4.根据权利要求3所述的方法，其特征在于，将匹配度最高值对应的信息序列作为校正信息序列，包括：

将所述待调整特征信息集中目标特征信息对应的第二匹配度与所述第一匹配度进行比较，得到匹配度最高值；

将匹配度最高值对应的信息序列作为所述目标特征信息的校正信息序列；

相应的，根据所述校正信息序列对所述待调整特征信息集中各特征信息的信息序列进行校正，包括：

根据所述校正信息序列对所述目标特征信息的信息序列进行校正。

5.根据权利要求1所述的方法，其特征在于，确定所述多个特征信息中各个特征信息的信息序列，包括：

对所述多个特征信息中各个特征信息进行分词；

根据分词结果，确定所述各个特征信息包含的多个特征词和各个特征词排列的顺序；

根据所述各个特征信息包含的多个特征词和各个特征词排列的顺序，对所述各个特征信息进行标记，得到所述各个特征信息的信息序列；

根据所述各个特征信息包含的多个特征词的类别和各个特征词排列的顺序，确定所述各个特征信息的信息序列的类型。

6.根据权利要求1所述的方法，其特征在于，根据所述多个特征信息中各个特征信息的信息序列的类型，对所述多个特征信息进行分类，得到标准特征信息集和待调整特征信息集，包括：

确定各个信息序列类型对应的特征信息的数量；

按照所述各个信息序列类型对应的特征信息的数量的大小对所述各个信息序列类型进行排序；

确定排序第一的信息序列类型对应的特征信息的数量与特征信息总数量的比值是否大于等于预设阈值；

在确定排序第一的信息序列类型对应的特征信息的数量与特征信息总数量的比值大于等于所述预设阈值的情况下，将所述排序第一的信息序列类型对应的特征信息作为所述标准特征信息集；

将所述多个特征信息中除所述排序第一的信息序列类型对应的特征信息之外的特征信息作为所述待调整特征信息集。

7.根据权利要求6所述的方法，其特征在于，在确定排序第一的信息序列类型对应的特征信息的数量与特征信息总数量的比值是否大于等于预设阈值之后，还包括：

在确定排序第一的信息序列类型对应的特征信息的数量与特征信息总数量的比值小于所述预设阈值的情况下，确定排序第一的信息序列类型对应的特征信息的数量和排序第二的信息序列类型对应的特征信息的数量之和与特征信息总数量的比值是否大于等于所述预设阈值；

在确定排序第一的信息序列类型对应的特征信息的数量和排序第二的信息序列类型对应的特征信息的数量之和与特征信息总数量的比值大于等于所述预设阈值的情况下，将所述排序第一的信息序列类型对应的特征信息和排序第二的信息序列类型对应的特征信息作为所述标准特征信息集；

将所述多个特征信息中除所述排序第一的信息序列类型对应的特征信息和排序第二的信息序列类型对应的特征信息之外的特征信息作为所述待调整特征信息集。

8.根据权利要求1所述的方法，其特征在于，在确定目标文本包含的多个特征信息中各个特征信息的信息序列之前，还包括：采用预设深度学习模型确定所述目标文中包含的多个特征信息。

9.根据权利要求2所述的方法，其特征在于，采用条件随机场模型确定所述标准特征信息集中包括的各个类型的信息序列的转移概率矩阵。

10.一种文本校正装置，其特征在于，包括：

第一确定模块，用于确定目标文本包含的多个特征信息中各个特征信息的信息序列；

分类模块，用于根据所述多个特征信息中各个特征信息的信息序列的类型，对所述多个特征信息进行分类，得到标准特征信息集和待调整特征信息集；

转换模块，用于将所述标准特征信息集中特征信息对应的各个类型的信息序列转换为有限状态自动机；

第二确定模块，用于基于所述有限状态自动机，确定所述标准特征信息集中包括的各个类型的信息序列与所述待调整特征信息集的匹配度；

处理模块，用于将匹配度最高值对应的信息序列作为校正信息序列；

校正模块，用于根据所述校正信息序列对所述待调整特征信息集中各特征信息的信息序列进行校正。

11.一种文本校正设备，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现权利要求1至9中任一项所述方法的步骤。

12.一种计算机可读存储介质，其上存储有计算机指令，所述指令被执行时实现权利要求1至9中任一项所述方法的步骤。