CN111680476B

CN111680476B - 一种用于智能生成类文本的业务热词识别转换的方法

Info

Publication number: CN111680476B
Application number: CN202010457472.5A
Authority: CN
Inventors: 徐波
Original assignee: Duoyi Network Co ltd; GUANGDONG LIWEI NETWORK TECHNOLOGY CO LTD; Guangzhou Duoyi Network Co ltd
Current assignee: Duoyi Network Co ltd; GUANGDONG LIWEI NETWORK TECHNOLOGY CO LTD; Guangzhou Duoyi Network Co ltd
Priority date: 2020-05-26
Filing date: 2020-05-26
Publication date: 2024-01-30
Anticipated expiration: 2040-05-26
Also published as: CN111680476A

Abstract

本发明公开了一种用于智能生成类文本的业务热词识别转换的方法，收集语料并构建业务热词库；将智能生成得到的文本按业务热词的长度进行划分，并分别与热词进行一次简要快速的相似度匹配计算，过滤掉绝大部分相似度较低的划分词；对保留的相似度较高的划分词，再进行一次具体的相似度匹配计算，保留相似度高的划分词；使用语料训练统计语言模型，将保留的相似度高的划分词，采用热词对其进行替换形成新的句子文本，用预训练好的语言模型对替换前与替换后两个句子进行打分；根据语言模型打分结果，判定替换是否保留。可以快速和智能地为智能生成的文本进行识别匹配，在文本中的词汇与热词相似度较高及替换后语句流畅度较高的情况下实现智能替换。

Description

一种用于智能生成类文本的业务热词识别转换的方法

技术领域

本发明涉及自然语言处理领域，特别是指一种用于智能生成类文本的业务热词识别转换的方法。

背景技术

目前机器学习与深度学习技术发展迅猛，涌现出许多的网络模型架构，可以用于智能语音识别、智能图像识别等任务，并逐渐走向落地应用。但此类机器学习与深度学习模型的学习成本较大，需要经过大量的数据经过较长时间的训练才能得到模型，模型的更新同样也需要经过重新训练或者迁移学习的方法，时间成本和劳动力成本都比较较大。而业务热词、流行热词的更新较快，仅为满足热词的准确识别而从新训练模型不切实际，直接进行相似度匹配替换又往往容易产生错误替换的情况。

发明内容

本发明提出一种用于智能生成类文本的业务热词识别转换的方法，可以较为快速和智能地为智能生成后得到的文本进行识别匹配，在文本中的词汇与热词相似度较高及替换后语句流畅度较高的情况下实现智能替换。其中判别语句流畅度的语言模型的是基于文本统计学习，其学习成本低，可以快速实现更新。

本发明的技术方案是这样实现的：

一种用于智能生成类文本的业务热词识别转换的方法，包括以下步骤：

S1，收集语料，并构建业务热词库；

S2，将智能生成得到的文本，按热词库中业务热词的长度进行划分，并将划分得到的词分别与热词进行一次简要快速的相似度匹配计算，过滤掉绝大部分相似度较低的划分词；

S3，对S2中保留的相似度较高的划分词，再进行一次具体的相似度匹配计算，保留相似度高的划分词；

S4，使用S1所述的语料训练统计语言模型，将S3保留的相似度高的划分词，采用热词对其进行替换形成新的句子文本，用预训练好的语言模型对替换前与替换后两个句子进行打分；

S5，根据S4中所述的语言模型打分结果，判定S4中替换是否保留。

优选的，步骤S1中收集语料具体包括以下步骤：

S111，收集通用类语料，并进行数据清洗；

S112，收集业务场景下的语料，并进行数据清洗；

S113，将通用类语料与业务场景下的语料按一定比例进行合并。

优选的，步骤S1中构建业务热词库具体包括以下步骤：

S121，利用文字统计工具对收集到的业务场景下的语料进行不同长度词的词频统计，保留词频较高的词作为候选词，去除常用的非热词词汇，并筛选出业务场景下的热词加入热词库中；

S122，结合智能生成类的文本特点，将容易生成错误的专有名词加入热词库中；

S123，将热词库中热词以词的长度进行排序，热词长度长的排在前面，短的排在后面；对于长度一致的热词，将统计词频高的热词排在前面，统计词频低的排在后面。

优选的，步骤S2和S3中相似度匹配计算指的是对发音或字形相似度进行匹配计算，对于语音识别生成的文本，待转换词与热词一般发音相似，将词转为其所构成的拼音或者音素，对于OCR图像识别生成的文本，待转换词与热词一般字形相似，将词中的每一个字转为共所构成的笔画或者偏旁部首，根据组成元素对热词与文本中的词进行相似度计算。

优选的，步骤S2中一次简要快速的相似度匹配计算指的是将热词与文本中的词中的字转为所述的组成元素并进行拼接形成词的组成元素，将两者的组成元素进行编辑距离计算，当编辑距离大于设定的阈值即判定其为不相似。

优选的，步骤S3中具体的相似度匹配计算指的是

以字为单元进行计算，并加以权重，以编辑距离/元素组成长度，作为相似度标准对词中的每一个字与热词中的每一个字按其元素组成进行相似度计算，过程中考虑不同元素对相似度的影响程度加以不同的加权比重；

或者，以词中的字为单元进行计算，且词的相似度计算需要考虑词中所有字的相似度的极差值，得到词中每个字的相似度后求其均值和极差值，以均值加上乘以一定缩小系数后的极差值作为字的相似度。

优选的，步骤S4中统计语言模型采用的是N元统计语言模型，将收集到的语料作为统计语言模型的语料库，统计语言模型在对语料库中出现的字的频率进行统计后，得到基于语料库的一元至N元字组合的概率语言模型；使用概率语言模型对句子进行打分，得到句子从左至右每一个字在前面N-1个字发生的条件下的该字出现的概率，然后通过概率链式法则得到句中所有字以句子中的顺序出现的整体概率值，以此概率值来表征该句子中的字的组合在语料库中的最大共现组合概率，作为句子流畅度的评价标准。

本发明的有益效果在于：可以较为快速和智能地为智能生成后得到的文本进行识别匹配，在文本中的词汇与热词相似度较高及替换后语句流畅度较高的情况下实现智能替换。其中判别语句流畅度的语言模型的是基于文本统计学习，其学习成本低，可以快速实现更新。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为用于智能生成类文本的业务热词识别转换的方法的流程示意图。

图2为相似度匹配计算过程示意图。

图3为快速相似度匹配与具体相似度(拼音)匹配示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“竖直”、“上”、“下”、“水平”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

如图1-图3所示，本发明提出了一种用于智能生成类文本的业务热词识别转换的方法，包括以下步骤：

S1，收集语料，并构建业务热词库；

步骤S1中收集语料具体包括以下步骤：

S111，收集通用类语料，并进行数据清洗；根据智能生成文本的特点，通过字符串替换与正则匹配，过滤掉语料中的特殊字符及其它生成文本中所不包含的字符，并按语言模型统计要求做相关处理，如分词或者分字等；

S112，收集业务场景下的语料，并进行数据清洗；数据清洗环节与上一步相同，所收集的业务场景下的语料应该包括较多的带有业务场景下热词的语句，用于语言模型统计学习带有热词语句的常用表达形式。

S113，将通用类语料与业务场景下的语料按一定比例进行合并，保证数据的平衡性。

步骤S1中构建业务热词库具体包括以下步骤：

S122，结合智能生成类的文本特点，将容易生成错误的专有名词加入热词库中；结合业务场景需要，将业务场景下专有的日常表达不会出现的名词加入热词库。

加入热词库中的热词是业务场景下所特有的，且日常表达中不常出现导致文本智能生成容易产生生成错误的词汇，使得热词的识别转化更具针对性。热词库的排序顺序代表了对句中文本的识别转换顺序，按此方法进行排序，可以避免重复识别转换的情况，并加快识别转换的速度。

S2，将智能生成得到的文本，按热词库中业务热词的长度进行划分，并将划分得到的词分别与热词进行一次简要快速的相似度匹配计算，过滤掉绝大部分相似度较低的划分词；通过一次文本相似度匹配，可以过滤掉绝大部分的相似度低的词，提升匹配识别的速度。识别过滤速度快，可以快速过滤绝大部分不相似的词，减少计算资源，提升识别速度。将热词与文本中的词中的字转为步骤7中所述的组成元素并进行拼接形成词的组成元素，将两者的组成元素进行编辑距离计算，当编辑距离大于设定的阈值即判定其为不相似。

S3，对S2中保留的相似度较高的划分词，再进行一次具体的相似度匹配计算，保留相似度高的划分词；通过第二次具体的相似度匹配计算，保留真正相似度高的词与热词进行替换。

以字为单元进行计算，并加以权重。以编辑距离/元素组成长度，作为相似度标准对词中的每一个字与热词中的每一个字按其元素组成进行相似度计算，过程中考虑不同元素对相似度的影响程度加以不同的加权比重，如按拼音进行相似度计算时，对于‘b/p’此类发音相似的拼音元素，应对其编辑距离乘以0.5的系数减少其编辑距离，对于‘ian/an’此类元素组成相同但发音相关较大的，应对其编辑距离乘以2的惩罚系数加大其编辑距离。

以词中的字为单元进行计算，且词的相似度计算需要考虑词中所有字的相似度的极差值。按计算词中每个字的相似度的办法，得到词中每个字的相似度后求其均值和极差值，以均值加上乘以一定缩小系数后的极差值作为字的相似度。采用此法，其目的在于，当匹配词与热词中有个字极为不相似时，较大程度上减少其相似度，避免误纠。

步骤S2和S3中相似度匹配计算指的是所选用的相似度匹配可以是发音相似度或者字形相似度等，这需要根据智能生成的文本的特点选用，即对于语音识别生成的文本，待转换词与热词一般发音相似，可以将词转为其所构成的拼音或者音素，对于OCR图像识别生成的文本，待转换词与热词一般字形相似，可以将词中的每一个字转为共所构成的笔画或者偏旁部首，然后根据这些组成元素，对热词与文本中的词进行相似度计算。按照前向最大匹配的算法思想，匹配顺序从左到右，匹配词的长度先长后短，当识别匹配成功并完成替换后，匹配指针位置移至完成匹配的词后面，继续识别匹配。

句中词与热词相似度高并不是热词可以替换的充分条件，需要加入语言模型进行判断。所加入的语言模型在统计过大量通用语料与业务语料后，可以对替换前后的语句的流畅度进行打分，保留打分结果较高的句子，可以避免误纠的情况，体现热词替换的智能性。

步骤S4中统计语言模型采用的是N元统计语言模型，将收集到的语料作为统计语言模型的语料库，统计语言模型在对语料库中出现的字的频率进行统计后，得到基于语料库的一元至N元字组合的概率语言模型；使用概率语言模型对句子进行打分，得到句子从左至右每一个字在前面N-1个字发生的条件下的该字出现的概率，然后通过概率链式法则得到句中所有字以句子中的顺序出现的整体概率值，以此概率值来表征该句子中的字的组合在语料库中的最大共现组合概率，作为句子流畅度的评价标准。

统计语言模型更新速度快。其采用的方法是统计计算的方法，可以统计语料生成其相应的语言模型，同时对计算机配置要求也不高。可以利用现有的语言模型统计工具生成语言模型，如srilm和kenlm等。便于定期将带有热词的相关语料更新至语料库中，重新生成带有热词信息的语言模型。

步骤S4所述的统计语言模型为替换前后的句子进行打分，替换前后的句子仅在替换词位置有所不同，两个句子评分的差异影响主要在于热词自身及热词前后各N-1个字的组合。主要体现两方面特点，一是替换成热词后，热词自身已经形成多元组合，相比替换前其句子在热词自身的位置更容易得到较高的分值，即在业务场景下，在经过相似度筛选之后，当出现与热词相似度较高的组合，模型会优先考虑将其替换为热词。二是替换的热词发生在错误替换的情况下，热词与前后N-1个字容易形成语言模型语料中极少见的组合，语言模型在对错误替换后的句子评分时对热词与前后N-1个字形成的组合将会给出较低概率值，此时，在经过连乘后导致错误替换的句子的整体流畅度评分往往会低于替换前的评分。以此实现利用语言模型较大程度上减少误纠的情况，提升热词替换的智能性。

统计语言模型打分结果的准确性，取决于语言模型语料库中的语料，主要在于两点：一方面是语料库的体量，语料库体量较大，语言模型见过的组合越多，在统计学习过程中更能得到习惯表达的字的组合。另一方面是通用语料与业务场景下的语料的比例应相对平衡，数据不平衡的情况下语言模型的评价会有所偏向，不利于语言模型的正确打分。

本发明可以较为快速和智能地为智能生成后得到的文本进行识别匹配，在文本中的词汇与热词相似度较高及替换后语句流畅度较高的情况下实现智能替换。其中判别语句流畅度的语言模型的是基于文本统计学习，其学习成本低，可以快速实现更新。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于智能生成类文本的业务热词识别转换的方法，其特征在于，包括以下步骤：

S1，收集语料，并构建业务热词库；

步骤S1中收集语料具体包括以下步骤：

S111，收集通用类语料，并进行数据清洗；

S112，收集业务场景下的语料，并进行数据清洗；

S113，将通用类语料与业务场景下的语料按一定比例进行合并；

步骤S3中具体的相似度匹配计算指的是：

或者，以词中的字为单元进行计算，且词的相似度计算需要考虑词中所有字的相似度的极差值，得到词中每个字的相似度后求其均值和极差值，以均值加上乘以一定缩小系数后的极差值作为字的相似度；

2.根据权利要求1所述的一种用于智能生成类文本的业务热词识别转换的方法，其特征在于，步骤S1中构建业务热词库具体包括以下步骤：

3.根据权利要求1所述的一种用于智能生成类文本的业务热词识别转换的方法，其特征在于，步骤S2和S3中相似度匹配计算指的是对发音或字形相似度进行匹配计算，对于语音识别生成的文本，待转换词与热词一般发音相似，将词转为其所构成的拼音或者音素，对于OCR图像识别生成的文本，待转换词与热词一般字形相似，将词中的每一个字转为共所构成的笔画或者偏旁部首，根据组成元素对热词与文本中的词进行相似度计算。

4.根据权利要求3所述的一种用于智能生成类文本的业务热词识别转换的方法，其特征在于，步骤S2中一次简要快速的相似度匹配计算指的是将热词与文本中的词中的字转为所述的组成元素并进行拼接形成词的组成元素，将两者的组成元素进行编辑距离计算，当编辑距离大于设定的阈值即判定其为不相似。

5.根据权利要求1所述的一种用于智能生成类文本的业务热词识别转换的方法，其特征在于，步骤S4中统计语言模型采用的是N元统计语言模型，将收集到的语料作为统计语言模型的语料库，统计语言模型在对语料库中出现的字的频率进行统计后，得到基于语料库的一元至N元字组合的概率语言模型；使用概率语言模型对句子进行打分，得到句子从左至右每一个字在前面N-1个字发生的条件下的该字出现的概率，然后通过概率链式法则得到句中所有字以句子中的顺序出现的整体概率值，以此概率值来表征该句子中的字的组合在语料库中的最大共现组合概率，作为句子流畅度的评价标准。