CN114036957A

CN114036957A - 一种快速语义相似度计算方法

Info

Publication number: CN114036957A
Application number: CN202111610107.4A
Authority: CN
Inventors: 王元卓; 刘顺鹏; 刘帅锋
Original assignee: China Science And Technology Big Data Research Institute
Current assignee: China Science And Technology Big Data Research Institute
Priority date: 2021-12-27
Filing date: 2021-12-27
Publication date: 2022-02-11
Anticipated expiration: 2041-12-27
Also published as: CN114036957B

Abstract

本发明属于语音识别技术领域，具体涉及一种快速语义相似度计算方法，包括文本预处理模块、前缀树构建模块和实时匹配模块；其中文本预处理模块对文本进行预处理；前缀树构建模块用于将词转变拼音，并插入前缀树中，得到文本A中词语对应的拼音字符串和出现的次数，实时匹配模块通过判断文本B中每个词语是否在文本A出现，并将出现的词语个数与总数进行比值计算，得到匹配相似度；本发明中所涉及数据计算，都没有向量或矩阵的运算，从而大大降低计算复杂度，达到了实时性的要求，计算量小，依赖文件小，可以直接部署到嵌入式等计算资源低的设备上。

Description

一种快速语义相似度计算方法

技术领域

本发明属于语音识别技术领域，具体涉及一种快速语义相似度计算方法。

背景技术

在实时语音质检场景中，从麦克风获取的语音流，需要通过语音识别引擎获对应的文本内容，然后根据识别的文本内容和事先定义好的话术文本进行语义匹配，计算出语义相似度。这个从语音识别到文本语义计算的过程需要低延迟和实时性，这就要求语义相似度计算不能太耗时，能够快速计算结果。

实时语音质检的特点就是要保持实时性，低延迟，同时语义匹配准确度高。而现有技术中，虽然文本语义相似度计算有很多种方法，但这些方法要么准确度很差；要么计算量很大，无法达到实时性。

比如使用余弦相似度来计算，它首先使用词典创建文本对应的数值向量，然后根据余弦公式计算两个文本的相似度。余弦公式很简单，但是创建准确的数值向量却很难。如果数值向量直接根据词典对应的索引值来构建，那得到的相似度匹配就很差，因为这些词典索引值是相互独立的，文本直接的词语没有任何关联性。如果数值向量是经过词向量模型得到，那每个词的向量维度就很大，得到的文本就不是一维向量，而是二维矩阵，这样就会导致计算复杂度大幅度增加，计算速度就很慢。

随着NLP技术（自然语言处理）的发展，文本相似度的计算也开始使用深度语义模型。通过大量标注文本来训练模型，确实可以提高文本相似度的准确度，但带来的问题就是计算量很大，模型部署困难。

为了满足人们的需要，既要保持文本相似度的准确度，又要达到低延迟，针对上述方法存在的缺点，研究一种快速语义相似度计算方法是必要的。

发明内容

针对现有设备存在的缺陷和问题，本发明提供一种快速语义相似度计算方法，有效的解决了现有相识度计算时，词的向量维度就大，计算复杂度高，计算速度慢、延时高的问题。

本发明解决其技术问题所采用的方案是：一种快速语义相似度计算方法，包括如下步骤：

步骤一，文本预处理；

输入文本A和文本B，并分别进行去标点处理，然后根据词典文件对文本A和文本B进行分词和过滤未知词语，并对应输出为索引数组A和索引数组B；

步骤二，构建前缀树；

按照顺序遍历索引数组A中每个词语，并在发音词典中找到对应的汉语拼音，将词语对应拼音字符串和词语对应的id构建索引字符串，插入前缀树中，并记录该词语的插入次数，如果该索引字符串已经存在，就累加次数；直到索引数组A所有词语所对应的索引字符串均存放于前缀树，得到前缀树A；

步骤三，文本实时匹配；

从索引数组B的第一个词语，并按照顺序遍历索引数组B；遍历使用与步骤二中所述发音词典将词语转成拼音字符串，然后和词语对应的id构建索引字符串，在前缀树A中查找是否有该词语对应的索引字符串，没有找到，便进行下一个词语；如果找到，就获取该词语在文本A中出现的次数，并将该结果保存到查找数组中；

步骤四，查找数据合并；

合并重复出现的词语，每个词语仅保留一份出现次数，然后累加所有匹配到的词语次数，得到匹配次数；

步骤五，计算相似度；

计算索引数组A中所有词语出现次数的总次数，将匹配次数与总次数进行比值，得到文本语义相似度。

进一步的，所述拼音字符串包括词语ID，声母、韵母和声调。

进一步的，在步骤二和步骤三中，如果词语为汉语，则在发音词典文件中找到对应的汉语拼音，如果是英文字符，则不需要拼音，并将其作为一个整体插入到前缀树中。

本发明的有益效果：本发明主要包括三个模块，即文本预处理模块、前缀树构建模块和实时匹配模块；其中文本预处理模块主要用于对输入文本进行去标点和根据词典文件进行分词和过滤未知词语，实现文本的前处理。

前缀树构建模块的目的就是获取每个词出现的次数，词语转拼音目的一是为了省去哈希索引的创建，二是针对汉字，方便构建前缀树词语对应的拼音字符串插入前缀树时，需要记录该词语插入的次数，如果该索引字符串已经存在就累加次数，最后形成的前缀树包含文本A中词语对应的索引字符串和出现的次数。

实时匹配模块按照顺序遍历索引数组B，使用相同的拼音词表将词语转成拼音，然后使用构建的索引字符串在前缀树A中查找是否有该词语，没有就进行下一个词语，如果找到，就获取该词语在文本A中出现的次数，并将该结果保存到数组中，在统计总的匹配次数时，有的词语可能会出现多次，这时只取一次匹配次数即可，最后累加所有匹配到的词语的次数，即通过判断文本B中每个词语是否在文本A出现，并将出现的词语个数与总数进行比值计算，得到文本语义相似度。

本发明提出的实时文本匹配方法主要包括三个计算模块，这三个模块都没有向量或矩阵的运算，这大大降低计算复杂度，达到了实时性的要求。同时，本方法支持超长文本的相似度计算，无需深度语义模型那样有长度限制，准确度满足要求。然后，本方法无需大量文本来预训练深度语义模型或词向量，只需要一个简单的词典文件就可以，最后，本方法由于计算量小，依赖文件小等优点，可以直接部署到嵌入式等计算资源低的设备上。

附图说明

图1为本发明文本匹配流程图。

图2为文本预处理的流程图。

图3为前缀树构建流程图。

图4为实时匹配流程图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

实施例1：本实施例旨在提供一种快速语义相似度计算方法，主要用于对文本的相识度进行判断，针对现有的文本匹配度计算方法，词的向量维度就大，计算复杂度高，计算速度慢、延时高的问题，本实施例提供了一种快速的语义相似度计算方法。

本实施例中主要包括三个模块，即文本预处理模块、前缀树构建模块和实时匹配模块；其中文本预处理模块主要用于对输入文本进行去标点和根据词典文件进行分词和过滤未知词语，实现文本的前处理。

前缀树构建模块的目的就是获取每个词出现的次数，词语转拼音目的一是为了省去哈希索引的创建，二是针对汉字，方便构建前缀树词语对应的拼音字符串插入前缀树时，需要记录该词语插入的次数，如果该拼音字符串已经存在就累加次数，最后形成的前缀树包含文本A中词语对应的拼音字符串和出现的次数。

在具体实施时包括如下步骤：

步骤一，文本预处理；

输入文本A和文本B，为了便于区分，本实施例中将文本A为对照文本，文本B为匹配文本，并分别对两份文本进行去标点处理，然后根据词典文件对文本A和文本B进行分词和过滤未知词语，并对应输出为索引数组A和索引数组B。

步骤二，构建前缀树；

按照顺序遍历索引数组A中每个词语，并在发音词典中找到对应的汉语拼音，将词语对应拼音字符串和词语对应的id构建索引字符串，插入前缀树中，并记录该词语的插入次数，本实施例中，如果词语为汉语，则在发音词典文件中找到对应的汉语拼音，如果是英文字符，则不需要拼音，并将其作为一个整体插入到前缀树中，其中拼音字符串包括词语ID，声母、韵母和声调。

在插入过程中，如果该索引字符串已经存在，就累加次数；如果不存在，便将该索引字符串插入前缀树中，直到索引数组A所有词语所对应的索引字符串均存放于前缀树，得到前缀树A。

步骤三，文本实时匹配；

从索引数组B的第一次词语，并按照顺序遍历索引数组B；遍历使用与步骤二中所述发音词典将词语转成拼音字符串，然后和词语对应的id构建索引字符串，在前缀树A中查找是否有该词语对应的索引字符串，没有找到，便进行下一个词语；如果找到，就获取该词语在文本A中出现的次数，并将该结果保存到查找数组中。

步骤四，查找数据合并；

合并重复出现的词语，每个词语仅保留一份出现次数，然后累加所有匹配到的词语次数，得到匹配次数。

步骤五，计算相似度；

本实施例中所涉及数据计算，都没有向量或矩阵的运算，从而大大降低计算复杂度，达到了实时性的要求。同时，本方法支持超长文本的相似度计算，无需深度语义模型那样有长度限制，准确度满足要求。然后，本方法无需大量文本来预训练深度语义模型或词向量，只需要一个简单的词典文件就可以，由此可知，本实施例所提供语义相似度计算方法计算量小，依赖文件小，可以直接部署到嵌入式等计算资源低的设备上。

Claims

1.一种快速语义相似度计算方法，其特征在于：包括如下步骤：

步骤一，文本预处理；

步骤二，构建前缀树；

步骤三，文本实时匹配；

步骤四，查找数据合并；

步骤五，计算相似度；

2.根据权利要求1所述的快速语义相似度计算方法，其特征在于：所述索引字符串包括词语id，声母、韵母和声调。

3.根据权利要求1所述的快速语义相似度计算方法，其特征在于：在步骤二和步骤三中，如果词语为汉语，则在发音词典文件中找到对应的汉语拼音，如果是英文字符，则不需要拼音，并将其作为一个整体插入到前缀树中。