CN109858028A

CN109858028A - 一种基于概率模型的短文本相似度计算方法

Info

Publication number: CN109858028A
Application number: CN201910094429.4A
Authority: CN
Inventors: 李民; 瞿晨非; 黄元欣
Original assignee: Synthesis Electronic Technology Co Ltd
Current assignee: Synthesis Electronic Technology Co Ltd
Priority date: 2019-01-30
Filing date: 2019-01-30
Publication date: 2019-06-07
Anticipated expiration: 2039-01-30
Also published as: CN109858028B

Abstract

本发明公开一种基于概率模型的短文本相似度计算方法，致力解决小样本条件下短文本相似度计算问题；相较于词嵌入模型，概率模型对样本数量以及质量要求不高，在实际生产实践中具有更好的实用性和适用性；相较于一般的概率模型，引入弱增量式设计降低概率模型的计算效复杂度，提高模型计算效率；相较于传统的向量空间模型，引入权重系数b用来控制文档长度对文本相似度的影响；引入权重系数k₁控制调制不同词频对文本相似度的影响，提高了短文本相似度的准确度。

Description

一种基于概率模型的短文本相似度计算方法

技术领域

本发明公开一种基于概率模型的短文本相似度计算方法，属于人工智能技术领域。

背景技术

互联网的快速发展和先进技术的逐步落地越来越深入地影响大众的生活和工作的方方面面。个人微信状态更新、论坛言论发表、网络购物评论、工作中的项目文档、会议纪要等等时刻各种摘要性质的文本信息出现在互联网上或者局域网上。基于大数据应用的文本分析、分类、隐藏信息挖掘等人工智能技术能够为加快社会数字化，为生活工作提供更多便利。体现出研究自然语言处理，特别是中文自然语言处理的必要性和重要性。

但是中文自然语言处理难度主要有两个方面，语言是人类对客观事物事件的人为抽象，所以语言主观且多变，在中文的处理中尤其明显；另一方面语言传递的信息往往和上下文有关。上述摘要性质的短文本的信息稀疏性以及用词随意性进一步提高短文本分析处理的难度。同时体现出研究短文本分析具有十分重要的理论意义

专利《一种文本相速度计算方法》(申请公布号：CN103838789A)本发明公开了一种文本相似度计算方法采用中文分词、去停用词、统计词频等自然语言处理技术将自然语言文本进行结构化处理，采用空间向量模型(TF/IDF模型)实现文本向量化处理，然后计算文本向量的汉明距离来表征文本之间的相似度。

专利《一种用于短文本语义相似度计算的方法》(申请公布号：CN104102626A)本发明提供了一种用于短文本语义相似度计算的方法，该用于短文本语义相似度计算的方法包括以下步骤：基于知网实体词基本义原特征、其他义原特征、关系义原特征以及关系符号特征计算词语之间的相似度，进而获得查询文本中所有词语的最相似词语，然后基于TFIDF实现文本的向量化表示，用向量之间的余弦距离表征文本相似度。

专利《多粒度短文本语义相似度比较方法及系统》(申请公布号:106569999A)提出一种短文本语义相似度计算方法，首先对短文本进行预处理；所述预处理包括中文分词以及词性标注，然后进行短文本的特工选择，基于向量机和TF-IDF算法确定短文本的相似度。

专利《一种短文本语义相似度的计算方法》(申请公布号:106844350A)首先对计算短文本进行分词；通过连续词袋模型对分词之后词语进行拓展，通过机器翻译对经过拓展后的词语进行歧义消除；对经过所述歧义消除的词语的重要性进行计算，并对所述词语的次序和领域权重系数进行加权；通过TFIDF实现文本向量化计算文本相似度。

计算文本相似度的核心在于文本的向量化。上述四份专利均采用TFIDF实现文本向量化，每份专利具体实现过程采用其他特征作为词语语义辅助手段对文本向量化进行矫正。TFIDF模型属于代数论模型；TFIDF算法中文本的大小以及关键词长度会影响权重的大小，TF-IDF没有考虑词频上限的问题。本专利采用基于概率统计的模型，矫正文本长度和词语长度对相似度计算的影响，采用最大抑制机制解决文档中高词频的问题。

专利《确定短文本相似度的方法和装置》(申请公布号：CN104391828A)提出短文本相似度流程包括采用Word2Vec的Skipgram模型和Sim模型实现文本向量化；利用Sigmoid函数计算文本向量内积的取值，衡量短文本之间的相似度。Word2Vec对训练数据的数量、质量以及领域知识完备性要求较高。而现实环境中特定行业数据数据量通常不够充分，一般情况下无法通过第三方渠道获取高质量数据样例，导致在实际生产环境中或者小样本场景下无法获得高质量的文本向量化表示，进而影响短文本相似度的精确度。本专利立足于小样本短文本相似度计算，本专利提出的概率模型在小样本场景下能够获得更好的短文本相似度结果。

专利《基于语义的短文本相似度计算方法》(申请公布号:CN106372061A)提供基于语义的短文本相似度计算方法。根据语料库数据预处理，通过Word2Vec实现词语文本的量化，然后计算向量之间的余弦距离作为文本之间的相似度。同时WordNet作为同义词拓展集合，提高系统词语的泛化能力，结合分层聚类方法创建词语语义树，计算文本中词语之间的相似度。

专利《一种短文本相似度计算方法及装置》(申请公布号:CN106181678A)提出一种短文本相似度计算方法。首先获取输入的第一文本串信息和第二文本串信息；根据第一文本串和第二文本串信息，获取两者字重合信息，词重合信息、词序信息以及语义信息；然后通过Word2Vec实现文本向量化，权重求和所有特征之间距离，作为文本之间相似度。

专利《一种基于多特征融合的短文本相似度计算方法》(申请公布号:107273913A)设计HTI特征提出短文本的词频特征，然后利用已有的Word2vector的Skip_gram训练模型提取短文本的语法特征，然后设计HSBM模型在语义纬度上对词频和语法特征进行有机融合，最后，设计MFSM模型计算融合结果向量化，并计算段文本相似度。

专利《短文本相似度计算方法及系统》(申请公布号:108334495A)本发明提供了一种短文本相似度计算方法，对训练语料进行分词，利用word2vec算法得到每个词的词向量，并组合形成词向量集合；分别对待计算短文本进行分词，在词向量集合中找到待计算短文本的每个词语的词向量，并组合形成短文本向量集合；计算词向量集合中每个词向量与短文本向量集合中每个词向量的余弦相似度，并得到每个词向量的最大相似度值组合得到短文本句子向量；计算两个短文本句子向量间的相似度，即可计算两个短文本间的相似度。

上述四份专利均采用Word2Vec实现文本向量化，每份专利具体实现过程采用其他特征作为词语语义辅助手段对文本向量化进行矫正。Word2Vec对训练数据的数量、质量以及领域知识完备性要求较高。而现实环境中特定行业数据数据量通常不够充分，一般情况下无法通过第三方渠道获取高质量数据样例，导致在实际生产环境中或者小样本场景下无法获得高质量的文本向量化表示，进而影响短文本相似度的精确度。本专利立足于小样本短文本相似度计算，小样本场景下能够获得更好的短文本相似度结果。

专利《一种基于单词语义相似度的短文本主题建模方法》(申请公布号：CN105955948A)发明公开了一种基于单词语义相似度的短文本主题建模方法，根据外部提供的单词语义相似度，构建短文本集中单词的相似词集；确定建模采用的主题数；随机分配各个短文本的主题；通过吉布斯采样过程迭代地确定各个短文本的主题和单词在主题下的分布；根据上述变量的最终分配结果向用户反馈各个主题下的单词分布与各个短文本所关联的主题。隐狄利克雷模假设文本中的词尾高斯分布，可能不适用于所有文本分析。本专利提出的概率模型没有限定或假定词语服从特定分布，具有更大的使用范围。

专利《一种文本相似度检测方法》(申请公布号:107562824A)常规的Simhash算法对文本进行相似度计算；然后引入N-Gram语言模型对文本关键词进行组合，使关键词具有上下文衔接关系，再次用Simhash算法对文本进行相似度计算；其次，又引入最长公共子串作为评判相似的标准之一，对文本进行相似度计算；最后，给予以上计算所得的相似度相应的权重，进行最终相似度的叠加计算。SimHash的计算需要大量文本，适用于海量文本的相似度判断。对于小样本数据集合包含信息过于稀疏以及离散，无法获得高质量文本Hash特征，所得到的短文本相似度可能低于实际值。

发明内容

本发明要解决的技术问题是小样本条件下短文本相似度计算问题，缓解或消除文档、词语不同长度对相似度带来的影响，同时采用最大抑制机制解决高词频问题，针对概率模型计算量偏大的问题提出弱增量式训练机制，减少训练的重复计算过程，降低训练计算复杂度，提高样本更新时训练效率。

为了解决所述技术问题，本发明采用的技术方案是：一种基于概率模型的短文本相似度计算方法，其特征在于：包括以下步骤：S01)、输入模组获取训练数据集或者测试样本，生成规范化文本；S02)、自然语言处理模组对规范化文本进行整理分析，完成业务的结构化、切片化以及多维度定义，生成结构化文本；S03)、概率计算模组对结构化文本进行训练和预测，训练过程完成训练集词语映射文档，以及每个词语对每个文档的权重计算，预测过程是当用户输入查询语句时计算与其余训练集每个问题的相关性得分，基于概率模型的训练过程为：S31)、根据结构化文本构建训练词语集合WordList；S32)、遍历计算WordList中每个词语word_i(1≤i≤n)对问题的权重，得到词语对文档权重集合WordIDF，S33)、遍历训练集合文档列表DocList，计算每个文档相对长度，首先计算每个文档的平均长度Avgl，然后计算文档平均长度与所有文档平均长度的比值，即文档的相对长度Ratl，得到文档相对长度集合DocLength，其中代表文档d_i的总长度，代表文档d_i句子的个数，N为训练集文档总数；S34)、基于BM25算法计算词语word_i和文档d_j的相关性得分，相关性公式为b、k₁、k₂为调节因子，f_i为词语word_i在文档d_j中的出现频率；为文档d_j的相对长度；qf_i为词语word_i在查询文档中出现的频率，遍历WordList和DocList得到每个词语与每个文档的相关度集合WordDocCoef；S35)、输出结构化训练结果到初始化模组，包括b、k₁、k₂初始值、词语对文档权重集合WordIDF、文档相对长度集合DocLength以及每个词语与每个文档的相关度集合WordDocCoef；基于概率模型对用户查询进行预测的过程为：自然语言处理模组对用户查询语句进行结构化处理生成词语列表word_i(1≤i≤n)，得到训练集中所有问题与每个word_i相关性得分后权重求和，从而得到查询问句与训练集中每个问题的相关性得分，公式为：其中word_i为查询问句Q的词语，n为查询问句中词语的个数；S04)、初始化模组管理结构化训练数据，一方面在进行预测分析初始阶段输出结构化训练数据到概率计算模组并完成初始化，另一方面可根据短文本相似度结果在初始化模组更新b、k₁、k₂的初始值，优化概率模型；S05)、相似度分析模组对概率计算模组输出的相似度列表进行分析，为概率模型优化提供建议。

进一步的，步骤S32中，采用IDF算法计算WordList中每个词语word_i(1≤i≤n)对问题的权重，计算公式为：N为训练集合中的问题总数，n_i为问题中包含了word_i的问题总数，其中0.5是调和系数，log函数是为了让IDF的值受N和n_i的影响更加平滑。

进一步的，当概率模型的训练集发生变化时，根据具体情况决定进行重新训练还是弱增量式训练；如果新增数据为训练集同领域知识并且更新的比率小于10％时或者删除数据比率小于10％，此时只针对新增或删除的知识进行训练，并将训练结果和原有训练结构进行合并，反之进行重新训练；当新增知识为其他领域知识或者日常方法问答时必须要进行性重新训练。

进一步的，步骤S06中，概率模型优化的具体流程为：人工建立重新收集测试样本或者根据训练样本集合衍生测试样本，批量测试得到相似度列表后统计分析提出优化建议，参数b用于调整文档长度对相关性的影响，如果输入样本和训练样本的长度整体差异大于设定阈值，降低b的初始值；k₁用来控制公式对词项频率敏感程度即衡量高频词语所在文档和低频词语所在文档的相关性差异，如果应用场景下词语频次并不重要，k₁减小，反之k₁增大。

进一步的，步骤S31中，根据结构化文本，依次经过删除重复项、合并同义词的过程构建训练词语集合WordList。

进一步的，步骤S02中，通过词法分析完成自然语言文本的分词和词性标记，得到自然语言文本的词语集；基于Trie树结构实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图；采用动态规划查找最大概率路径，找出基于词频的最大切分组合；对于未登录的词采用基于汉字成词能力的HMM模型，使用Viterbi算法找出最有可能组合；分词后过滤高频无意义词汇，保留具体实体信息词汇和疑问词汇，然后基于分词得到的词语列表进行词语拓展和归一化，利用句法分析技术得到关键信息之间的语法关系，抽取自然语言文本中关键信息，最终完成自然语言的结构化切片处理，获得结构化文本信息。

进一步的，训练数据集的来源包括磁盘文档、结构化以及非结构化数据库、网页、论坛，不同来源的数据在输入模块进行标准化处理，形成统一格式，同时进行语句拓展增强训练数据集的泛化能力。

本发明的有益效果：语言是人类主观抽象，不是客观事物，所以语言天然具有主观性以及多变性，中文尤其如此；另一方面语言语义通常紧密联系着上下文。同时短文本的信息稀疏性以及用词随意性进一步提高短文本分析处理的难度。为此本发明提出一种基于概率模型的短文本相似度计算方法和装置。

本发明致力解决小样本条件下短文本相似度计算问题；相较于词嵌入模型，概率模型对样本数量以及质量要求不高，在实际生产实践中具有更好的实用性和适用性；相较于一般的概率模型，引入弱增量式设计降低概率模型的计算效复杂度，提高模型计算效率；相较于传统的向量空间模型，引入权重系数b用来控制文档长度对文本相似度的影响；引入权重系数k₁控制调制不同词频对文本相似度的影响，提高了短文本相似度的准确度。

附图说明

图1为本发明的流程图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步的说明。

本发明公开一种基于概率模型的短文本相似度计算方法，如图1所示，为其流程图，包括以下步骤：

S01)、输入模组获取训练数据集或者测试样本，生成规范化文本；

本实施例中，训练数据集不限定来源，来源包括磁盘文档，结构化以及非结构化数据库、网页、论坛等。不同来源的数据在输入模块进行标准化处理，同时进行语句拓展增强训练集的泛化能力，输出规范化文本。

标准化处理是指将不同来源不同格式(Word、TXT、PDF等)的数据处理成统一的格式。

S02)、自然语言处理模组对规范化文本进行整理分析，完成业务的结构化、切片化以及多维度定义，生成结构化文本；

本实施中，通过词法分析完成自然语言文本的分词和词性标记，得到自然语言文本的词语集，保留文本的全部信息。基于Trie树结构实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)；采用动态规划查找最大概率路径，找出基于词频的最大切分组合；对于未登录的词采用基于汉字成词能力的HMM模型，使用Viterbi算法找出最有可能组合。

分词后过滤高频无意义词汇，例如“的”，“我”，“吗”以及标点符号等，保留具体实体信息词汇和疑问词汇，然后基于分词得到的词语列表进行词语拓展和归一化。利用句法分析技术，例如有限图分析法、短语结构分析、完全语法、局部语法以及依存分析等得到关键信息之间的语法关系，如依存关系、修饰关系等等，抽取自然语言文本中关键信息；最终完成自然语言的结构化切片处理，获得结构化文本信息。

S03)、概率计算模组对结构化文本进行训练和预测，训练过程完成训练集词语映射文档，以及每个词语对每个文档的权重计算，预测过程是当用户输入查询语句时计算与其余训练集每个问题的相关性得分。

基于概率模型的训练过程为：S31)、根据结构化文本，依次经过删除重复项、合并同义词等过程构建训练词语集合WordList；

S32)、采用IDF算法遍历计算WordList中每个词语word_i(1≤i≤n)对问题的贡献度即权重，得到词语对文档权重集合WordIDF，计算公式为：N为训练集合中的问题总数，n_i为问题中包含了word_i的问题总数，0.5是调教系数，避免n_i＝0的情况，log函数是为了让IDF的值受N和n_i的影响更加平滑；

S33)、遍历训练集合文档列表DocList，计算每个文档相对长度，首先计算每个文档的平均长度Avgl，然后计算文档平均长度与所有文档平均长度的比值，即文档的相对长度Ratl，得到文档相对长度集合DocLength。文档相对长度用于矫正其对短文本相似度的影响，其中代表文档d_i的总长度，代表文档d_i句子的个数，N为训练集文档总数，具体计算公式为：

S34)、基于BM25算法计算词语word_i和文档d_j的相关性得分，相关性公式为b、k₁、k₂为调节因子，可根据经验设置；f_i为词语word_i在文档d_j中的出现频率；为文档d_j的相对长度；qf_i为词语word_i在查询文档中出现的频率，由于绝大部分情况下，word_i在查询中只会出现一次，即qf_i＝1，因此BM25计算公式可以简化为：然后遍历WordList和DocList得到每个词语与每个文档的相关度集合WordDocCoef；

S35)、概率计算模组输出结构化训练结果到初始化模组，包括b、k₁、k₂初始值、词语对文档权重集合WordIDF、文档相对长度集合DocLength以及每个词语与每个文档的相关度集合WordDocCoef。

本实施例中，基于概率模型对用户查询进行预测的过程为：每当用户输入一个查询，自然语言处理模组对用户查询语句进行结构化处理生成词语列表word_i(1≤i≤n)，得到训练集中所有问题与每个word_i相关性得分后权重求和，从而得到查询问句与训练集中每个问题的相关性得分，公式为：其中word_i为查询问句Q的词语，n为查询问句中词语的个数；

S04)、初始化模组管理结构化训练数据，一方面在进行预测分析初始阶段输出结构化训练数据到概率计算模组并完成初始化，另一方面可在初始化模组根据短文本相似度结果更新b、k₁、k₂初始值，优化概率模型；

当概率模型的训练集发生变化时，根据具体情况决定进行重新训练还是弱增量式训练；如果新增数据为训练集同领域知识并且更新的比率小于10％时或者删除数据比率小于10％，此时只针对新增或删除的知识进行训练，并将训练结果和原有训练结构进行合并，反之进行重新训练；当新增知识为其他领域知识或者日常方法问答时必须要进行性重新训练。

S05)、相似度分析模组对概率计算模组输出的相似度列表进行分析，提供提供短文本相似度排序、统计分析功能，同时分析相似度分布为概率模型优化提供指导建议。

步骤S05中，优化概率模型具体流程如下，人工建立重新收集测试样本或者根据训练样本集合衍生测试样本，批量测试得到相似度列表后统计分析提出优化建议，参数b用于调整文档长度对相关性的影响，如果输入样本和训练样本的长度整体差异大于设定阈值，那么相似度会降低，此时降低b的初始值；k₁用来控制公式对词项频率敏感程度即衡量高频词语所在文档和低频词语所在文档的相关性差异，如果应用场景下词语频次并不重要，k₁减小，反之k₁增大。

本发明通过概率模型解决小样本条件下短文本相似度计算问题，缓解或消除文档、词语不同长度对相似度带来的影响，同时采用最大抑制机制解决高词频问题，针对概率模型计算量偏大的问题提出弱增量式训练机制，减少训练的重复计算过程，降低训练计算复杂度，提高样本更新时训练效率。

以上描述的仅是本发明的基本原理和优选实施例，本领域技术人员根据本发明做出的改进和替换，属于本发明的保护范围。

Claims

1.一种基于概率模型的短文本相似度计算方法，其特征在于：包括以下步骤：S01)、输入模组获取训练数据集或者测试样本，生成规范化文本；S02)、自然语言处理模组对规范化文本进行整理分析，完成业务的结构化、切片化以及多维度定义，生成结构化文本；S03)、概率计算模组对结构化文本进行训练和预测，训练过程完成训练集词语映射文档，以及每个词语对每个文档的权重计算，预测过程是当用户输入查询语句时计算与其余训练集每个问题的相关性得分，基于概率模型的训练过程为：S31)、根据结构化文本构建训练词语集合WordList；S32)、遍历计算WordList中每个词语word_i(1≤i≤n)对问题的权重，得到词语对文档权重集合WordIDF，S33)、遍历训练集合文档列表DocList，计算每个文档相对长度，首先计算每个文档的平均长度Avgl，然后计算文档平均长度与所有文档平均长度的比值，即文档的相对长度Ratl，得到文档相对长度集合DocLength，其中代表文档d_i的总长度，代表文档d_i句子的个数，N为训练集文档总数；S34)、基于BM25算法计算词语word_i和文档d_j的相关性得分，相关性公式为b、k₁、k₂为调节因子，f_i为词语word_i在文档d_j中的出现频率；为文档d_j的相对长度；qf_i为词语word_i在查询文档中出现的频率，遍历WordList和DocList得到每个词语与每个文档的相关度集合WordDocCoef；S35)、输出结构化训练结果到初始化模组，包括b、k₁、k₂初始值、词语对文档权重集合WordIDF、文档相对长度集合DocLength以及每个词语与每个文档的相关度集合WordDocCoef；基于概率模型对用户查询进行预测的过程为：自然语言处理模组对用户查询语句进行结构化处理生成词语列表word_i(1≤i≤n)，得到训练集中所有问题与每个word_i相关性得分后权重求和，从而得到查询问句与训练集中每个问题的相关性得分，公式为：其中word_i为查询问句Q的词语，n为查询问句中词语的个数；S04)、初始化模组管理结构化训练数据，一方面在进行预测分析初始阶段输出结构化训练数据到概率计算模组并完成初始化，另一方面可根据短文本相似度结果在初始化模组更新b、k₁、k₂的初始值，优化概率模型；S05)、相似度分析模组对概率计算模组输出的相似度列表进行分析，为概率模型优化提供建议。

2.根据权利要求1所述的基于概率模型的短文本相似度计算方法，其特征在于：步骤S32中，采用IDF算法计算WordList中每个词语word_i(1≤i≤n)对问题的权重，计算公式为：N为训练集合中的问题总数，n_i为问题中包含了word_i的问题总数，0.5是调和系数，log函数是为了让IDF的值受N和n_i的影响更加平滑。

3.根据权利要求1所述的基于概率模型的短文本相似度计算方法，其特征在于：当概率模型的训练集发生变化时，根据具体情况决定进行重新训练还是弱增量式训练；如果新增数据为训练集同领域知识并且更新的比率小于10％时或者删除数据比率小于10％，此时只针对新增或删除的知识进行训练，并将训练结果和原有训练结构进行合并，反之进行重新训练；当新增知识为其他领域知识或者日常方法问答时必须要进行性重新训练。

4.根据权利要求1所述的基于概率模型的短文本相似度计算方法，其特征在于：步骤S05中，概率模型优化的具体流程为：人工建立重新收集测试样本或者根据训练样本集合衍生测试样本，批量测试得到相似度列表后统计分析提出优化建议，参数b用于调整文档长度对相关性的影响，如果输入样本和训练样本的长度整体差异大于设定阈值，降低b的初始值；k₁用来控制公式对词项频率敏感程度即衡量高频词语所在文档和低频词语所在文档的相关性差异，如果应用场景下词语频次并不重要，k₁减小，反之k₁增大。

5.根据权利要求1所述的基于概率模型的短文本相似度计算方法，其特征在于：步骤S31中，根据结构化文本，依次经过删除重复项、合并同义词的过程构建训练词语集合WordList。

6.根据权利要求1所述的基于概率模型的短文本相似度计算方法，其特征在于：步骤S02中，通过词法分析完成自然语言文本的分词和词性标记，得到自然语言文本的词语集；基于Trie树结构实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图；采用动态规划查找最大概率路径，找出基于词频的最大切分组合；对于未登录的词采用基于汉字成词能力的HMM模型，使用Viterbi算法找出最有可能组合；分词后过滤高频无意义词汇，保留具体实体信息词汇和疑问词汇，然后基于分词得到的词语列表进行词语拓展和归一化，利用句法分析技术得到关键信息之间的语法关系，抽取自然语言文本中关键信息，最终完成自然语言的结构化切片处理，获得结构化文本信息。

7.根据权利要求1所述的基于概率模型的短文本相似度计算方法，其特征在于：训练数据集的来源包括磁盘文档、结构化以及非结构化数据库、网页、论坛，不同来源的数据在输入模块进行标准化处理，形成统一格式，同时进行语句拓展增强训练数据集的泛化能力。