CN109858028A - 一种基于概率模型的短文本相似度计算方法 - Google Patents

一种基于概率模型的短文本相似度计算方法 Download PDF

Info

Publication number
CN109858028A
CN109858028A CN201910094429.4A CN201910094429A CN109858028A CN 109858028 A CN109858028 A CN 109858028A CN 201910094429 A CN201910094429 A CN 201910094429A CN 109858028 A CN109858028 A CN 109858028A
Authority
CN
China
Prior art keywords
word
document
training
text
probabilistic model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910094429.4A
Other languages
English (en)
Other versions
CN109858028B (zh
Inventor
李民
瞿晨非
黄元欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Synthesis Electronic Technology Co Ltd
Original Assignee
Synthesis Electronic Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Synthesis Electronic Technology Co Ltd filed Critical Synthesis Electronic Technology Co Ltd
Priority to CN201910094429.4A priority Critical patent/CN109858028B/zh
Publication of CN109858028A publication Critical patent/CN109858028A/zh
Application granted granted Critical
Publication of CN109858028B publication Critical patent/CN109858028B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开一种基于概率模型的短文本相似度计算方法,致力解决小样本条件下短文本相似度计算问题;相较于词嵌入模型,概率模型对样本数量以及质量要求不高,在实际生产实践中具有更好的实用性和适用性;相较于一般的概率模型,引入弱增量式设计降低概率模型的计算效复杂度,提高模型计算效率;相较于传统的向量空间模型,引入权重系数b用来控制文档长度对文本相似度的影响;引入权重系数k1控制调制不同词频对文本相似度的影响,提高了短文本相似度的准确度。

Description

一种基于概率模型的短文本相似度计算方法
技术领域
本发明公开一种基于概率模型的短文本相似度计算方法,属于人工智能技术领域。
背景技术
互联网的快速发展和先进技术的逐步落地越来越深入地影响大众的生活和工作的方方面面。个人微信状态更新、论坛言论发表、网络购物评论、工作中的项目文档、会议纪要等等时刻各种摘要性质的文本信息出现在互联网上或者局域网上。基于大数据应用的文本分析、分类、隐藏信息挖掘等人工智能技术能够为加快社会数字化,为生活工作提供更多便利。体现出研究自然语言处理,特别是中文自然语言处理的必要性和重要性。
但是中文自然语言处理难度主要有两个方面,语言是人类对客观事物事件的人为抽象,所以语言主观且多变,在中文的处理中尤其明显;另一方面语言传递的信息往往和上下文有关。上述摘要性质的短文本的信息稀疏性以及用词随意性进一步提高短文本分析处理的难度。同时体现出研究短文本分析具有十分重要的理论意义
专利《一种文本相速度计算方法》(申请公布号:CN103838789A)本发明公开了一种文本相似度计算方法采用中文分词、去停用词、统计词频等自然语言处理技术将自然语言文本进行结构化处理,采用空间向量模型(TF/IDF模型)实现文本向量化处理,然后计算文本向量的汉明距离来表征文本之间的相似度。
专利《一种用于短文本语义相似度计算的方法》(申请公布号:CN104102626A)本发明提供了一种用于短文本语义相似度计算的方法,该用于短文本语义相似度计算的方法包括以下步骤:基于知网实体词基本义原特征、其他义原特征、关系义原特征以及关系符号特征计算词语之间的相似度,进而获得查询文本中所有词语的最相似词语,然后基于TFIDF实现文本的向量化表示,用向量之间的余弦距离表征文本相似度。
专利《多粒度短文本语义相似度比较方法及系统》(申请公布号:106569999A)提出一种短文本语义相似度计算方法,首先对短文本进行预处理;所述预处理包括中文分词以及词性标注,然后进行短文本的特工选择,基于向量机和TF-IDF算法确定短文本的相似度。
专利《一种短文本语义相似度的计算方法》(申请公布号:106844350A)首先对计算短文本进行分词;通过连续词袋模型对分词之后词语进行拓展,通过机器翻译对经过拓展后的词语进行歧义消除;对经过所述歧义消除的词语的重要性进行计算,并对所述词语的次序和领域权重系数进行加权;通过TFIDF实现文本向量化计算文本相似度。
计算文本相似度的核心在于文本的向量化。上述四份专利均采用TFIDF实现文本向量化,每份专利具体实现过程采用其他特征作为词语语义辅助手段对文本向量化进行矫正。TFIDF模型属于代数论模型;TFIDF算法中文本的大小以及关键词长度会影响权重的大小,TF-IDF没有考虑词频上限的问题。本专利采用基于概率统计的模型,矫正文本长度和词语长度对相似度计算的影响,采用最大抑制机制解决文档中高词频的问题。
专利《确定短文本相似度的方法和装置》(申请公布号:CN104391828A)提出短文本相似度流程包括采用Word2Vec的Skipgram模型和Sim模型实现文本向量化;利用Sigmoid函数计算文本向量内积的取值,衡量短文本之间的相似度。Word2Vec对训练数据的数量、质量以及领域知识完备性要求较高。而现实环境中特定行业数据数据量通常不够充分,一般情况下无法通过第三方渠道获取高质量数据样例,导致在实际生产环境中或者小样本场景下无法获得高质量的文本向量化表示,进而影响短文本相似度的精确度。本专利立足于小样本短文本相似度计算,本专利提出的概率模型在小样本场景下能够获得更好的短文本相似度结果。
专利《基于语义的短文本相似度计算方法》(申请公布号:CN106372061A)提供基于语义的短文本相似度计算方法。根据语料库数据预处理,通过Word2Vec实现词语文本的量化,然后计算向量之间的余弦距离作为文本之间的相似度。同时WordNet作为同义词拓展集合,提高系统词语的泛化能力,结合分层聚类方法创建词语语义树,计算文本中词语之间的相似度。
专利《一种短文本相似度计算方法及装置》(申请公布号:CN106181678A)提出一种短文本相似度计算方法。首先获取输入的第一文本串信息和第二文本串信息;根据第一文本串和第二文本串信息,获取两者字重合信息,词重合信息、词序信息以及语义信息;然后通过Word2Vec实现文本向量化,权重求和所有特征之间距离,作为文本之间相似度。
专利《一种基于多特征融合的短文本相似度计算方法》(申请公布号:107273913A)设计HTI特征提出短文本的词频特征,然后利用已有的Word2vector的Skip_gram训练模型提取短文本的语法特征,然后设计HSBM模型在语义纬度上对词频和语法特征进行有机融合,最后,设计MFSM模型计算融合结果向量化,并计算段文本相似度。
专利《短文本相似度计算方法及系统》(申请公布号:108334495A)本发明提供了一种短文本相似度计算方法,对训练语料进行分词,利用word2vec算法得到每个词的词向量,并组合形成词向量集合;分别对待计算短文本进行分词,在词向量集合中找到待计算短文本的每个词语的词向量,并组合形成短文本向量集合;计算词向量集合中每个词向量与短文本向量集合中每个词向量的余弦相似度,并得到每个词向量的最大相似度值组合得到短文本句子向量;计算两个短文本句子向量间的相似度,即可计算两个短文本间的相似度。
上述四份专利均采用Word2Vec实现文本向量化,每份专利具体实现过程采用其他特征作为词语语义辅助手段对文本向量化进行矫正。Word2Vec对训练数据的数量、质量以及领域知识完备性要求较高。而现实环境中特定行业数据数据量通常不够充分,一般情况下无法通过第三方渠道获取高质量数据样例,导致在实际生产环境中或者小样本场景下无法获得高质量的文本向量化表示,进而影响短文本相似度的精确度。本专利立足于小样本短文本相似度计算,小样本场景下能够获得更好的短文本相似度结果。
专利《一种基于单词语义相似度的短文本主题建模方法》(申请公布号:CN105955948A)发明公开了一种基于单词语义相似度的短文本主题建模方法,根据外部提供的单词语义相似度,构建短文本集中单词的相似词集;确定建模采用的主题数;随机分配各个短文本的主题;通过吉布斯采样过程迭代地确定各个短文本的主题和单词在主题下的分布;根据上述变量的最终分配结果向用户反馈各个主题下的单词分布与各个短文本所关联的主题。隐狄利克雷模假设文本中的词尾高斯分布,可能不适用于所有文本分析。本专利提出的概率模型没有限定或假定词语服从特定分布,具有更大的使用范围。
专利《一种文本相似度检测方法》(申请公布号:107562824A)常规的Simhash算法对文本进行相似度计算;然后引入N-Gram语言模型对文本关键词进行组合,使关键词具有上下文衔接关系,再次用Simhash算法对文本进行相似度计算;其次,又引入最长公共子串作为评判相似的标准之一,对文本进行相似度计算;最后,给予以上计算所得的相似度相应的权重,进行最终相似度的叠加计算。SimHash的计算需要大量文本,适用于海量文本的相似度判断。对于小样本数据集合包含信息过于稀疏以及离散,无法获得高质量文本Hash特征,所得到的短文本相似度可能低于实际值。
发明内容
本发明要解决的技术问题是小样本条件下短文本相似度计算问题,缓解或消除文档、词语不同长度对相似度带来的影响,同时采用最大抑制机制解决高词频问题,针对概率模型计算量偏大的问题提出弱增量式训练机制,减少训练的重复计算过程,降低训练计算复杂度,提高样本更新时训练效率。
为了解决所述技术问题,本发明采用的技术方案是:一种基于概率模型的短文本相似度计算方法,其特征在于:包括以下步骤:S01)、输入模组获取训练数据集或者测试样本,生成规范化文本;S02)、自然语言处理模组对规范化文本进行整理分析,完成业务的结构化、切片化以及多维度定义,生成结构化文本;S03)、概率计算模组对结构化文本进行训练和预测,训练过程完成训练集词语映射文档,以及每个词语对每个文档的权重计算,预测过程是当用户输入查询语句时计算与其余训练集每个问题的相关性得分,基于概率模型的训练过程为:S31)、根据结构化文本构建训练词语集合WordList;S32)、遍历计算WordList中每个词语wordi(1≤i≤n)对问题的权重,得到词语对文档权重集合WordIDF,S33)、遍历训练集合文档列表DocList,计算每个文档相对长度,首先计算每个文档的平均长度Avgl,然后计算文档平均长度与所有文档平均长度的比值,即文档的相对长度Ratl,得到文档相对长度集合DocLength,其中代表文档di的总长度,代表文档di句子的个数,N为训练集文档总数;S34)、基于BM25算法计算词语wordi和文档dj的相关性得分,相关性公式为b、k1、k2为调节因子,fi为词语wordi在文档dj中的出现频率;为文档dj的相对长度;qfi为词语wordi在查询文档中出现的频率,遍历WordList和DocList得到每个词语与每个文档的相关度集合WordDocCoef;S35)、输出结构化训练结果到初始化模组,包括b、k1、k2初始值、词语对文档权重集合WordIDF、文档相对长度集合DocLength以及每个词语与每个文档的相关度集合WordDocCoef;基于概率模型对用户查询进行预测的过程为:自然语言处理模组对用户查询语句进行结构化处理生成词语列表wordi(1≤i≤n),得到训练集中所有问题与每个wordi相关性得分后权重求和,从而得到查询问句与训练集中每个问题的相关性得分,公式为:其中wordi为查询问句Q的词语,n为查询问句中词语的个数;S04)、初始化模组管理结构化训练数据,一方面在进行预测分析初始阶段输出结构化训练数据到概率计算模组并完成初始化,另一方面可根据短文本相似度结果在初始化模组更新b、k1、k2的初始值,优化概率模型;S05)、相似度分析模组对概率计算模组输出的相似度列表进行分析,为概率模型优化提供建议。
进一步的,步骤S32中,采用IDF算法计算WordList中每个词语wordi(1≤i≤n)对问题的权重,计算公式为:N为训练集合中的问题总数,ni为问题中包含了wordi的问题总数,其中0.5是调和系数,log函数是为了让IDF的值受N和ni的影响更加平滑。
进一步的,当概率模型的训练集发生变化时,根据具体情况决定进行重新训练还是弱增量式训练;如果新增数据为训练集同领域知识并且更新的比率小于10%时或者删除数据比率小于10%,此时只针对新增或删除的知识进行训练,并将训练结果和原有训练结构进行合并,反之进行重新训练;当新增知识为其他领域知识或者日常方法问答时必须要进行性重新训练。
进一步的,步骤S06中,概率模型优化的具体流程为:人工建立重新收集测试样本或者根据训练样本集合衍生测试样本,批量测试得到相似度列表后统计分析提出优化建议,参数b用于调整文档长度对相关性的影响,如果输入样本和训练样本的长度整体差异大于设定阈值,降低b的初始值;k1用来控制公式对词项频率敏感程度即衡量高频词语所在文档和低频词语所在文档的相关性差异,如果应用场景下词语频次并不重要,k1减小,反之k1增大。
进一步的,步骤S31中,根据结构化文本,依次经过删除重复项、合并同义词的过程构建训练词语集合WordList。
进一步的,步骤S02中,通过词法分析完成自然语言文本的分词和词性标记,得到自然语言文本的词语集;基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图;采用动态规划查找最大概率路径,找出基于词频的最大切分组合;对于未登录的词采用基于汉字成词能力的HMM模型,使用Viterbi算法找出最有可能组合;分词后过滤高频无意义词汇,保留具体实体信息词汇和疑问词汇,然后基于分词得到的词语列表进行词语拓展和归一化,利用句法分析技术得到关键信息之间的语法关系,抽取自然语言文本中关键信息,最终完成自然语言的结构化切片处理,获得结构化文本信息。
进一步的,训练数据集的来源包括磁盘文档、结构化以及非结构化数据库、网页、论坛,不同来源的数据在输入模块进行标准化处理,形成统一格式,同时进行语句拓展增强训练数据集的泛化能力。
本发明的有益效果:语言是人类主观抽象,不是客观事物,所以语言天然具有主观性以及多变性,中文尤其如此;另一方面语言语义通常紧密联系着上下文。同时短文本的信息稀疏性以及用词随意性进一步提高短文本分析处理的难度。为此本发明提出一种基于概率模型的短文本相似度计算方法和装置。
本发明致力解决小样本条件下短文本相似度计算问题;相较于词嵌入模型,概率模型对样本数量以及质量要求不高,在实际生产实践中具有更好的实用性和适用性;相较于一般的概率模型,引入弱增量式设计降低概率模型的计算效复杂度,提高模型计算效率;相较于传统的向量空间模型,引入权重系数b用来控制文档长度对文本相似度的影响;引入权重系数k1控制调制不同词频对文本相似度的影响,提高了短文本相似度的准确度。
附图说明
图1为本发明的流程图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步的说明。
本发明公开一种基于概率模型的短文本相似度计算方法,如图1所示,为其流程图,包括以下步骤:
S01)、输入模组获取训练数据集或者测试样本,生成规范化文本;
本实施例中,训练数据集不限定来源,来源包括磁盘文档,结构化以及非结构化数据库、网页、论坛等。不同来源的数据在输入模块进行标准化处理,同时进行语句拓展增强训练集的泛化能力,输出规范化文本。
标准化处理是指将不同来源不同格式(Word、TXT、PDF等)的数据处理成统一的格式。
S02)、自然语言处理模组对规范化文本进行整理分析,完成业务的结构化、切片化以及多维度定义,生成结构化文本;
本实施中,通过词法分析完成自然语言文本的分词和词性标记,得到自然语言文本的词语集,保留文本的全部信息。基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG);采用动态规划查找最大概率路径,找出基于词频的最大切分组合;对于未登录的词采用基于汉字成词能力的HMM模型,使用Viterbi算法找出最有可能组合。
分词后过滤高频无意义词汇,例如“的”,“我”,“吗”以及标点符号等,保留具体实体信息词汇和疑问词汇,然后基于分词得到的词语列表进行词语拓展和归一化。利用句法分析技术,例如有限图分析法、短语结构分析、完全语法、局部语法以及依存分析等得到关键信息之间的语法关系,如依存关系、修饰关系等等,抽取自然语言文本中关键信息;最终完成自然语言的结构化切片处理,获得结构化文本信息。
S03)、概率计算模组对结构化文本进行训练和预测,训练过程完成训练集词语映射文档,以及每个词语对每个文档的权重计算,预测过程是当用户输入查询语句时计算与其余训练集每个问题的相关性得分。
基于概率模型的训练过程为:S31)、根据结构化文本,依次经过删除重复项、合并同义词等过程构建训练词语集合WordList;
S32)、采用IDF算法遍历计算WordList中每个词语wordi(1≤i≤n)对问题的贡献度即权重,得到词语对文档权重集合WordIDF,计算公式为:N为训练集合中的问题总数,ni为问题中包含了wordi的问题总数,0.5是调教系数,避免ni=0的情况,log函数是为了让IDF的值受N和ni的影响更加平滑;
S33)、遍历训练集合文档列表DocList,计算每个文档相对长度,首先计算每个文档的平均长度Avgl,然后计算文档平均长度与所有文档平均长度的比值,即文档的相对长度Ratl,得到文档相对长度集合DocLength。文档相对长度用于矫正其对短文本相似度的影响,其中代表文档di的总长度,代表文档di句子的个数,N为训练集文档总数,具体计算公式为:
S34)、基于BM25算法计算词语wordi和文档dj的相关性得分,相关性公式为b、k1、k2为调节因子,可根据经验设置;fi为词语wordi在文档dj中的出现频率;为文档dj的相对长度;qfi为词语wordi在查询文档中出现的频率,由于绝大部分情况下,wordi在查询中只会出现一次,即qfi=1,因此BM25计算公式可以简化为:然后遍历WordList和DocList得到每个词语与每个文档的相关度集合WordDocCoef;
S35)、概率计算模组输出结构化训练结果到初始化模组,包括b、k1、k2初始值、词语对文档权重集合WordIDF、文档相对长度集合DocLength以及每个词语与每个文档的相关度集合WordDocCoef。
本实施例中,基于概率模型对用户查询进行预测的过程为:每当用户输入一个查询,自然语言处理模组对用户查询语句进行结构化处理生成词语列表wordi(1≤i≤n),得到训练集中所有问题与每个wordi相关性得分后权重求和,从而得到查询问句与训练集中每个问题的相关性得分,公式为:其中wordi为查询问句Q的词语,n为查询问句中词语的个数;
S04)、初始化模组管理结构化训练数据,一方面在进行预测分析初始阶段输出结构化训练数据到概率计算模组并完成初始化,另一方面可在初始化模组根据短文本相似度结果更新b、k1、k2初始值,优化概率模型;
当概率模型的训练集发生变化时,根据具体情况决定进行重新训练还是弱增量式训练;如果新增数据为训练集同领域知识并且更新的比率小于10%时或者删除数据比率小于10%,此时只针对新增或删除的知识进行训练,并将训练结果和原有训练结构进行合并,反之进行重新训练;当新增知识为其他领域知识或者日常方法问答时必须要进行性重新训练。
S05)、相似度分析模组对概率计算模组输出的相似度列表进行分析,提供提供短文本相似度排序、统计分析功能,同时分析相似度分布为概率模型优化提供指导建议。
步骤S05中,优化概率模型具体流程如下,人工建立重新收集测试样本或者根据训练样本集合衍生测试样本,批量测试得到相似度列表后统计分析提出优化建议,参数b用于调整文档长度对相关性的影响,如果输入样本和训练样本的长度整体差异大于设定阈值,那么相似度会降低,此时降低b的初始值;k1用来控制公式对词项频率敏感程度即衡量高频词语所在文档和低频词语所在文档的相关性差异,如果应用场景下词语频次并不重要,k1减小,反之k1增大。
本发明通过概率模型解决小样本条件下短文本相似度计算问题,缓解或消除文档、词语不同长度对相似度带来的影响,同时采用最大抑制机制解决高词频问题,针对概率模型计算量偏大的问题提出弱增量式训练机制,减少训练的重复计算过程,降低训练计算复杂度,提高样本更新时训练效率。
以上描述的仅是本发明的基本原理和优选实施例,本领域技术人员根据本发明做出的改进和替换,属于本发明的保护范围。

Claims (7)

1.一种基于概率模型的短文本相似度计算方法,其特征在于:包括以下步骤:S01)、输入模组获取训练数据集或者测试样本,生成规范化文本;S02)、自然语言处理模组对规范化文本进行整理分析,完成业务的结构化、切片化以及多维度定义,生成结构化文本;S03)、概率计算模组对结构化文本进行训练和预测,训练过程完成训练集词语映射文档,以及每个词语对每个文档的权重计算,预测过程是当用户输入查询语句时计算与其余训练集每个问题的相关性得分,基于概率模型的训练过程为:S31)、根据结构化文本构建训练词语集合WordList;S32)、遍历计算WordList中每个词语wordi(1≤i≤n)对问题的权重,得到词语对文档权重集合WordIDF,S33)、遍历训练集合文档列表DocList,计算每个文档相对长度,首先计算每个文档的平均长度Avgl,然后计算文档平均长度与所有文档平均长度的比值,即文档的相对长度Ratl,得到文档相对长度集合DocLength,其中 代表文档di的总长度,代表文档di句子的个数,N为训练集文档总数;S34)、基于BM25算法计算词语wordi和文档dj的相关性得分,相关性公式为b、k1、k2为调节因子,fi为词语wordi在文档dj中的出现频率;为文档dj的相对长度;qfi为词语wordi在查询文档中出现的频率,遍历WordList和DocList得到每个词语与每个文档的相关度集合WordDocCoef;S35)、输出结构化训练结果到初始化模组,包括b、k1、k2初始值、词语对文档权重集合WordIDF、文档相对长度集合DocLength以及每个词语与每个文档的相关度集合WordDocCoef;基于概率模型对用户查询进行预测的过程为:自然语言处理模组对用户查询语句进行结构化处理生成词语列表wordi(1≤i≤n),得到训练集中所有问题与每个wordi相关性得分后权重求和,从而得到查询问句与训练集中每个问题的相关性得分,公式为:其中wordi为查询问句Q的词语,n为查询问句中词语的个数;S04)、初始化模组管理结构化训练数据,一方面在进行预测分析初始阶段输出结构化训练数据到概率计算模组并完成初始化,另一方面可根据短文本相似度结果在初始化模组更新b、k1、k2的初始值,优化概率模型;S05)、相似度分析模组对概率计算模组输出的相似度列表进行分析,为概率模型优化提供建议。
2.根据权利要求1所述的基于概率模型的短文本相似度计算方法,其特征在于:步骤S32中,采用IDF算法计算WordList中每个词语wordi(1≤i≤n)对问题的权重,计算公式为:N为训练集合中的问题总数,ni为问题中包含了wordi的问题总数,0.5是调和系数,log函数是为了让IDF的值受N和ni的影响更加平滑。
3.根据权利要求1所述的基于概率模型的短文本相似度计算方法,其特征在于:当概率模型的训练集发生变化时,根据具体情况决定进行重新训练还是弱增量式训练;如果新增数据为训练集同领域知识并且更新的比率小于10%时或者删除数据比率小于10%,此时只针对新增或删除的知识进行训练,并将训练结果和原有训练结构进行合并,反之进行重新训练;当新增知识为其他领域知识或者日常方法问答时必须要进行性重新训练。
4.根据权利要求1所述的基于概率模型的短文本相似度计算方法,其特征在于:步骤S05中,概率模型优化的具体流程为:人工建立重新收集测试样本或者根据训练样本集合衍生测试样本,批量测试得到相似度列表后统计分析提出优化建议,参数b用于调整文档长度对相关性的影响,如果输入样本和训练样本的长度整体差异大于设定阈值,降低b的初始值;k1用来控制公式对词项频率敏感程度即衡量高频词语所在文档和低频词语所在文档的相关性差异,如果应用场景下词语频次并不重要,k1减小,反之k1增大。
5.根据权利要求1所述的基于概率模型的短文本相似度计算方法,其特征在于:步骤S31中,根据结构化文本,依次经过删除重复项、合并同义词的过程构建训练词语集合WordList。
6.根据权利要求1所述的基于概率模型的短文本相似度计算方法,其特征在于:步骤S02中,通过词法分析完成自然语言文本的分词和词性标记,得到自然语言文本的词语集;基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图;采用动态规划查找最大概率路径,找出基于词频的最大切分组合;对于未登录的词采用基于汉字成词能力的HMM模型,使用Viterbi算法找出最有可能组合;分词后过滤高频无意义词汇,保留具体实体信息词汇和疑问词汇,然后基于分词得到的词语列表进行词语拓展和归一化,利用句法分析技术得到关键信息之间的语法关系,抽取自然语言文本中关键信息,最终完成自然语言的结构化切片处理,获得结构化文本信息。
7.根据权利要求1所述的基于概率模型的短文本相似度计算方法,其特征在于:训练数据集的来源包括磁盘文档、结构化以及非结构化数据库、网页、论坛,不同来源的数据在输入模块进行标准化处理,形成统一格式,同时进行语句拓展增强训练数据集的泛化能力。
CN201910094429.4A 2019-01-30 2019-01-30 一种基于概率模型的短文本相似度计算方法 Active CN109858028B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910094429.4A CN109858028B (zh) 2019-01-30 2019-01-30 一种基于概率模型的短文本相似度计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910094429.4A CN109858028B (zh) 2019-01-30 2019-01-30 一种基于概率模型的短文本相似度计算方法

Publications (2)

Publication Number Publication Date
CN109858028A true CN109858028A (zh) 2019-06-07
CN109858028B CN109858028B (zh) 2022-11-18

Family

ID=66896994

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910094429.4A Active CN109858028B (zh) 2019-01-30 2019-01-30 一种基于概率模型的短文本相似度计算方法

Country Status (1)

Country Link
CN (1) CN109858028B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110347796A (zh) * 2019-07-05 2019-10-18 神思电子技术股份有限公司 向量语义张量空间下的短文本相似度计算方法
CN110688849A (zh) * 2019-09-03 2020-01-14 平安科技(深圳)有限公司 渐进式阅读方法、装置、设备及可读存储介质
CN110705248A (zh) * 2019-10-09 2020-01-17 厦门今立方科技有限公司 一种文本相似度计算方法、终端设备及存储介质
CN110941704A (zh) * 2019-12-13 2020-03-31 上海德拓信息技术股份有限公司 一种文本内容相似度分析的方法
CN111353301A (zh) * 2020-02-24 2020-06-30 成都网安科技发展有限公司 辅助定密方法及装置
CN111428472A (zh) * 2020-03-13 2020-07-17 浙江华坤道威数据科技有限公司 一种基于自然语言处理及图像算法的文章自动生成系统和方法
CN111539213A (zh) * 2020-04-17 2020-08-14 华侨大学 一种多源管理条款的语义互斥的智能检测方法
CN111813930A (zh) * 2020-06-15 2020-10-23 语联网(武汉)信息技术有限公司 相似文档检索方法及装置
CN112650836A (zh) * 2020-12-28 2021-04-13 成都网安科技发展有限公司 基于句法结构元素语义的文本分析方法、装置及计算终端
CN113051619A (zh) * 2021-04-30 2021-06-29 河南科技大学 一种基于k-匿名的中药处方数据隐私保护方法
CN115203506A (zh) * 2022-06-27 2022-10-18 海南电网有限责任公司信息通信分公司 一种基于多模态校验算法档案归档相似度计算方法
CN115293114A (zh) * 2022-10-08 2022-11-04 成都西南财大交子金融科技创新研究院有限公司 一种基于目标期刊智能格式修订方法及装置
CN115357605A (zh) * 2022-10-19 2022-11-18 湖南创亚信息科技有限公司 一种客户信息检索方法、装置、电子设备及存储介质
CN111177373B (zh) * 2019-12-12 2023-07-14 北京明略软件系统有限公司 一种获取训练数据的方法和装置、模型训练方法和装置
CN116957362A (zh) * 2023-09-18 2023-10-27 国网江西省电力有限公司经济技术研究院 一种区域综合能源系统的多目标规划方法及系统
CN117371439A (zh) * 2023-12-04 2024-01-09 环球数科集团有限公司 一种基于aigc的相似词判断方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020169595A1 (en) * 2001-03-30 2002-11-14 Yevgeny Agichtein Method for retrieving answers from an information retrieval system
CN104765769A (zh) * 2015-03-06 2015-07-08 大连理工大学 一种基于词矢量的短文本查询扩展及检索方法
EP3144825A1 (en) * 2015-09-16 2017-03-22 Valossa Labs Oy Enhanced digital media indexing and retrieval
CN106844647A (zh) * 2017-01-22 2017-06-13 南方科技大学 一种搜索关键词获取的方法及装置
CN108710611A (zh) * 2018-05-17 2018-10-26 南京大学 一种基于词网络和词向量的短文本主题模型生成方法
CN109241277A (zh) * 2018-07-18 2019-01-18 北京航天云路有限公司 基于新闻关键词的文本向量加权的方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020169595A1 (en) * 2001-03-30 2002-11-14 Yevgeny Agichtein Method for retrieving answers from an information retrieval system
CN104765769A (zh) * 2015-03-06 2015-07-08 大连理工大学 一种基于词矢量的短文本查询扩展及检索方法
EP3144825A1 (en) * 2015-09-16 2017-03-22 Valossa Labs Oy Enhanced digital media indexing and retrieval
CN106844647A (zh) * 2017-01-22 2017-06-13 南方科技大学 一种搜索关键词获取的方法及装置
CN108710611A (zh) * 2018-05-17 2018-10-26 南京大学 一种基于词网络和词向量的短文本主题模型生成方法
CN109241277A (zh) * 2018-07-18 2019-01-18 北京航天云路有限公司 基于新闻关键词的文本向量加权的方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
刘茂福 等: "问答系统中基于维基百科的问题扩展技术研究", 《工业控制计算机》 *
吴桃宇: "基于Word2vec+BM25的信息检索技术研究", 《ELECTRONICS WORLD》 *
赵沛时 等: "基于交通知识的移动智能问答系统", 《电子测试》 *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110347796A (zh) * 2019-07-05 2019-10-18 神思电子技术股份有限公司 向量语义张量空间下的短文本相似度计算方法
CN110688849A (zh) * 2019-09-03 2020-01-14 平安科技(深圳)有限公司 渐进式阅读方法、装置、设备及可读存储介质
CN110688849B (zh) * 2019-09-03 2023-09-15 平安科技(深圳)有限公司 渐进式阅读方法、装置、设备及可读存储介质
CN110705248A (zh) * 2019-10-09 2020-01-17 厦门今立方科技有限公司 一种文本相似度计算方法、终端设备及存储介质
CN111177373B (zh) * 2019-12-12 2023-07-14 北京明略软件系统有限公司 一种获取训练数据的方法和装置、模型训练方法和装置
CN110941704A (zh) * 2019-12-13 2020-03-31 上海德拓信息技术股份有限公司 一种文本内容相似度分析的方法
CN110941704B (zh) * 2019-12-13 2023-11-03 上海德拓信息技术股份有限公司 一种文本内容相似度分析的方法
CN111353301A (zh) * 2020-02-24 2020-06-30 成都网安科技发展有限公司 辅助定密方法及装置
CN111428472A (zh) * 2020-03-13 2020-07-17 浙江华坤道威数据科技有限公司 一种基于自然语言处理及图像算法的文章自动生成系统和方法
CN111539213B (zh) * 2020-04-17 2022-07-01 华侨大学 一种多源管理条款的语义互斥的智能检测方法
CN111539213A (zh) * 2020-04-17 2020-08-14 华侨大学 一种多源管理条款的语义互斥的智能检测方法
CN111813930A (zh) * 2020-06-15 2020-10-23 语联网(武汉)信息技术有限公司 相似文档检索方法及装置
CN111813930B (zh) * 2020-06-15 2024-02-20 语联网(武汉)信息技术有限公司 相似文档检索方法及装置
CN112650836A (zh) * 2020-12-28 2021-04-13 成都网安科技发展有限公司 基于句法结构元素语义的文本分析方法、装置及计算终端
CN113051619A (zh) * 2021-04-30 2021-06-29 河南科技大学 一种基于k-匿名的中药处方数据隐私保护方法
CN115203506A (zh) * 2022-06-27 2022-10-18 海南电网有限责任公司信息通信分公司 一种基于多模态校验算法档案归档相似度计算方法
CN115293114A (zh) * 2022-10-08 2022-11-04 成都西南财大交子金融科技创新研究院有限公司 一种基于目标期刊智能格式修订方法及装置
CN115357605B (zh) * 2022-10-19 2023-02-10 湖南创亚信息科技有限公司 一种客户信息检索方法、装置、电子设备及存储介质
CN115357605A (zh) * 2022-10-19 2022-11-18 湖南创亚信息科技有限公司 一种客户信息检索方法、装置、电子设备及存储介质
CN116957362A (zh) * 2023-09-18 2023-10-27 国网江西省电力有限公司经济技术研究院 一种区域综合能源系统的多目标规划方法及系统
CN117371439A (zh) * 2023-12-04 2024-01-09 环球数科集团有限公司 一种基于aigc的相似词判断方法
CN117371439B (zh) * 2023-12-04 2024-03-08 环球数科集团有限公司 一种基于aigc的相似词判断方法

Also Published As

Publication number Publication date
CN109858028B (zh) 2022-11-18

Similar Documents

Publication Publication Date Title
CN109858028A (zh) 一种基于概率模型的短文本相似度计算方法
Neelakantan et al. Efficient non-parametric estimation of multiple embeddings per word in vector space
Quan et al. An efficient framework for sentence similarity modeling
CN110929030A (zh) 一种文本摘要和情感分类联合训练方法
CN110413768B (zh) 一种文章题目自动生成方法
Suleiman et al. The use of hidden Markov model in natural ARABIC language processing: a survey
CN110347796A (zh) 向量语义张量空间下的短文本相似度计算方法
Reiplinger et al. Extracting glossary sentences from scholarly articles: A comparative evaluation of pattern bootstrapping and deep analysis
CN114254653A (zh) 一种科技项目文本语义抽取与表示分析方法
Rahimi et al. An overview on extractive text summarization
CN114065758A (zh) 一种基于超图随机游走的文档关键词抽取方法
CN111984782A (zh) 藏文文本摘要生成方法和系统
Zhang et al. Exploring deep recurrent convolution neural networks for subjectivity classification
CN114997288A (zh) 一种设计资源关联方法
CN108959630A (zh) 一种面向英文无结构文本的人物属性抽取方法
Castillo et al. Author attribution using a graph based representation
CN103336803A (zh) 一种嵌名春联的计算机生成方法
Lin et al. Text classification feature extraction method based on deep learning for unbalanced data sets
CN114265936A (zh) 一种科技项目文本挖掘的实现方法
Tao et al. The Text modeling method of Tibetan text combining Word2vec and improved TF-IDF
Kyjánek et al. Constructing a lexical resource of Russian derivational morphology
Dong et al. Knowledge graph construction of high-performance computing learning platform
Sarkar et al. Feature Engineering for Text Representation
Xie et al. Personalized query recommendation using semantic factor model
Jebbor et al. Overview of knowledge extraction techniques in five question-answering systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant