CN107220233B - 一种基于高斯混合模型的用户知识需求模型构建方法 - Google Patents

一种基于高斯混合模型的用户知识需求模型构建方法 Download PDF

Info

Publication number
CN107220233B
CN107220233B CN201710321921.1A CN201710321921A CN107220233B CN 107220233 B CN107220233 B CN 107220233B CN 201710321921 A CN201710321921 A CN 201710321921A CN 107220233 B CN107220233 B CN 107220233B
Authority
CN
China
Prior art keywords
functional
knowledge
user
probability
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710321921.1A
Other languages
English (en)
Other versions
CN107220233A (zh
Inventor
郝佳
杨念
王国新
阎艳
杨剑雄
余俊
贾良跃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN201710321921.1A priority Critical patent/CN107220233B/zh
Publication of CN107220233A publication Critical patent/CN107220233A/zh
Application granted granted Critical
Publication of CN107220233B publication Critical patent/CN107220233B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明首次利用高斯混合模型来构建用户知识需求的模型,本发明首先基于知识库训练word2vec的skip‑gram模型,考虑功能词汇的语义信息,生成功能词汇的高维向量,然后利用选取的知识语料集训练高斯混合模型,运用多个高斯分布描述用户对于功能词汇的知识需求概率分布,运用EM方法优化高斯混合模型的参数;最后建立词汇与条目之间的映射关系,获取用户对于知识条目的需求模型,以此为基础计算知识库中用户最有可能感兴趣的知识条目并将其推送给用户;本发明构建的高斯混合模型能更贴切的拟合用户知识需求模型,并提升知识推送准确率。

Description

一种基于高斯混合模型的用户知识需求模型构建方法
技术领域
本发明属于知识服务领域,尤其涉及一种基于高斯混合模型的用户知识需求模型构建方法。
背景技术
随着近几年计算机运算能力的大幅提升和网络急速扩张,无论是在开放的互联网还是以企业为范围的局域网内,知识资源已十分丰富。随着知识的不断增加,设计人员花费在知识管理系统中的知识查找时间越来越长,甚至很难查到符合要求的知识,这不利于设计知识的共享和重用,也阻碍了设计人员设计效率和设计水平的提高。知识主动推送的方式符合大多数设计企业的现状,可以有效针对人员需求,实现知识的传递和推送服务,有效解决知识使用中的知识泛滥、知识迷航等问题,在企业内部和外部达到知识的共享和再创造。另一方面,主动推送的方式通过加快知识获取速度、提高知识获取准确率,加快企业内知识的有效传播,为效率和质量的提高乃至企业市场竞争力的提升打下良好基础。目前,知识推送系统在电子商务领域已经得到了广泛的应用,但其在产品设计领域的发展仍未成熟。描述用户的知识需求模型是发展面向知识推送系统的关键技术。然而,现有的模型构建技术主要利用关键词及其权重构建用户的知识需求模型,不能体现出知识内容的语义信息,本文提出一种基于功能词汇语义的高斯混合模型用户知识需求模型构建方法,以提高对用户知识需求兴趣拟合的准确度。
发明内容
为解决上述问题,本发明提供一种基于高斯混合模型的用户知识需求模型构建方法,本发明基于功能词汇的语义信息,能够快速准确的获取用户知识需求分布,并为面向的知识推送系统的发展奠定基础。
一种基于高斯混合模型的用户知识需求模型构建方法,包括以下步骤:
步骤1:在已有知识库中提取功能词汇,并生成功能词汇集;
步骤2:将功能词汇集中的各个功能词汇转化为向量,具体方法为:
基于知识库训练word2vec的skip-gram模型,并根据该模型生成功能词汇的向量,其中一个功能词汇对应一个向量,且向量间接体现功能词汇的语义信息,功能词汇对应的向量的相似度随着功能词汇语义信息的相似度增加而增大;
步骤3:针对用户浏览过的知识条目,统计所有知识条目中的功能词汇的词频,然后根据词频计算各个功能词汇对应的TF-IDF权重;根据功能词汇的TF-IDF权重对功能词汇进行排序,选取M个TF-IDF权重最大的功能词汇,其中功能词汇为向量的表示形式,M为设定的数目;
步骤4:基于步骤3选取出的M个功能词汇,利用EM算法求解高斯混合模型参数,得到描述功能词汇分布的高斯混合模型;
步骤5:向步骤4获得的高斯混合模型输入知识库中除步骤3中M个以外的功能词汇的向量,得到用户选择功能词汇的概率,然后根据该概率计算用户对知识库中所有知识条目的需求概率,最终得到用户对于知识条目的知识需求模型;
步骤6:将步骤5中需求概率最高的设定数目的H个知识条目推送给用户并生成知识条目集,其中H为设定的数目;基于用户浏览的知识条目,实时更新用户浏览过的知识条目集并更新步骤3中M个TF-IDF权重最大的功能词汇,然后基于更新过的M个TF-IDF权重最大的功能词汇,通过步骤4和步骤5重新计算用户对于知识条目的知识需求模型。
一种基于高斯混合模型的用户知识需求模型构建方法,步骤1所述功能词汇集的生成方法具体包括以下步骤:
步骤11:采用中文分词系统,结合领域词典对知识库进行分词;
步骤12:根据停用词表,对分词过后的知识库中的无用的停用词进行过滤;
步骤13:词性标注,保留过滤掉无用的停用词后的知识库中的功能词汇,舍弃非功能词汇,得到语料集;
步骤14:词频统计,统计语料集中所有功能词汇出现的频率;
步骤15:去除高频率低区分度的功能词汇;
步骤16:整理功能词汇,形成功能词汇集。
一种基于高斯混合模型的用户知识需求模型构建方法,步骤1所述功能词汇集的生成方法为:直接选取专家已经整理完成的功能词汇。
一种基于高斯混合模型的用户知识需求模型构建方法,步骤4所述的利用EM算法求解高斯混合模型参数具体步骤为:
步骤41:初始化高斯混合模型参数,其中高斯混合模型具体为:
Figure BDA0001290042520000031
其中,xt表示功能词汇对应的向量,t=1,2,...,M,G(xt)是用户选择功能词汇对应的向量xt的概率,αk是第k个高斯分布的权重,μkk分别是第k个高斯分布的均值和方差,N(xtkk)为向量xt符合均值μk和方差σk的正态分布,K至少为3,高斯分布的3个参数初始值分别设定为
Figure BDA0001290042520000032
步骤42:采用EM算法优化高斯混合模型的参数,具体的:
E步:将高斯分布的3个初始参数
Figure BDA0001290042520000041
以及
Figure BDA0001290042520000042
代入公式(2),分别作为αk、μk以及σk的初始值,计算向量xt由第k个高斯分布生成的概率
Figure BDA0001290042520000043
Figure BDA0001290042520000044
其中,αj是第j个高斯分布的权重,μjj分别是第j个高斯分布的均值和方差;
M步:基于E步计算出的概率
Figure BDA0001290042520000045
运用最大似然法估计高斯混合模型的参数αk、μk以及σk
Figure BDA0001290042520000046
Figure BDA0001290042520000047
Figure BDA0001290042520000048
步骤43:将M步计算的结果αk、μk以及σk代入公式(1),计算向量的概率G(xt),并判断概率G(xt)与前一迭代结果的差值是否大于设定值ε,其中:
如果用户选择任意向量的概率G(xt)与前一迭代结果的差值不大于设定值ε,则停止迭代,且αk、μk以及σk为最终的高斯混合模型参数;
如果用户选择任意向量的概率G(xt)与前一迭代结果的差值大于设定值ε,则将M步的计算结果αk、μk以及σk取代初始参数
Figure BDA0001290042520000049
以及
Figure BDA00012900425200000410
再次代入公式(2),重新计算向量xt由第k个高斯分布生成的概率
Figure BDA00012900425200000411
再根据新计算的概率
Figure BDA00012900425200000412
代入M步的公式(3)、公式(4)以及公式(5),将得到的新的高斯分布的参数
Figure BDA0001290042520000051
以及
Figure BDA0001290042520000052
代入公式(1),计算向量的概率G(xt)*,并判断概率G(xt)与前一迭代结果的差值是否大于设定值ε;以此类推,直到用户选择任意向量的概率与前一迭代结果的差值不大于设定值ε,则停止迭代,得到最终的高斯混合模型参数。
一种基于高斯混合模型的用户知识需求模型构建方法,步骤5所述的计算用户选择知识条目的概率具体步骤如下:
知识条目di包含的功能词汇对应的向量为xm,其中i=1,2,...,q,m=1,2,...,p,每个功能词汇在知识条目di中出现的词频为tfi1,tfi2,...tfim...,tfip,对词频进行归一化处理之后,得到每个功能词汇在知识条目di中出现的的频率为wi1,wi2,...wim...,wip,其中归一化计算公式为:
Figure BDA0001290042520000053
则用户选择知识条目di的概率G(di)为:
Figure BDA0001290042520000054
其中公式(7)为用户对于知识条目的知识需求模型。
有益效果:
本发明首次利用高斯混合模型来构建用户知识需求的模型,本发明首先基于知识库训练word2vec的skip-gram模型,考虑功能词汇的语义信息,生成功能词汇的高维向量,然后利用选取的知识语料集训练高斯混合模型,运用多个高斯分布描述用户对于功能词汇的知识需求概率分布,运用EM方法优化高斯混合模型的参数;最后建立词汇与条目之间的映射关系,获取用户对于知识条目的需求模型,以此为基础计算知识库中用户最有可能感兴趣的知识条目并将其推送给用户;现有技术主要以知识条目评分等外部属性或者知识条目关键词及其权重为基础构建用户需求模型,而本发明充分考虑功能词汇的语义信息,构建词汇的高维向量表示式,并以此为基础利用高斯混合模型拟合用户对功能词汇和知识条目的需求,本发明构建的高斯混合模型能更贴切的拟合用户知识需求模型,并提升知识推送准确率。
附图说明
图1为本发明基于高斯混合模型的用户知识需求模型预测方法示意图;
图2为本发明具体实施方式中知识需求模型参数求解流程;
图3为本发明具体实施方式中功能词汇与知识条目映射关系示意图。
具体实施方式
下面结合附图并举实施例,对本发明进行详细叙述。
本发明提出了一种基于高斯混合模型的用户知识需求模型的构建方法,示意图如图1所示。
本发明构建的需求模型主要考虑用户对功能词汇和知识条目的需求。本发明可以实现:1)已知用户浏览的知识条目推理出用户对于功能词汇的知识需求。由用户浏览过的知识条目提取出代表用户知识需求的功能词汇,并训练用户对于功能词汇的用户知识需求模型。功能词汇的表示为向量形式,反应了词汇的语义信息。2)已知用户对于功能词汇的知识需求模型推理基于知识条目的知识需求模型,其具体关系如图3所示。
利用高斯混合模型表示用户对于功能词汇的知识需求,具体包括以下步骤:步骤1:对已有的知识库进行功能词汇提取,生成功能词汇集。所述功能词汇集的生成方法包括两种。
第一种所述功能词汇集的生成方法:利用自然语言处理技术处理知识库提取功能词汇,具体包括以下步骤:
步骤1.1:采用中文分词系统,结合领域词典对知识库进行分词;
步骤1.2:根据停用词表,对分词过后的知识库中的无用的停用词进行过滤;
步骤1.3:词性标注,保留过滤掉无用的停用词后的知识库中的动词词汇,即功能词汇,舍弃非动词词汇,即非功能词汇;
步骤1.4:词频统计,统计语料集中所有功能词汇出现的频率;
步骤1.5:去除高频率低区分度的功能词汇;
步骤1.6:整理功能词汇,形成功能词汇集。
第二种功能词汇集的生成方法:直接选取专家整理出的功能词汇/特征词汇作为功能词汇集。
步骤2:将功能词汇转化为维数至少为100的高维向量形式;具体步骤为:
基于知识库训练word2vec的skip-gram模型,并根据该模型生成功能词汇的高维向量,其中一个功能词汇对应一个高维向量,高维向量间接体现功能词汇的语义信息,且功能词汇对应的高维向量的相似度随着功能词汇语义信息的相似度增加而增大;
步骤3:针对用户浏览过的知识条目,统计所有知识条目中的功能词汇的词频,然后根据词频计算各个功能词汇对应的TF-IDF权重;根据功能词汇的TF-IDF权重对功能词汇进行排序,选取M个TF-IDF权重最大的功能词汇,其中功能词汇为高维向量的表示形式,其中M至少为1;具体步骤包括:
步骤31:统计所有知识条目中出现的功能词汇词频,如表1所示:
表1
x<sub>1</sub> x<sub>2</sub> x<sub>t</sub> x<sub>M</sub>
d<sub>1</sub> tf<sub>11</sub> tf<sub>12</sub> tf<sub>1t</sub> tf<sub>1M</sub>
d<sub>2</sub> tf<sub>21</sub> tf<sub>22</sub> tf<sub>2t</sub> tf<sub>2M</sub>
d<sub>i</sub> tf<sub>i1</sub> tf<sub>i2</sub> tf<sub>it</sub> tf<sub>iM</sub>
d<sub>q</sub> tf<sub>q1</sub> tf<sub>q2</sub> tf<sub>qt</sub> tf<sub>qM</sub>
其中,tfit为词频,即知识条目di中词语xt出现的次数;
步骤32:基于统计的词频,计算所有词语对应的TF-IDF权重,计算公式为:
Figure BDA0001290042520000081
其中:
q:所有知识条目的总数;
df(xt):知识条目频率,即包含词汇xt的知识条目总数;
tfidf(xt):词语xt的tf-idf权重;
步骤33:根据TF-IDF权重大小对所有的功能词汇进行排序,选取前M个TF-IDF权重较大的功能词汇。
步骤4:将统计出的M个功能词汇作为用户最感兴趣的词汇,即用户选取此M个功能词汇的概率最大。基于M个功能词汇的高维向量表示式,基于统计出的M个功能词汇的高维向量集,利用EM算法求解高斯混合模型参数,构建用户对于功能词汇的知识需求模型,得到描述功能词汇分布的高斯混合模型;流程如图2所示,具体步骤如下:
步骤41:高斯混合模型参数初始化。
使用高斯混合模型描述功能词汇的分布,其中高斯混合模型表示为:
Figure BDA0001290042520000091
其中,其中,xt表示功能词汇对应的高维向量,t=1,2,...,M,G(xt)是用户选择功能词汇对应的高维向量xt的概率,αk是第k个高斯分布的权重,μkk分别是第k个高斯分布的均值和方差,N(xtkk)为高维向量xt符合均值μk和方差σk的正态分布,K至少为3,初始化高斯分布的参数
Figure BDA0001290042520000092
共3K个变量;
步骤42:根据高斯分布的初始化参数
Figure BDA0001290042520000093
采用EM算法优化求出高斯混合模型的参数,具体的:
E步:将高斯分布的3个初始参数
Figure BDA0001290042520000094
以及
Figure BDA0001290042520000095
代入公式(2),分别作为αk、μk以及σk的初始值,由公式(2)计算高维向量xt由第k个高斯分布生成的概率
Figure BDA0001290042520000096
Figure BDA0001290042520000097
其中,αj是第j个高斯分布的权重,μjj分别是第j个高斯分布的均值和方差;
M步:基于计算出的
Figure BDA0001290042520000098
运用最大似然法估计高斯混合模型的参数:
Figure BDA0001290042520000099
Figure BDA00012900425200000910
Figure BDA0001290042520000101
步骤43:将M步计算的结果αk、μk以及σk代入公式(1),计算高维向量的概率G(xt),并判断概率G(xt)与前一迭代结果的差值是否大于设定值ε,其中:
如果用户选择任意高维向量的概率G(xt)与前一迭代结果的差值不大于设定值ε,则停止迭代,且αk、μk以及σk为最终的高斯混合模型参数;
如果用户选择任意高维向量的概率G(xt)与前一迭代结果的差值大于设定值ε,则将M步的计算结果αk、μk以及σk取代初始参数
Figure BDA0001290042520000102
以及
Figure BDA0001290042520000103
再次代入公式(2),重新计算高维向量xt由第k个高斯分布生成的概率
Figure BDA0001290042520000104
再根据新计算的概率
Figure BDA0001290042520000105
代入M步的公式(3)、公式(4)以及公式(5),将得到新的高斯分布的参数
Figure BDA0001290042520000106
以及
Figure BDA0001290042520000107
代入公式(1),计算高维向量的概率G(xt)*,并判断概率G(xt)与前一迭代结果的差值是否大于设定值ε;以此类推,直到用户选择任意向量的概率与前一迭代结果的差值不大于设定值ε,则停止迭代,得到最终的高斯混合模型参数。
将参数带入公式(1),用户对于功能词汇的知识需求模型构建完成,输入知识库中其他功能词汇的高维向量表示式,输出为用户选择相应功能词汇的概率。
步骤5:向高斯混合模型输入知识库中其他功能词汇的高维向量表示式,得到用户选择的该功能词汇的概率;基于功能词汇知识需求模型和用户选择的相应功能词汇的概率,计算用户对知识库中所有知识条目的需求概率,构建基于知识条目的用户知识需求模型,图3为二者映射关系示意图。具体计算方法为:条目di包含功能词汇为xm(此处为高维向量形式),其中i=1,2,...,q,m=1,2,...,p,每个功能词汇在条目di中出现的词频为tfi1,tfi2,...tfim...,tfip(如表1),归一化处理之后得到每个功能词汇的频率为wi1,wi2,...wim...,wip,其中归一化计算公式为:
Figure BDA0001290042520000111
得到每个知识条目包含功能词汇的频率,如表2所示.
表2
x<sub>1</sub> x<sub>2</sub> x<sub>m</sub> x<sub>p</sub>
d<sub>1</sub> w<sub>11</sub> w<sub>12</sub> w<sub>1m</sub> w<sub>1p</sub>
d<sub>2</sub> w<sub>21</sub> w<sub>22</sub> w<sub>2m</sub> w<sub>2p</sub>
d<sub>i</sub> w<sub>i1</sub> w<sub>i2</sub> w<sub>im</sub> w<sub>ip</sub>
d<sub>q</sub> w<sub>q1</sub> w<sub>q2</sub> w<sub>qm</sub> w<sub>qp</sub>
每个功能词汇的频率衡量了词对条目的重要程度,即权重。因此用户选择条目di的概率为:
Figure BDA0001290042520000112
即为用户对于知识条目的知识需求模型。其中G(xm)为用户选择功能词汇xm的概率,wim为知识条目di中功能词汇xm出现的频率;
步骤6:计算用户对知识库中所有条目的需求概率,将需求概率高的H个条目推送给用户,其中H至少为1;随着用户行为的累积,基于用户浏览的条目,实时更新用户浏览过的知识条目集并更新步骤3中M个TF-IDF权重最大的功能词汇,并基于更新过的M词汇重新计算用户对于功能词汇以及知识条目的知识需求模型。
当然,本发明还可有其他多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims (3)

1.一种基于高斯混合模型的用户知识需求模型构建方法,其特征在于,包括以下步骤:
步骤1:在已有知识库中提取功能词汇,并生成功能词汇集;
步骤2:将功能词汇集中的各个功能词汇转化为向量,具体方法为:
基于知识库训练word2vec的skip-gram模型,并根据该模型生成功能词汇的向量,其中一个功能词汇对应一个向量,且向量间接体现功能词汇的语义信息,功能词汇对应的向量的相似度随着功能词汇语义信息的相似度增加而增大;
步骤3:针对用户浏览过的知识条目,统计所有知识条目中的功能词汇的词频,然后根据词频计算各个功能词汇对应的TF-IDF权重;根据功能词汇的TF-IDF权重对功能词汇进行排序,选取M个TF-IDF权重最大的功能词汇,其中功能词汇为向量的表示形式,M为设定的数目;
步骤4:基于步骤3选取出的M个功能词汇,利用EM算法求解高斯混合模型参数,得到描述功能词汇分布的高斯混合模型;具体步骤为:
步骤41:初始化高斯混合模型参数,其中高斯混合模型具体为:
Figure FDA0002348430430000011
其中,xt表示功能词汇对应的向量,t=1,2,...,M,G(xt)是用户选择功能词汇对应的向量xt的概率,αk是第k个高斯分布的权重,μkk分别是第k个高斯分布的均值和方差,N(xtkk)为向量xt符合均值μk和方差σk的正态分布,K至少为3,高斯分布的3个参数初始值分别设定为
Figure FDA0002348430430000012
步骤42:采用EM算法优化高斯混合模型的参数,具体的:
E步:将高斯分布的3个初始参数
Figure FDA0002348430430000013
以及
Figure FDA0002348430430000014
代入公式(2),分别作为αk、μk以及σk的初始值,计算向量xt由第k个高斯分布生成的概率
Figure FDA00023484304300000212
Figure FDA0002348430430000021
其中,αj是第j个高斯分布的权重,μjj分别是第j个高斯分布的均值和方差;
M步:基于E步计算出的概率
Figure FDA0002348430430000022
运用最大似然法估计高斯混合模型的参数αk、μk以及σk
Figure FDA0002348430430000023
Figure FDA0002348430430000024
Figure FDA0002348430430000025
步骤43:将M步计算的结果αk、μk以及σk代入公式(1),计算向量的概率G(xt),并判断概率G(xt)与前一迭代结果的差值是否大于设定值ε,其中:
如果用户选择任意向量的概率G(xt)与前一迭代结果的差值不大于设定值ε,则停止迭代,且αk、μk以及σk为最终的高斯混合模型参数;
如果用户选择任意向量的概率G(xt)与前一迭代结果的差值大于设定值ε,则将M步的计算结果αk、μk以及σk取代初始参数
Figure FDA0002348430430000026
以及
Figure FDA0002348430430000027
再次代入公式(2),重新计算向量xt由第k个高斯分布生成的概率
Figure FDA0002348430430000028
再根据新计算的概率
Figure FDA0002348430430000029
代入M步的公式(3)、公式(4)以及公式(5),将得到的新的高斯分布的参数
Figure FDA00023484304300000210
以及
Figure FDA00023484304300000211
代入公式(1),计算向量的概率G(xt)*,并判断概率G(xt)与前一迭代结果的差值是否大于设定值ε;以此类推,直到用户选择任意向量的概率与前一迭代结果的差值不大于设定值ε,则停止迭代,得到最终的高斯混合模型参数;
步骤5:向步骤4获得的高斯混合模型输入知识库中除步骤3中M个以外的功能词汇的向量,得到用户选择功能词汇的概率,然后根据该概率计算用户对知识库中所有知识条目的需求概率,最终得到用户对于知识条目的知识需求模型;
所述的计算用户对知识库中所有知识条目的需求概率具体步骤如下:
知识条目di包含的功能词汇对应的向量为xm,其中i=1,2,...,q,m=1,2,...,p,每个功能词汇在知识条目di中出现的词频为tfi1,tfi2,…tfim…,tfip,对词频进行归一化处理之后,得到每个功能词汇在知识条目di中出现的的频率为wi1,wi2,…wim…,wip,其中归一化计算公式为:
Figure FDA0002348430430000031
则用户选择知识条目di的概率G(di)为:
Figure FDA0002348430430000032
其中公式(7)为用户对于知识条目的知识需求模型,G(xm)为用户选择功能词汇xm的概率;
步骤6:将步骤5中需求概率最高的设定数目的H个知识条目推送给用户并生成知识条目集,其中H为设定的数目;基于用户浏览的知识条目,实时更新用户浏览过的知识条目集并更新步骤3中M个TF-IDF权重最大的功能词汇,然后基于更新过的M个TF-IDF权重最大的功能词汇,通过步骤4和步骤5重新计算用户对于知识条目的知识需求模型。
2.如权利要求1所述的一种基于高斯混合模型的用户知识需求模型构建方法,其特征在于,步骤1所述功能词汇集的生成方法具体包括以下步骤:
步骤11:采用中文分词系统,结合领域词典对知识库进行分词;
步骤12:根据停用词表,对分词过后的知识库中的无用的停用词进行过滤;
步骤13:词性标注,保留过滤掉无用的停用词后的知识库中的功能词汇,舍弃非功能词汇,得到语料集;
步骤14:词频统计,统计语料集中所有功能词汇出现的频率;
步骤15:去除高频率低区分度的功能词汇;
步骤16:整理功能词汇,形成功能词汇集。
3.如权利要求1所述的一种基于高斯混合模型的用户知识需求模型构建方法,其特征在于,步骤1所述功能词汇集的生成方法为:直接选取专家已经整理完成的功能词汇。
CN201710321921.1A 2017-05-09 2017-05-09 一种基于高斯混合模型的用户知识需求模型构建方法 Active CN107220233B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710321921.1A CN107220233B (zh) 2017-05-09 2017-05-09 一种基于高斯混合模型的用户知识需求模型构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710321921.1A CN107220233B (zh) 2017-05-09 2017-05-09 一种基于高斯混合模型的用户知识需求模型构建方法

Publications (2)

Publication Number Publication Date
CN107220233A CN107220233A (zh) 2017-09-29
CN107220233B true CN107220233B (zh) 2020-06-16

Family

ID=59943942

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710321921.1A Active CN107220233B (zh) 2017-05-09 2017-05-09 一种基于高斯混合模型的用户知识需求模型构建方法

Country Status (1)

Country Link
CN (1) CN107220233B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108062391A (zh) * 2017-12-15 2018-05-22 上海速邦信息科技有限公司 一种itsm平台中知识推送管理系统
CN108875810B (zh) * 2018-06-01 2020-04-28 阿里巴巴集团控股有限公司 针对训练语料从词频表中进行负例采样的方法及装置
CN113032415B (zh) * 2021-03-03 2024-04-19 西北工业大学 一种基于用户偏好与知识图谱的个性化产品描述生成方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102053971A (zh) * 2009-10-30 2011-05-11 日电(中国)有限公司 用于面向排序的协同过滤的推荐方法和设备
CN102799623A (zh) * 2012-06-21 2012-11-28 杜小勇 信息推送方法
CN103186527A (zh) * 2011-12-27 2013-07-03 北京百度网讯科技有限公司 建立音乐分类模型的系统、推荐音乐的系统及相应方法
US8880439B2 (en) * 2012-02-27 2014-11-04 Xerox Corporation Robust Bayesian matrix factorization and recommender systems using same
CN105183909B (zh) * 2015-10-09 2017-04-12 福州大学 基于高斯混合模型的社交网络用户兴趣预测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102053971A (zh) * 2009-10-30 2011-05-11 日电(中国)有限公司 用于面向排序的协同过滤的推荐方法和设备
CN103186527A (zh) * 2011-12-27 2013-07-03 北京百度网讯科技有限公司 建立音乐分类模型的系统、推荐音乐的系统及相应方法
US8880439B2 (en) * 2012-02-27 2014-11-04 Xerox Corporation Robust Bayesian matrix factorization and recommender systems using same
CN102799623A (zh) * 2012-06-21 2012-11-28 杜小勇 信息推送方法
CN105183909B (zh) * 2015-10-09 2017-04-12 福州大学 基于高斯混合模型的社交网络用户兴趣预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
复杂产品设计知识的语义自动标注方法;陈思等;《计算机集成制造系统》;20140131;全文 *

Also Published As

Publication number Publication date
CN107220233A (zh) 2017-09-29

Similar Documents

Publication Publication Date Title
CN105678324B (zh) 基于相似度计算的问答知识库的建立方法、装置及系统
TWI512502B (zh) 用於產生習慣語言模式之方法及系統及相關之電腦程式產品
Chang et al. Structured learning with constrained conditional models
US11941527B2 (en) Population based training of neural networks
US8719192B2 (en) Transfer of learning for query classification
Fioretto et al. Differential privacy and fairness in decisions and learning tasks: A survey
CN104077417B (zh) 社交网络中的人物标签推荐方法和系统
CN107220233B (zh) 一种基于高斯混合模型的用户知识需求模型构建方法
CN112650933B (zh) 一种基于高阶聚合的图卷积融合多头注意力机制的会话推荐方法
CN110633464A (zh) 一种语义识别方法、装置、介质及电子设备
CN110580281A (zh) 一种基于语义相似度的相似案件匹配方法
CN112163405A (zh) 问题的生成方法和装置
CN109344238A (zh) 用户问句的补词方法和装置
CN112070416A (zh) 基于ai的rpa流程的生成方法、装置、设备及介质
Wang PoissonMat: Remodeling Matrix Factorization using Poisson Distribution and Solving the Cold Start Problem without Input Data
Downey et al. Efficient methods for inferring large sparse topic hierarchies
CN114896392A (zh) 工单数据的聚类方法、装置、电子设备及存储介质
CN111309911B (zh) 面向司法领域的案件话题发现方法
CN110457707B (zh) 实词关键词的提取方法、装置、电子设备及可读存储介质
JP6586026B2 (ja) 単語ベクトル学習装置、自然言語処理装置、方法、及びプログラム
JP5184464B2 (ja) 単語クラスタリング装置及び方法及びプログラム及びプログラムを格納した記録媒体
Sina et al. Solving the missing node problem using structure and attribute information
CN110347824B (zh) 一种基于词汇相似性的lda主题模型最优主题数确定方法
CN111078886B (zh) 基于dmcnn的特殊事件提取系统
CN108733824B (zh) 考虑专家知识的交互式主题建模方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant