CN111611380B - 语义搜索方法、系统及计算机可读存储介质 - Google Patents

语义搜索方法、系统及计算机可读存储介质 Download PDF

Info

Publication number
CN111611380B
CN111611380B CN202010423626.9A CN202010423626A CN111611380B CN 111611380 B CN111611380 B CN 111611380B CN 202010423626 A CN202010423626 A CN 202010423626A CN 111611380 B CN111611380 B CN 111611380B
Authority
CN
China
Prior art keywords
topic
item
searched
theme
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010423626.9A
Other languages
English (en)
Other versions
CN111611380A (zh
Inventor
杜军平
寇菲菲
崔婉秋
周南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202010423626.9A priority Critical patent/CN111611380B/zh
Publication of CN111611380A publication Critical patent/CN111611380A/zh
Application granted granted Critical
Publication of CN111611380B publication Critical patent/CN111611380B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种语义搜索方法、系统及计算机可读存储介质,该方法包括:通过求解预构建社交网络多特征主题模型得到用户‑主题分布、主题‑单词分布、主题‑话题标签分布、主题‑时间分布;获取待搜索项文本、用户信息、发表时间及话题标签,由待搜索项用户信息和相应分布得到主题矩阵,由该矩阵、文本及相应分布、话题标签及相应分布、发表时间及相应分布分别得到主题‑单词矩阵,主题‑话题标签矩阵,主题‑时间矩阵,通过各特征矩阵计算主题语义;获取搜索项文本,文本和主题‑单词矩阵得到主题语义;由待搜索项和搜索项的主题语义计算相似度;相似度满足设定条件,输出待搜索项。通过上述方案能获得综合、准确的语义表示,实现精准语义搜索。

Description

语义搜索方法、系统及计算机可读存储介质
技术领域
本发明涉及社交网络短文本语义建模技术领域,尤其涉及一种语义搜索方法、系统及计算机可读存储介质。
背景技术
如今社交网络平台发展迅速,通过社交网络进行搜索已经成为一种趋势。社交网络数据中的文本非常简洁,因此,文本具有语义稀疏性还会因为不同的时间和位置信息具有歧义性,利用传统的语义分析方法,往往不能获取到准确的语义。
为了准确的获取社交网络短文本的语义表示,实现精准的语义搜索,主要方法可以分为两类,一类是使用单词共现频率或单词的语义相似性来将短文本扩展成长文本,在短文本扩展的过程中会引入与短文本无关的单词,应用于搜索任务时,搜索准确度并不能有好的提升。另一类方法是建立综合主题模型,通过用时间或者地理位置信息中的语义对短文本的语义生成过程进行约束,从而获得短文本语义表示,但是语义稀疏性仍存在,并且,在实际的社交网络数据中,地理位置信息很难获取,同时,地理位置信息的真实性存在很大问题。
因而,通过使用现有的搜索方法在对短文本语义进行搜索时,仍然存在短文本语义稀疏性,以及获取的搜索结果不够准确等问题。
发明内容
鉴于此,本发明实施例提供了一种语义搜索方法、系统及计算机可读存储介质,以缓解语义稀疏性,提高语义搜索的精确性。
本发明的技术方案如下:
根据本发明实施例的一个方面,提供了一种语义搜索方法,包括以下步骤:
基于预先构建的双词词典,在设定主题个数下,求解预先构建的社交网络多特征主题模型,得到用户-主题分布、主题-单词分布、主题-话题标签分布、及主题-时间分布;其中,所述社交网络多特征主题模型包括用户-主题分布模型、主题-单词分布模型、主题-话题标签分布模型、及主题-时间分布模型;
获取待搜索项对应的文本信息、用户信息、文本发表时间信息、及话题标签信息,并根据所述待搜索项对应的用户信息和所述用户-主题分布得到所述待搜索项对应的主题矩阵,根据所述待搜索项对应的主题矩阵、所述待搜索项对应的文本信息、及所述主题-单词分布得到所述待搜索项对应的主题-单词矩阵,根据所述待搜索项对应的主题矩阵、所述待搜索项对应的话题标签信息、及所述主题-话题标签分布得到所述待搜索项对应的主题-话题标签矩阵,根据所述待搜索项对应的主题矩阵、所述待搜索项对应的文本发表时间信息、及所述主题-时间分布得到所述待搜索项对应的主题-时间矩阵,并根据所述待搜索项对应的主题矩阵、主题-单词矩阵、主题-话题标签矩阵、及主题-时间矩阵,计算得到所述待搜索项对应的主题语义表示向量;
获取搜索项对应的文本信息,根据所述搜索项对应的文本信息和所述主题-单词矩阵得到所述搜索项对应的主题语义表示向量;
根据所述待搜索项对应的主题语义表示向量和所述搜索项对应的主题语义表示向量,计算所述待搜索项和所述搜索项之间的相似度;
在所述待搜索项和所述搜索项之间的相似度满足设定条件的情况下,将所述待搜索项作为所述搜索项的搜索结果进行输出。
在一些实施例中,所述用户-主题分布模型符合包含第一超参数的狄利克雷分布,所述主题-单词分布模型符合包含第二超参数的狄利克雷分布,所述主题-话题标签分布模型符合包含第三超参数的狄利克雷分布,所述主题-时间分布模型符合贝塔分布。
在一些实施例中,基于预先构建的双词词典,在设定主题个数下,求解预先构建的社交网络多特征主题模型,得到用户-主题分布、主题-单词分布、主题-话题标签分布、及主题-时间分布,包括:
基于预先构建的双词词典,在设定主题个数、设定的所述第一超参数的值、设定的所述第二超参数的值、及设定的所述第三超参数的值下,利用吉布斯采样算法对预先构建的社交网络多特征主题模型进行参数推断,得到用户-主题分布、主题-单词分布、主题-话题标签分布、及主题-时间分布。
在一些实施例中,根据所述待搜索项对应的用户信息和所述用户-主题分布得到所述待搜索项对应的主题矩阵,包括:
将所述待搜索项对应的用户信息输入至所述用户-主题分布,得到所述待搜索项对应的所述设定主题个数的主题,并由所述设定主题个数的主题构成主题矩阵;
根据所述待搜索项对应的主题矩阵、所述待搜索项对应的文本信息、及所述主题-单词分布得到所述待搜索项对应的主题-单词矩阵,包括:
针对所述待搜索项对应的主题矩阵中的每个主题,将所述待搜索项对应的文本信息中的各单词的信息,分别输入至所述主题-单词分布,得到所述待搜索项对应的主题矩阵中的每个主题对应的词分别为所述待搜索项对应的文本信息中的各单词的概率,构成所述待搜索项对应的主题-单词矩阵;
根据所述待搜索项对应的主题矩阵、所述待搜索项对应的话题标签信息、及所述主题-话题标签分布得到所述待搜索项对应的主题-话题标签矩阵,包括:
针对所述待搜索项对应的主题矩阵中的每个主题,将所述待搜索项对应的各话题标签信息分别输入至所述主题-话题标签分布,得到所述待搜索项对应的主题矩阵中的每个主题对应的话题标签分别为所述待搜索项对应的各话题标签的概率,构成所述待搜索项对应的主题-话题标签矩阵;
根据所述待搜索项对应的主题矩阵和所述主题-时间分布得到所述待搜索项对应的主题-时间矩阵,包括:
将所述待搜索项对应的主题矩阵中的每个主题的信息,输入至所述主题-时间分布,得到设定数量时间戳对应的概率,构成主题-时间矩阵。
在一些实施例中,根据所述待搜索项对应的主题矩阵、主题-单词矩阵、主题-话题标签矩阵、及主题-时间矩阵,计算得到所述待搜索项对应的主题语义表示向量,包括:
分别对所述主题-单词矩阵、所述主题-话题标签矩阵、及所述主题-时间矩阵中同一主题的元素求和,分别得到第一主题向量、第二主题向量、及第三主题向量;计算第一主题向量和第二主题向量的和与所述主题矩阵的乘积,得到第四主题向量;计算所述第四主题向量和所述第三主题向量的和,得到所述待搜索项的主题语义表示向量;
根据所述搜索项对应的文本信息和所述主题-单词矩阵得到所述搜索项对应的主题语义表示向量,包括:
对所述搜索项的文本信息中的文本进行单词划分,根据所述主题-单词分布得到对应于所述单词划分结果的主题-单词矩阵,对该主题-单词矩阵中的同一主题维度的元素求和,得到所述搜索项的主题语义表示向量。
在一些实施例中,根据所述待搜索项对应的主题语义表示向量和所述搜索项对应的主题语义表示向量,计算所述待搜索项和所述搜索项之间的相似度,包括:
利用余弦距离法,根据所述待搜索项对应的主题语义表示向量和所述搜索项对应的主题语义表示向量,计算所述待搜索项和所述搜索项之间的相似度。
在所述待搜索项和所述搜索项之间的相似度满足设定条件的情况下,将所述待搜索项作为所述搜索项的搜索结果进行输出,包括:
根据所有待搜索项各自与所述搜索项的相似度,对所述所有待搜索项从大到小进行排序,将排序后的所有待搜索项中至少部分排序靠前的待搜索项作为所述搜索项的搜索结果进行输出。
在一些实施例中,所述社交网络多特征主题模型对应的主题采样公式为:
Figure BDA0002497873440000041
其中,
Figure BDA00024978734400000410
表示在不包含双词i的主题集合
Figure BDA00024978734400000411
用户集合U、双词词典集合B、话题标签集合H、时间集合T的条件下双词i对应的主题为k的概率,K表示主题个数,
Figure BDA00024978734400000412
表示不包含双词i的情况下,主题的个数,U表示用户个数,B表示双词词典大小,H表示话题标签总数,T表示时间范围,
Figure BDA00024978734400000413
表示不包含双词i,
Figure BDA0002497873440000042
表示主题k不包括双词i的情况下,主题k出现在用户u的概率,
Figure BDA0002497873440000043
表示主题k出现在用户u的次数,
Figure BDA0002497873440000044
表示主题k不包括双词i的情况下,主题k中的单词i1被给主题k的概率,
Figure BDA0002497873440000045
表示主题k不包括双词i的情况下,主题k中的单词i2被给主题k的概率,
Figure BDA0002497873440000046
表示主题k不包括双词i的情况下,主题k中的单词被给主题k的概率,W表示双词词典的单词总数,w表示单词的序号,
Figure BDA0002497873440000047
表示话题标签h被分配给主题k的次数,h表示话题标签的序号,p表示变量,
Figure BDA0002497873440000048
表示短文本m的话题标签h出现的次数,
Figure BDA0002497873440000049
表示短文本m中存在的话题标签的个数,q表示话题标签的序号,ti表示双词i对应的时间,ψk1表示主题k的Beta分布的第一参数,ψk2表示主题k的Beta分布的第二参数,α表示第一超参数,β表示第二超参数、σ表示第三超参数;
所述用户-主题分布模型对应的估计参数公式为:
Figure BDA0002497873440000051
其中,θu,k表示主题k被赋值给用户u的概率,
Figure BDA0002497873440000052
表示主题k出现在用户u中的次数,K表示主题的总数,α表示第一超参数。
主题-单词分布模型对应的估计参数公式为:
Figure BDA0002497873440000053
其中,φk,w表示单词w生成于主题k的概率,
Figure BDA0002497873440000054
表示单词被给主题k的概率,W表示单词总数,β表示第二超参数。
主题-时间分布模型对应的估计参数公式为:
Figure BDA0002497873440000055
其中,ψk1表示主题k的Beta分布的第一参数,ψk2表示主题k的Beta分布的第二参数,
Figure BDA0002497873440000056
表示主题k的时间均值,rk 2表示主题k关于时间的方差,
所述主题-话题标签分布模型对应的估计参数公式为:
Figure BDA0002497873440000057
其中,sk,h表示话题标签h生成于主题k的概率,
Figure BDA0002497873440000058
表示话题标签h被分配给主题k的概率,H表示话题标签的总数,σ表示第三超参数。
在一些实施例中,基于预先构建的双词词典,在设定主题个数下,求解预先构建的社交网络多特征主题模型,得到用户-主题分布、主题-单词分布、主题-话题标签分布、及主题-时间分布,包括:
对同一用户的所有文本信息进行处理得到单词,根据用户信息将单词进行两两组合构成双词,将双词构成双词词典;其中,所述双词词典中的每个双词包括所述双词对应的用户信息、所述双词对应的文本发表时间信息,以及所述双词对应的话题标签信息。
根据本发明实施例的另一个方面,提供了一种语义搜索系统,用于实现上述任一实施例所述方法的步骤。
根据本发明实施例的另一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一实施例所述方法的步骤。
本发明实施例的一种语义搜索方法、系统及计算机可读存储介质,通过引入双词话题模型,建模双词共享同一个主题,生成稠密的语义空间,来缓解语义稀疏性。同时,利用社交媒体数据的多种特征提出多特征主题模型,通过建模社交网络多种特征生成高质量的语义表示并将文本特征,时间特征和话题标签特征映射到相同的主题语义空间中,综合的准确的语义表示,根据该语义表示,可以实现精准的语义搜索,提高搜索准确率。
本发明的附加优点、目的,以及特征将在下面的描述中将部分地加以阐述,且将对于本领域普通技术人员在研究下文后部分地变得明显,或者可以根据本发明的实践而获知。本发明的目的和其它优点可以通过在书面说明及其权利要求书以及附图中具体指出的结构实现到并获得。
本领域技术人员将会理解的是,能够用本发明实现的目的和优点不限于以上具体所述,并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的限定。附图中的部件不是成比例绘制的,而只是为了示出本发明的原理。为了便于示出和描述本发明的一些部分,附图中对应部分可能被放大,即,相对于依据本发明实际制造的示例性装置中的其它部件可能变得更大。在附图中:
图1是本发明一实施例的语义搜索方法的流程示意图;
图2是本发明一具体实施例的语义搜索方法的流程示意图;
图3是本发明一实施例的社交网络多特征主题模型示意图;
图4是本发明一实施例的社交网络多特征主题模型图中的符号描述。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施方式和附图,对本发明做进一步详细说明。在此,本发明的示意性实施方式及其说明用于解释本发明,但并不作为对本发明的限定。
在此,还需要说明的是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
图1是本发明一实施例的语义搜索方法的流程示意图,如图1所示,该实施例的弹性光网络中的资源分配方法可包括以下步骤S110至步骤S150。
下面将对步骤S110至步骤S150的具体实施方式进行详细说明。
步骤S110:基于预先构建的双词词典,在设定主题个数下,求解预先构建的社交网络多特征主题模型,得到用户-主题分布、主题-单词分布、主题-话题标签分布、及主题-时间分布;其中,所述社交网络多特征主题模型包括用户-主题分布模型、主题-单词分布模型、主题-话题标签分布模型、及主题-时间分布模型。
在一些实施例中,对同一用户的所有文本信息进行处理得到单词,根据用户信息将单词进行两两组合构成双词,将双词构成双词词典;其中,双词词典中的每个双词包括所述双词对应的用户信息、所述双词对应的文本发表时间信息,以及所述双词对应的话题标签信息。
具体地,获取双词词典可以通过对同一用户的所有文本信息进行分词处理得到所有单词,基于已存在的停用词词典去除所述所有单词内的停用词,去除出现次数低于设定次数的词汇,获得处理后的单词;基于用户信息将所述处理后的单词进行两两组合构成双词,将所述双词、所述双词对应的用户信息、所述双词对应的文本发表时间信息,以及所述双词对应的话题标签信息构成双词词典。通过采用同一用户的用户信息对短文本进行聚合,增加了信息的准确性以及可以用于对文本的主题生成过程产生约束。
其中,双词词典可以包含双词对应的用户信息、对应的话题标签信息以及词汇对应的文本的发布时间,以用于对需要进行搜索的内容进行快速查找,并且以提高搜索内容的准确性。
同时,现有技术可以使用地理位置信息对处于同一地理位置的所有的社交网络文本数据进行聚合。然而,社交网络中具有详细地理位置信息的数据很少,并且很多用户并没有填写真实的注册地点,因而,无法获取用户的注册地点作为地理位置信息。相比之下,通过使用用户信息对文本数据进行聚合的方式,获取用户信息的方式简单、便捷,并且信息具有真实性,同时,用户信息是每个用户必备的信息数据。
并且,在对文本进行预处理的过程中,可以去除标点、英文、停用词。在处理时不仅可以选择去除低频词汇,还可以选择去除高频词汇等数据清洗方式,进一步获得处理后的所有单词,通过将这些单词排序构成单词词典。其中,停用词表示在信息检索中,为节省存储空间和提高搜索效率,在处理文本之前或之后会自动过滤掉一些字或词,这些字或词被称为停用词。这些停用词都是人工输入、非自动化生成的,生成后的停用词会形成一个停用词表,包括语气助词、副词、介词、连接词等,通常自身无明确意义,只有将其放入一个完整的句子中才有一定作用,如常见的“的”、“在”等词汇。
在步骤S110中,设定主题个数的数量如果过多,则会增加操作过程中的时间,同时增加整个过程的繁琐性;反之,若是主题个数选择过少,则会对预先构建的社交网络多特征主题模型的训练结果的准确率降低,最终,作为搜索模型使用时,使其搜索结果的准确性下降。因而,主题个数可以根据经验进行设置。其中,基于设定的主题个数,对预先构建的社交网络多特征主题模型进行训练。社交网络多特征主题模型中可以包括用户-主题分布模型、主题-单词分布模型、主题-话题标签分布模型、及主题-时间分布模型。
在一些实施例中,所述用户-主题分布模型符合包含第一超参数的狄利克雷分布,所述主题-单词分布模型符合包含第二超参数的狄利克雷分布,所述主题-话题标签分布模型符合包含第三超参数的狄利克雷分布,所述主题-时间分布模型符合贝塔分布。其中,第一超参数、第二超参数、第三超参数均可以根据使用经验进行设置。
具体地,用户-主题分布模型还可以是符合包含第一超参数的多项式分布,主题-单词分布模型符合包含第二超参数的多项式分布,主题-话题标签分布模型符合包含第三超参数的多项式分布,主题-时间分布模型符合贝塔分布。各个模型还可以是其它分布函数的分布方式用于构成社交网络多特征主题模型。其中,第一超参数、第二超参数、第三超参数均可以根据使用经验进行设置。
在通过用户-主题分布模型、主题-单词分布模型、主题-话题标签分布模型、及主题-时间分布模型构建社交网络多特征主题模型后,对社交网络多特征主题模型进行训练。
在一些实施例中,基于预先构建的双词词典,在设定主题个数、设定的所述第一超参数的值、设定的所述第二超参数的值、及设定的所述第三超参数的值下,利用吉布斯采样算法对预先构建的社交网络多特征主题模型进行参数推断,得到用户-主题分布、主题-单词分布、主题-话题标签分布、及主题-时间分布。其中,设定的主题个数可以设置为10个、15个、20个主题等。
其中,对预先构建的社交网络多特征主题模型可以使用吉布斯采样算法、变分推断EM算法、Metropolis-Hastings算法等采样方法来对参数进行推断。
在步骤S110中,可以通过使用collapsed Gibbs sampling(吉布斯采样)算法对预先构建的社交网络多特征主题模型进行求解,以设定的迭代次数,迭代执行采样规则直到社交网络多特征主题模型达到稳定状态,而获得用户-主题分布、主题-单词分布、主题-话题标签分布、及主题-时间分布。其中,迭代次数可以根据经验进行设置。
在一些实施例中,所述社交网络多特征主题模型对应的主题采样公式为:
Figure BDA0002497873440000091
其中,
Figure BDA00024978734400000910
表示在不包含双词i的主题集合
Figure BDA00024978734400000911
用户集合U、双词词典集合B、话题标签集合H、时间集合T的条件下双词i对应的主题为k的概率,K表示主题个数,
Figure BDA00024978734400000912
表示不包含双词i的情况下,主题的个数,U表示用户个数,B表示双词词典大小,H表示话题标签总数,T表示时间范围,
Figure BDA00024978734400000913
表示不包含双词i,
Figure BDA0002497873440000092
表示主题k不包括双词i的情况下,主题k出现在用户u的概率,
Figure BDA0002497873440000093
表示主题k出现在用户u的次数,
Figure BDA0002497873440000094
表示主题k不包括双词i的情况下,主题k中的单词i1被给主题k的概率,
Figure BDA0002497873440000095
表示主题k不包括双词i的情况下,主题k中的单词i2被给主题k的概率,
Figure BDA0002497873440000096
表示主题k不包括双词i的情况下,主题k中的单词被给主题k的概率,W表示双词词典的单词总数,w表示单词的序号,
Figure BDA0002497873440000097
表示话题标签h被分配给主题k的次数,h表示话题标签的序号,p表示变量,
Figure BDA0002497873440000098
表示短文本m的话题标签h出现的次数,
Figure BDA0002497873440000099
表示短文本m中存在的话题标签的个数,q表示话题标签的序号,ti表示双词i对应的时间,ψk1表示主题k的Beta分布的第一参数,ψk2表示主题k的Beta分布的第二参数,α表示第一超参数,β表示第二超参数、σ表示第三超参数。
在一些实施例中,在社交网络多特征主题模型达到稳定状态的情况下,可以获得用户-主题分布模型、主题-单词分布模型、主题-话题标签分布模型、及主题-时间分布模型等多个分布模型分别对应的估计参数公式;例如,多个分布模型对应的估计参数公式如下:
用户-主题分布模型对应的估计参数公式为:
Figure BDA0002497873440000101
其中,θu,k表示主题k被赋值给用户u的概率,
Figure BDA0002497873440000102
表示主题k出现在用户u中的次数,K表示主题的总数,α表示第一超参数。
通过用户-主题分布模型可以获得主题在一个用户中出现的概率,在不断地更新主题的过程中,则可以得到不同的主题在这个用户中出现的概率,同时,在更换用户的过程中,得到这个主题在不同用户中出现的概率,进一步通过这些概率可以获得用户-主题矩阵,用户-主题矩阵可以表示关于不同的主题出现在不同的用户中的概率。用户-主题矩阵可以表示一个二维的矩阵,一个维度可以用于表示用户,另一个维度可以用于表示主题。
其中,还可以,在不断地更新主题的过程中,则可以得到不同的主题在这个用户中出现的概率,进一步通过这些概率可以获得用户-主题矩阵,用户-主题矩阵可以表示关于不同的主题出现在同一个用户中的概率。根据选定的主题,可以获得单词生成于主题的概率。
具体地,主题-单词分布模型对应的估计参数公式为:
Figure BDA0002497873440000103
其中,φk,w表示单词w生成于主题k的概率,
Figure BDA0002497873440000104
表示单词被给主题k的概率,W表示单词总数,β表示第二超参数。
在确定主题的情况下,将不同的单词输入主题-单词分布模型,可以获得每一个单词属于该主题的概率,同时,在更换主题的过程中,还可以进一步得到这个单词在每一主题中所占的概率,通过这些概率可以获得主题-单词矩阵,主题-单词矩阵可以表示关于不同的单词出现在不同的主题中的概率。主题-单词矩阵可以表示一个二维的矩阵,一个维度可以用于表示主题,另一个维度可以用于表示单词。
其中,还可以通过在不断地更新单词的过程中,可以得到不同的单词在这个主题中出现的概率,进一步通过这些概率可以获得题-单词矩阵,主题-单词矩阵可以表示关于不同的单词出现在同一个主题中的概率。
根据选定的主题,可以获得时间生成于主题的概率。主题-时间分布模型对应的估计参数公式为:
Figure BDA0002497873440000111
其中,ψk1表示主题k的Beta分布的第一参数,ψk2表示主题k的Beta分布的第二参数,并且,ψk1>0,ψk2>0;
Figure BDA0002497873440000112
表示主题k的时间均值,rk 2表示主题k关于时间的方差。
同样,在确定主题的情况下,将不同的文本发表时间输入主题-时间分布模型,可以获得每一个时间属于该主题的概率,并且,通过更换主题可以进一步得到时间在每一个主题中所占的概率,通过这些概率可以获得主题-时间矩阵,主题-时间矩阵可以表示关于不同的文本发表时间出现在不同的主题中的概率。主题-时间矩阵可以表示一个二维的矩阵,一个维度可以用于表示主题,另一个维度可以用于表示时间。
其中,还可以,通过在不断地更新文本发表时间的过程中,可以得到不同的文本发表时间在这个主题中出现的概率,进一步通过这些概率可以获得主题-时间矩阵,主题-时间矩阵可以表示关于不同的文本发表时间出现在同一个主题中的概率。并且根据主题还可以利用主题-话题标签分布模型的估计参数公式,获得话题标签生成与主题的概率。
主题-话题标签分布模型对应的估计参数公式为:
Figure BDA0002497873440000113
其中,sk,h表示话题标签h生成于主题k的概率,
Figure BDA0002497873440000114
表示话题标签h被分配给主题k的概率,H表示话题标签的总数,σ表示第三超参数。
在确定主题的情况下,将不同的话题标签输入主题-话题标签分布模型,可以获得每一个话题标签属于该主题的概率,同时,在更换主题的过程中,还可以进一步得到这个话题标签在每一主题中所占的概率,通过这些概率可以获得主题-话题标签矩阵,主题-话题标签矩阵可以表示关于不同的话题标签出现在不同的主题中的概率。主题-话题标签矩阵可以表示一个二维的矩阵,一个维度可以用于表示主题,另一个维度可以用于表示话题标签。
其中,还可以,通过不断地更新话题标签的过程中,可以得到不同的话题标签在这个主题中出现的概率,进一步通过这些概率可以获得主题-话题标签矩阵,主题-话题标签矩阵可以表示关于不同的话题标签出现在主题中的概率。根据选定的主题,可以获得话题标签生成于主题的概率。
步骤S120:获取待搜索项对应的文本信息、用户信息、文本发表时间信息、及话题标签信息,并根据所述待搜索项对应的用户信息和所述用户-主题分布得到所述待搜索项对应的主题矩阵,根据所述待搜索项对应的主题矩阵、所述待搜索项对应的文本信息、及所述主题-单词分布得到所述待搜索项对应的主题-单词矩阵,根据所述待搜索项对应的主题矩阵、所述待搜索项对应的话题标签信息、及所述主题-话题标签分布得到所述待搜索项对应的主题-话题标签矩阵,根据所述待搜索项对应的主题矩阵、所述待搜索项对应的文本发表时间信息、及所述主题-时间分布得到所述待搜索项对应的主题-时间矩阵,并根据所述待搜索项对应的主题矩阵、主题-单词矩阵、主题-话题标签矩阵、及主题-时间矩阵,计算得到所述待搜索项对应的主题语义表示向量。
在步骤S120中,待搜索项表示为每个用户发布的微博。将获取的待搜索项对应的文本信息、用户信息、文本发表时间信息、及话题标签信息进行处理。对用户信息进行编码以保护用户的隐私,并且降低使用过程的繁琐;对话题标签信息进行编码以免使用过程中遗漏标签内容,避免增加使用难度;将时间信息进行归一化处理,通过把每个时间信息表示为0到1之间的数字进行使用。
在一些实施例中,将所述待搜索项对应的用户信息输入至所述用户-主题分布,得到所述待搜索项对应的所述设定主题个数的主题,并由所述设定主题个数的主题构成主题矩阵。
其中,设定主题个数可以为10个、20个或30个主题等。主题的个数可以表示维度,例如设定的主题个数为10个,那么,10个主题可以表示为每个维度为一个主题,而可以获得相同主题数量的主题矩阵。
在一些实施例中,针对所述待搜索项对应的主题矩阵中的每个主题,将所述待搜索项对应的文本信息中的各单词的信息,分别输入至所述主题-单词分布,得到所述待搜索项对应的主题矩阵中的每个主题对应的词分别为所述待搜索项对应的文本信息中的各单词的概率,构成所述待搜索项对应的主题-单词矩阵。
在一些实施例中,针对所述待搜索项对应的主题矩阵中的每个主题,将所述待搜索项对应的各话题标签信息分别输入至所述主题-话题标签分布,得到所述待搜索项对应的主题矩阵中的每个主题对应的话题标签分别为所述待搜索项对应的各话题标签的概率,构成所述待搜索项对应的主题-话题标签矩阵。
在一些实施例中,将所述待搜索项对应的主题矩阵中的每个主题的信息,输入至所述主题-时间分布,得到设定数量时间戳对应的概率,构成主题-时间矩阵。
在一些实施例中,分别对所述主题-单词矩阵、及所述主题-话题标签矩阵、及所述主题-时间矩阵中同一主题的元素求和,分别得到第一主题向量、第二主题向量、及第三主题向量;计算第一主题向量和第二主题向量的和与所述主题矩阵的乘积,得到第四主题向量;计算所述第四主题向量和所述第三主题向量的和,得到所述待搜索项的主题语义表示向量。因此,待搜索项对应的主题语义表示向量公式为:
Figure BDA0002497873440000131
其中,
Figure BDA0002497873440000132
表示待搜索项R的主题语义表示;θu,k表示主题k被赋值给用户u的概率;WRi表示第i个待搜索项R中的单词个数,φk,w表示单词w生成于主题k的概率;HRi表示第i个待搜索项R中的话题标签个数,sk,h表示话题标签h生成于主题k的概率;ψk,t表示时间生成于主题k的概率。
并且,第一主题向量可以表示每一个待搜索项的单词集合中的所有单词的主题-单词矩阵之和,以表示在一具体主题中,该待搜索项中的所有单词的表示向量;第二主题向量可以表示每一个待搜索项中的所有话题标签的主题-话题标签矩阵之和,以表示在一具体主题中,该待搜索项中的所有话题标签的表示向量;第三主题向量可以表示每一个待搜索项的时间表示向量;第四向量可以表示在一具体主题中,该待搜索项的对应的文本表示向量。
将文本特征,时间戳特征和话题特征映射到相同的主题语义空间中获得语义表示,通过使用待搜索项对应的主题语义表示向量公式对每个用户发布的微博进行语义表示的计算。由于语义表示是一个多维向量,其中,每个维度表示一个主题,因而逐个计算在每个主题上待搜索项的取值,则可以得到整个搜索项的向量表示。
步骤S130:获取搜索项对应的文本信息,根据所述搜索项对应的文本信息和所述主题-单词矩阵得到所述搜索项对应的主题语义表示向量。
在一些实施例中,对所述搜索项的文本信息中的文本进行单词划分,根据所述主题-单词得到对应于所述单词划分结果的主题-单词矩阵,对该主题-单词矩阵中的同一主题维度的元素求和,得到所述搜索项的主题语义表示向量。搜索项表示用户在搜索栏输入的搜索语句,搜索项不仅可以是简短的语句,而且还可以是一个单词、多个单词等其他方式构成的信息,例如,搜索项Q由n个单词组成,可以表示为Q={w1,w2,...,wn}。
上述实施例中,搜索项对应的主题语义表示向量公式为:
Figure BDA0002497873440000141
其中,
Figure BDA0002497873440000142
表示搜索项Q的主题语义表示;φk,w表示单词w生成于主题k的概率。
通过搜索项对应的主题语义表示向量公式,可以获得一个主题上的表示,但是主题语义表示是一个多维向量,每个维度表示为一个主题,因此需要逐一计算每个主题上的语义,进而得到搜索项的整体语义表示。
步骤S140:根据所述待搜索项对应的主题语义表示向量和所述搜索项对应的主题语义表示向量,计算所述待搜索项和所述搜索项之间的相似度。
在步骤S140中,搜索项与待搜索项之间的相似度可以通过余弦距离法、欧式距离、汉明距离或曼哈顿距离等方式来获得搜索项与待搜索项之间的相似度。
在一些实施例中,利用余弦距离法,根据所述待搜索项对应的主题语义表示向量和所述搜索项对应的主题语义表示向量,计算所述待搜索项和所述搜索项之间的相似度。
其中,余弦距离法是通过计算两个向量之间的夹角余弦值来评估他们的相似度。对于搜索项与待搜索项之间的相似度是通过使用计算获得的搜索项与待搜索项的语义表示向量来对其之间的夹角余弦值进行计算,进而获得搜索项与待搜索项之间的相似度。通过计算获得搜索项与每一个待搜索项的相似度。
步骤S150:在所述待搜索项和所述搜索项之间的相似度满足设定条件的情况下,将所述待搜索项作为所述搜索项的搜索结果进行输出。
在一些实施例中,根据所有待搜索项各自与所述搜索项的相似度,对所述所有待搜索项从大到小进行排序,将排序后的所有待搜索项中至少部分排序靠前的待搜索项作为所述搜索项的搜索结果进行输出。
根据本发明实施例的另一个方面,提供了一种语义搜索系统,用于实现上述任一实施例所述方法的步骤。
根据本发明实施例的另一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一实施例所述方法的步骤。
为使本领域技术人员更好地了解本发明,下面将以具体实施例说明本发明的实施方式。
图2是本发明一具体实施例的语义搜索方法的流程示意图。如图2所示,在一具体实施例中,语义搜索方法,包括以下步骤:
步骤S1:采用用户信息对短文本进行了聚合,引入社交网络多特征主题模型。
在步骤S1中,通过采用双重措施解决短文本语义稀疏性,一方面采用用户信息对短文本进行了聚合,另一方面引入了社交网络多特征主题模型,在社交网络多特征主题模型中通过设定同一上下文中的两个单词共享同一主题分布,以增加语义空间密度。
在一些实施例中,通过对社交网络多特征主题模型生成过程及模型进行推理。图3是本发明一实施例的社交网络多特征主题模型图,图4是本发明一实施例的社交网络多特征主题模型图中的符号描述。如图3所示,有K个主题和U个社交网络用户,使用U×K矩阵Θ对每个用户的主题分布进行参数化描述,每个元素θuk代表主题k被赋值用户u的概率,获得用户-主题分布,因此
Figure BDA0002497873440000151
表示该用户的所有主题的分布概率和为1。采用θu表示矩阵的第u行,矩阵Φ被用来表示主题-词的多项分布,每个元素
Figure BDA0002497873440000152
表示词w生成于主题k的概率。矩阵S表示主题-话题标签多项分布。每个元素skh表示话题标签h生成于话题k的概率。通过使用函数Ψ表示主题-时间Beta分布,ψkt的值表示时间戳t生成于主题k的概率,Beta函数ψk表示主题k随时间的变化。
具体地,对每个社交网络用户u发布的消息,基于参数α采样其区域主题分布:θu~Dirichlet(α);对每个主题k,我们根据参数β采样主题-单词分布:
Figure BDA0002497873440000153
根据参数σ采样主题-话题标签分布:sk~Dirichlet(σ),并采样主题时间Beta分布ψk
其中,通过社交网络中的每条短消息m,可以获取其用户信息u,从而得到其用户-主题分布
Figure BDA0002497873440000154
然后从该用户-主题的多项分布
Figure BDA0002497873440000155
中选取一个主题:
Figure BDA0002497873440000156
对社交网络中的短消息内的每个双词bi,根据主题-单词多项分布选择两个单词:
Figure BDA0002497873440000157
根据时间Beta分布选择一个时间戳ti~ψk;对短消息内的每个话题标签
Figure BDA0002497873440000158
根据主题-话题标签多项分布选择一个主题hqm~Sk,其中,
Figure BDA0002497873440000159
表示第m个短消息中的第q个话题标签。
步骤S2:社交网络多特征主题模型建模了社交网络中的用户、文本、时间和话题标签信息,利用时间和话题标签中的语义信息,对文本的生成过程进行约束,进一步提高短文本的语义表示的准确性。
在步骤S2中,针对社交网络中的数据进行语义搜索时,首先对社交网络中的所有数据进行预处理,预处理的过程应该包括文本的预处理、用户预处理、话题标签预处理、时间预处理。
其中,文本的预处理是对文本要进行分词、去停用词、去高频词等数据清洗,然后把每条微博中同时出现的两个单词进行两两组合,提取双词;用户预处理是获取用户的id号,对用户进行编码;话题标签预处理是获取话题标签信息,对话题标签进行编码;时间预处理是获取时间戳信息,对时间进行归一化;归一化是将每个时间信息表示成0到1之间的数。
步骤S3:利用吉布斯采样的方对社交网络多特征主题模型进行参数推导,可以获得模型的采样公式,对模型进行迭代采样,可以获得社交网络多种特征的主题语义表示:用户-主题分布、主题-单词分布、主题-话题标签分布、主题时间分布。
在步骤S3中,将社交网络的多种特征处理后的数据发明提出的社交网络多特征主题模型的输入数据,将处理好的待搜索项的数据作为输入数据输入到提出的社交网络多特征主题模型中,对主题数、迭代次数、超参数根据经验进行设置,通过多次迭代地对主题模型进行采样,最终获得用户-主题分布、主题-单词分布、主题-话题标签分布、主题时间分布。
具体地,社交网络多特征主题模型中有一个潜在变量话题k和四个参数
Figure BDA0002497873440000161
可以通过使用collapsed Gibbs sampling算法(吉布斯采样算法)来对参数进行推断。对每个双词biterm的主题的采样公式如下:
Figure BDA0002497873440000162
其中,
Figure BDA0002497873440000167
表示在不包含双词i的主题集合
Figure BDA0002497873440000168
用户集合U、双词词典集合B、话题标签集合H、时间集合T的条件下双词i对应的主题为k的概率,K表示主题个数,
Figure BDA0002497873440000169
表示不包含双词i的情况下,主题的个数,U表示用户个数,B表示双词词典大小,H表示话题标签总数,T表示时间范围,
Figure BDA00024978734400001610
表示不包含双词i,
Figure BDA0002497873440000163
表示主题k不包括双词i的情况下,主题k出现在用户u的概率,
Figure BDA0002497873440000164
表示主题k出现在用户u的次数,
Figure BDA0002497873440000165
表示主题k不包括双词i的情况下,主题k中的单词i1被给主题k的概率,
Figure BDA0002497873440000166
表示主题k不包括双词i的情况下,主题k中的单词i2被给主题k的概率,
Figure BDA0002497873440000171
表示主题k不包括双词i的情况下,主题k中的单词被给主题k的概率,W表示双词词典的单词总数,w表示单词的序号,
Figure BDA0002497873440000172
表示话题标签h被分配给主题k的次数,h表示话题标签的序号,p表示变量,
Figure BDA0002497873440000173
表示短文本m的话题标签h出现的次数,
Figure BDA0002497873440000174
表示短文本m中存在的话题标签的个数,q表示话题标签的序号,ti表示双词i对应的时间,ψk1表示主题k的Beta分布的第一参数,ψk2表示主题k的Beta分布的第二参数,α表示第一超参数,β表示第二超参数、σ表示第三超参数。
其中,可以使用collapsed Gibbs sampling(吉布斯采样)算法对预先构建的社交网络多特征主题模型进行求解,以设定的迭代次数,迭代执行采样规则直到社交网络多特征主题模型达到稳定状态,而获得用户-主题分布、主题-单词分布、主题-话题标签分布、及主题-时间分布。并且,迭代次数可以根据经验进行设置。
在一些实施例中,在社交网络多特征主题模型达到稳定状态的情况下,可以获得用户-主题分布模型、主题-单词分布模型、主题-话题标签分布模型、及主题-时间分布模型等多个分布模型分别对应的估计参数公式;例如,多个分布模型对应的估计参数公式如下:
用户-主题分布模型对应的估计参数公式为:
Figure BDA0002497873440000175
其中,θu,k表示主题k被赋值给用户u的概率,
Figure BDA0002497873440000176
表示主题k出现在用户u中的次数,K表示主题的总数,α表示第一超参数。
具体地,主题-单词分布模型对应的估计参数公式为:
Figure BDA0002497873440000177
其中,φk,w表示单词w生成于主题k的概率,
Figure BDA0002497873440000178
表示单词被给主题k的概率,W表示单词总数,β表示第二超参数。
主题-时间分布模型对应的估计参数公式为:
Figure BDA0002497873440000179
其中,ψk1表示主题k的Beta分布的第一参数,ψk2表示主题k的Beta分布的第二参数,并且,ψk1>0,ψk2>0;
Figure BDA0002497873440000181
表示主题k的时间均值,rk 2表示主题k关于时间的方差。
主题-话题标签分布模型对应的估计参数公式为:
Figure BDA0002497873440000182
其中,sk,h表示话题标签h生成于主题k的概率,
Figure BDA0002497873440000183
表示话题标签h被分配给主题k的概率,H表示话题标签的总数,σ表示第三超参数。
步骤S4:根据社交网络的多特征主题模型获得的用户-主题分布、主题-单词分布、主题-话题标签分布、主题-时间分布可以计算得到搜索项对应的主题语义表示向量和待搜索项对应的主题语义表示向量,计算两个向量之间的余弦距离,则可以得到搜索项与待搜索项之间的相似度。
在步骤S4中,获取待搜索项对应的文本信息、用户信息、文本发表时间信息、及话题标签信息,并根据所述待搜索项对应的用户信息和所述用户-主题分布得到所述待搜索项对应的主题矩阵,根据所述待搜索项对应的主题矩阵、所述待搜索项对应的文本信息、及所述主题-单词分布得到所述待搜索项对应的主题-单词矩阵,根据所述待搜索项对应的主题矩阵、所述待搜索项对应的话题标签信息、及所述主题-话题标签分布得到所述待搜索项对应的主题-话题标签矩阵,根据所述待搜索项对应的主题矩阵、所述待搜索项对应的文本发表时间信息、及所述主题-时间分布得到所述待搜索项对应的主题-时间矩阵,并根据所述待搜索项对应的主题-单词矩阵、主题-话题标签矩阵、及主题-时间矩阵,计算得到所述待搜索项对应的主题语义表示向量。
将文本特征,时间戳特征和话题特征映射到相同的主题语义空间中获得语义表示,通过使用待搜索项对应的主题语义表示向量公式对每个用户发布的微博进行语义表示的计算。由于语义表示是一个多维向量,其中,每个维度表示一个主题,因而逐个计算在每个主题上待搜索项的取值,则可以得到整个搜索项的向量表示。
待搜索项可以表示为每个用户发布的微博,因此,第i个待搜索项R具有用户u、文本w、话题标签h和时间戳t等特征信息。根据社交网络多特征主题模型获得的用户-主题分布、主题-单词分布、主题-话题标签分布、及主题-时间分布可以计算得到用户-主题矩阵、主题-单词矩阵、主题-话题标签矩阵、及主题-时间矩阵,进而通过计算得到每个待搜索项的主题语义表示,该表示是一个K维向量,每个维度可以表示为一个主题,每个主题上的取值为可以通过待搜索项对应的主题语义表示向量公式计算得到:
Figure BDA0002497873440000191
其中,
Figure BDA0002497873440000192
表示待搜索项R的主题语义表示;θu,k表示主题k被赋值给用户u的概率;WRi表示第i个待搜索项R中的单词个数,φk,w表示单词w生成于主题k的概率;HRi表示第i个待搜索项R中的话题标签个数,sk,h表示话题标签h生成于主题k的概率;ψk,t表示时间生成于主题k的概率。通过逐个计算在每个主题上的取值,则可以计算得到待搜索项的全部向量表示。
在一些实施例中,获取搜索项对应的文本信息,根据所述搜索项对应的文本信息和所述主题-单词矩阵得到所述搜索项对应的主题语义表示向量。
具体地,搜索项Q可以由n个单词组成,即Q={w1,w2,...,wn}。则根据主题-单词矩阵可以计算得到该搜索项的主题语义表示,该表示是一个K维向量,每个维度表示为一个主题,每个主题上的取值可以通过搜索项对应的主题语义表示向量公式计算得到:
Figure BDA0002497873440000193
其中,
Figure BDA0002497873440000194
表示搜索项Q的主题语义表示;φk,w表示单词w生成于主题k的概率。通过逐个计算在每个主题上的取值,则可以通过计算得到整个搜索项的向量表示。
进一步地,根据待搜索项对应的主题语义表示向量和搜索项对应的主题语义表示向量,计算待搜索项和搜索项之间的相似度。
在一些实施例中,在所述待搜索项和所述搜索项之间的相似度满足设定条件的情况下,将所述待搜索项作为所述搜索项的搜索结果进行输出。
综上所述,本发明实施例的语义搜索方法、系统及计算机可读存储介质,通过建模社交网络中的用户、文本、时间和话题标签信息,利用时间和话题标签中的语义信息,对文本的生成过程进行约束,进一步提高短文本的语义表示的准确性。同时,通过设定同一上下文中的两个单词共享同一主题分布,增加语义空间密度,有效缓解社交网络短文本的语义稀疏性。并且,通过获取社交网络多种特征的综合的准确的语义表示,得到搜索项与待搜索项之间的相似度,从而获得具有较高准确率的语义搜索结果可以实现精准的语义搜索,提高搜索准确率。
本领域普通技术人员应该可以明白,结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法,能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本发明中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本发明不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
本发明中,针对一个实施方式描述和/或例示的特征,可以在一个或更多个其它实施方式中以相同方式或以类似方式使用,和/或与其他实施方式的特征相结合或代替其他实施方式的特征。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种语义搜索方法,其特征在于,包括:
基于预先构建的双词词典,在设定主题个数下,求解预先构建的社交网络多特征主题模型,得到用户-主题分布、主题-单词分布、主题-话题标签分布及主题-时间分布;其中,所述社交网络多特征主题模型包括用户-主题分布模型、主题-单词分布模型、主题-话题标签分布模型及主题-时间分布模型;所述双词词典中的每个双词为通过根据用户信息将单词进行两两组合而形成,并且所述每个双词包括该双词对应的用户信息、所述双词对应的文本发表时间信息以及所述双词对应的话题标签信息;
获取待搜索项对应的文本信息、用户信息、文本发表时间信息及话题标签信息,并根据所述待搜索项对应的用户信息和所述用户-主题分布得到所述待搜索项对应的主题矩阵,根据所述待搜索项对应的主题矩阵、所述待搜索项对应的文本信息及所述主题-单词分布得到所述待搜索项对应的主题-单词矩阵,根据所述待搜索项对应的主题矩阵、所述待搜索项对应的话题标签信息及所述主题-话题标签分布得到所述待搜索项对应的主题-话题标签矩阵,根据所述待搜索项对应的主题矩阵、所述待搜索项对应的文本发表时间信息及所述主题-时间分布得到所述待搜索项对应的主题-时间矩阵,并根据所述待搜索项对应的主题矩阵、主题-单词矩阵、主题-话题标签矩阵及主题-时间矩阵,计算得到所述待搜索项对应的主题语义表示向量;
获取搜索项对应的文本信息,根据所述搜索项对应的文本信息和所述主题-单词矩阵得到所述搜索项对应的主题语义表示向量;
根据所述待搜索项对应的主题语义表示向量和所述搜索项对应的主题语义表示向量,计算所述待搜索项和所述搜索项之间的相似度;
在所述待搜索项和所述搜索项之间的相似度满足设定条件的情况下,将所述待搜索项作为所述搜索项的搜索结果进行输出;
根据所述待搜索项对应的用户信息和所述用户-主题分布得到所述待搜索项对应的主题矩阵,包括:将所述待搜索项对应的用户信息输入至所述用户-主题分布,得到所述待搜索项对应的所述设定主题个数的主题,并由所述设定主题个数的主题构成主题矩阵;
根据所述待搜索项对应的主题矩阵、所述待搜索项对应的文本信息及所述主题- 单词分布得到所述待搜索项对应的主题-单词矩阵,包括:针对所述待搜索项对应的主题矩阵中的每个主题,将所述待搜索项对应的文本信息中的各单词的信息,分别输入至所述主题-单词分布,得到所述待搜索项对应的主题矩阵中的每个主题对应的词分别为所述待搜索项对应的文本信息中的各单词的概率,构成所述待搜索项对应的主题-单词矩阵;
根据所述待搜索项对应的主题矩阵、所述待搜索项对应的话题标签信息及所述主题-话题标签分布得到所述待搜索项对应的主题-话题标签矩阵,包括:针对所述待搜索项对应的主题矩阵中的每个主题,将所述待搜索项对应的各话题标签信息分别输入至所述主题-话题标签分布,得到所述待搜索项对应的主题矩阵中的每个主题对应的话题标签分别为所述待搜索项对应的各话题标签的概率,构成所述待搜索项对应的主题-话题标签矩阵;
根据所述待搜索项对应的主题矩阵和所述主题-时间分布得到所述待搜索项对应的主题-时间矩阵,包括:将所述待搜索项对应的主题矩阵中的每个主题的信息,输入至所述主题-时间分布,得到设定数量时间戳对应的概率,构成主题-时间矩阵;
根据所述待搜索项对应的主题矩阵、主题-单词矩阵、主题-话题标签矩阵及主题-时间矩阵,计算得到所述待搜索项对应的主题语义表示向量,包括:分别对所述主题-单词矩阵、所述主题-话题标签矩阵及所述主题-时间矩阵中同一主题的元素求和,分别得到第一主题向量、第二主题向量及第三主题向量;计算第一主题向量和第二主题向量的和与所述主题矩阵的乘积,得到第四主题向量;计算所述第四主题向量和所述第三主题向量的和,得到所述待搜索项的主题语义表示向量;
根据所述搜索项对应的文本信息和所述主题-单词矩阵得到所述搜索项对应的主题语义表示向量,包括:对所述搜索项的文本信息中的文本进行单词划分,根据所述主题-单词得到对应于所述单词划分结果的主题-单词矩阵,对该主题-单词矩阵中的同一主题维度的元素求和,得到所述搜索项的主题语义表示向量。
2.如权利要求1所述的语义搜索方法,其特征在于,所述用户-主题分布模型符合包含第一超参数的狄利克雷分布,所述主题-单词分布模型符合包含第二超参数的狄利克雷分布,所述主题-话题标签分布模型符合包含第三超参数的狄利克雷分布,所述主题-时间分布模型符合贝塔分布。
3.如权利要求2所述的语义搜索方法,其特征在于,基于预先构建的双词词典,在设定主题个数下,求解预先构建的社交网络多特征主题模型,得到用户-主题分布、主题-单词分布、主题-话题标签分布及主题-时间分布,包括:
基于预先构建的双词词典,在设定主题个数、设定的所述第一超参数的值、设定的所述第二超参数的值及设定的所述第三超参数的值下,利用吉布斯采样算法对预先构建的社交网络多特征主题模型进行参数推断,得到用户-主题分布、主题-单词分布、主题-话题标签分布及主题-时间分布。
4.如权利要求1所述的语义搜索方法,其特征在于,根据所述待搜索项对应的主题语义表示向量和所述搜索项对应的主题语义表示向量,计算所述待搜索项和所述搜索项之间的相似度,包括:
利用余弦距离法,根据所述待搜索项对应的主题语义表示向量和所述搜索项对应的主题语义表示向量,计算所述待搜索项和所述搜索项之间的相似度;
在所述待搜索项和所述搜索项之间的相似度满足设定条件的情况下,将所述待搜索项作为所述搜索项的搜索结果进行输出,包括:
根据所有待搜索项各自与所述搜索项的相似度,对所述所有待搜索项从大到小进行排序,将排序后的所有待搜索项中至少部分排序靠前的待搜索项作为所述搜索项的搜索结果进行输出。
5.如权利要求3所述的语义搜索方法,其特征在于,所述社交网络多特征主题模型对应的主题采样公式为:
Figure FDA0003192340010000031
其中,
Figure FDA0003192340010000034
表示在不包含双词i的主题集合
Figure FDA0003192340010000035
用户集合U、双词词典集合B、话题标签集合H、时间集合T的条件下双词i对应的主题为k的概率,K表示主题个数,
Figure FDA0003192340010000036
表示不包含双词i的情况下,主题的个数,U表示用户个数,B表示双词词典大小,H表示话题标签总数,T表示时间范围,
Figure FDA0003192340010000037
表示不包含双词i,
Figure FDA0003192340010000032
表示主题k不包括双词i的情况下,主题k出现在用户u的概率,
Figure FDA0003192340010000033
表示主题k出现在用户u的次数,
Figure FDA0003192340010000041
表示主题k不包括双词i的情况下,主题k中的单词i1被给主题k的概率,
Figure FDA0003192340010000042
表示主题k不包括双词i的情况下,主题k中的单词i2被给主题k的概率,
Figure FDA0003192340010000043
表示主题k不包括双词i的情况下,主题k中的单词被给主题k的概率,W表示双词词典的单词总数,w表示单词的序号,
Figure FDA0003192340010000044
表示话题标签h被分配给主题k的次数,h表示话题标签的序号,p表示变量,
Figure FDA0003192340010000045
表示短文本m的话题标签h出现的次数,
Figure FDA0003192340010000046
表示短文本m中存在的话题标签的个数,q表示话题标签的序号,ti表示双词i对应的时间,ψk1表示主题k的Beta分布的第一参数,ψk2表示主题k的Beta分布的第二参数,α表示第一超参数,β表示第二超参数、σ表示第三超参数;
所述用户-主题分布模型对应的估计参数公式为:
Figure FDA0003192340010000047
其中,θu,k表示主题k被赋值给用户u的概率,
Figure FDA0003192340010000048
表示主题k出现在用户u中的次数,K表示主题的总数,α表示第一超参数;
主题-单词分布模型对应的估计参数公式为:
Figure FDA0003192340010000049
其中,φk,w表示单词w生成于主题k的概率,
Figure FDA00031923400100000410
表示单词被给主题k的概率,W表示单词总数,β表示第二超参数;
主题-时间分布模型对应的估计参数公式为:
Figure FDA00031923400100000411
其中,ψk1表示主题k的Beta分布的第一参数,ψk2表示主题k的Beta分布的第二参数,
Figure FDA00031923400100000412
表示主题k的时间均值,rk 2表示主题k关于时间的方差;
所述主题-话题标签分布模型对应的估计参数公式为:
Figure FDA00031923400100000413
其中,sk,h表示话题标签h生成于主题k的概率,
Figure FDA0003192340010000051
表示话题标签h被分配给主题k的概率,H表示话题标签的总数,σ表示第三超参数。
6.如权利要求1所述的语义搜索方法,其特征在于,基于预先构建的双词词典,在设定主题个数下,求解预先构建的社交网络多特征主题模型,得到用户-主题分布、主题-单词分布、主题-话题标签分布及主题-时间分布,包括:
对同一用户的所有文本信息进行处理得到单词,根据用户信息将单词进行两两组合构成双词,将双词构成双词词典;其中,双词词典中的每个双词包括所述双词对应的用户信息、所述双词对应的文本发表时间信息,以及所述双词对应的话题标签信息。
7.一种语义搜索系统,其特征在于,用于实现如权利要求1至6任一项所述方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至6任一项所述方法的步骤。
CN202010423626.9A 2020-05-19 2020-05-19 语义搜索方法、系统及计算机可读存储介质 Active CN111611380B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010423626.9A CN111611380B (zh) 2020-05-19 2020-05-19 语义搜索方法、系统及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010423626.9A CN111611380B (zh) 2020-05-19 2020-05-19 语义搜索方法、系统及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN111611380A CN111611380A (zh) 2020-09-01
CN111611380B true CN111611380B (zh) 2021-10-15

Family

ID=72204797

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010423626.9A Active CN111611380B (zh) 2020-05-19 2020-05-19 语义搜索方法、系统及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN111611380B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105447179A (zh) * 2015-12-14 2016-03-30 清华大学 基于微博社交网络的话题自动推荐方法及其系统
CN105608192A (zh) * 2015-12-23 2016-05-25 南京大学 一种基于用户双词主题模型的短文本推荐方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9165039B2 (en) * 2005-11-29 2015-10-20 Kang Jo Mgmt, Limited Liability Company Methods and systems for providing personalized contextual search results
US9262510B2 (en) * 2013-05-10 2016-02-16 International Business Machines Corporation Document tagging and retrieval using per-subject dictionaries including subject-determining-power scores for entries

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105447179A (zh) * 2015-12-14 2016-03-30 清华大学 基于微博社交网络的话题自动推荐方法及其系统
CN105608192A (zh) * 2015-12-23 2016-05-25 南京大学 一种基于用户双词主题模型的短文本推荐方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于多标签双词主题模型的短文本谣言分析研究;武庆圆,何凌南;《情报杂志》;20170331;全文 *

Also Published As

Publication number Publication date
CN111611380A (zh) 2020-09-01

Similar Documents

Publication Publication Date Title
Ivanov et al. Anonymous walk embeddings
KR101999152B1 (ko) 컨벌루션 신경망 기반 영문 텍스트 정형화 방법
Ding et al. On the equivalence between non-negative matrix factorization and probabilistic latent semantic indexing
WO2020211720A1 (zh) 数据处理方法和代词消解神经网络训练方法
Estevez-Velarde et al. AutoML strategy based on grammatical evolution: A case study about knowledge discovery from text
CN113836938A (zh) 文本相似度的计算方法及装置、存储介质、电子装置
Avasthi et al. Extracting information and inferences from a large text corpus
CN115130038A (zh) 网页分类方法及装置
CN113239668B (zh) 关键词智能提取方法、装置、计算机设备及存储介质
CN116932686B (zh) 主题挖掘方法、装置、电子设备及存储介质
CN111611380B (zh) 语义搜索方法、系统及计算机可读存储介质
Mohemad et al. Performance analysis in text clustering using k-means and k-medoids algorithms for Malay crime documents
CN112836491B (zh) 面向NLP基于GSDPMM和主题模型的Mashup服务谱聚类方法
CN110555209A (zh) 训练词向量模型的方法及装置
CN111899832B (zh) 基于上下文语义分析的医疗主题管理系统与方法
CN115238645A (zh) 资产数据识别方法、装置、电子设备和计算机存储介质
CN109902169B (zh) 基于电影字幕信息提升电影推荐系统性能的方法
CN111199170B (zh) 配方文件识别方法及装置、电子设备、存储介质
CN113312903A (zh) 一种5g移动业务产品词库的构建方法及系统
CN116150379B (zh) 短信文本分类方法、装置、电子设备及存储介质
Dey et al. Name Entity Recognition on Covid-19 Dataset using Machine Learning algorithms
King et al. Graggle: A Graph-based Approach to Document Clustering
Kenyon-Dean Word embedding algorithms as generalized low rank models and their canonical form
CN111476037B (zh) 文本处理方法、装置、计算机设备和存储介质
Shadgara et al. Ontology alignment using machine learning techniques

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant