CN110598123A - 基于画像相似性的信息检索推荐方法、装置及存储介质 - Google Patents

基于画像相似性的信息检索推荐方法、装置及存储介质 Download PDF

Info

Publication number
CN110598123A
CN110598123A CN201910748591.3A CN201910748591A CN110598123A CN 110598123 A CN110598123 A CN 110598123A CN 201910748591 A CN201910748591 A CN 201910748591A CN 110598123 A CN110598123 A CN 110598123A
Authority
CN
China
Prior art keywords
user
similarity
query
vertex
representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910748591.3A
Other languages
English (en)
Other versions
CN110598123B (zh
Inventor
刘利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910748591.3A priority Critical patent/CN110598123B/zh
Priority to PCT/CN2019/117794 priority patent/WO2021027149A1/zh
Publication of CN110598123A publication Critical patent/CN110598123A/zh
Application granted granted Critical
Publication of CN110598123B publication Critical patent/CN110598123B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及数据分析技术领域,提出一种相似性的信息检索推荐方法、装置及存储介质,其中的方法包括:获取不同用户的用户画像,并确定各用户画像之间的用户画像相似性;基于所述用户画像相似性创建用户动态社区,使相似画像的用户分属到同一用户动态社区内;根据所述用户动态社区及所述用户的查询语句对所述用户进行信息检索推荐。本发明通过计算用户画像之间的相似性,获得不同用户之间的相似性,可实现个性化信息检索和推荐。

Description

基于画像相似性的信息检索推荐方法、装置及存储介质
技术领域
本发明涉及数据分析技术领域,尤其涉及一种基于用户画像相似性的信息检索推荐方法、装置及计算机可读存储介质。
背景技术
协同信息检索(Collaborative Information Retrieval,CIR)是一种基于社会关系的信息检索方法,该CIR协同信息检索系统能够对用户交互历史记录进行分析,以便更有效地响应后续的用户查询。但是,当两个用户同时向CIR系统发送相同的查询时,由于两个用户的目标和行为特征可能不同,二者可能对两个不同的文档列表感兴趣,此时,CIR就面临个性化的查询推荐问题。
目前,信息检索是用户进行信息查询和获取的主要方式,是查找信息的方法和手段,信息的存储是实现信息检索的基础,这里要存储的信息包括原始文档数据、图片、视频和音频等,为实现信息检索首先要将这些原始信息进行计算机语言的转换,并将其存储在数据库中,否则无法进行机器识别。待用户根据意图输入查询请求后,检索系统根据用户的查询请求在数据库中搜索与查询相关的信息,通过一定的匹配机制计算出信息的相似度大小,并按从大到小的顺序将信息转换输出。
可知,现有的信息检索方法要么比较复杂,要么检索精度差,个性化不足,导致推荐效果差,用户体验不佳。
发明内容
本发明提供一种基于用户画像相似性的信息检索推荐方法、电子装置及计算机可读存储介质,其主要目的在于通过加权二分图最大匹配获取用户画像相似性的方式,获取不同用户之间的画像相似性,该方法能够在协同信息检索环境中动态构建用户社区,并将其应用于个性化信息检索,提高检索准确率,优化用户体验。
为实现上述目的,本发明提供一种基于用户画像相似性的信息检索推荐方法,应用于电子装置,其特征在于,所述方法包括:
获取不同用户的用户画像,并确定各用户画像之间的用户画像相似性;
基于所述用户画像相似性创建用户动态社区,使相似画像的用户分属到同一用户动态社区内;
根据所述用户动态社区及所述用户的查询语句对所述用户进行信息检索推荐。
优选地,所述获取不同用户的用户画像,并确定各用户画像之间的用户画像相似性的步骤包括:
将用户画像P存储为与坐标(q,Dq)相关的集合;其中,q表示用户的任意一个查询记录,Dq表示与所述查询记录q相关的所有文档;
基于待处理的用户画像P(X)和用户画像P(Y)构造加权二分图;其中,P(X)为用户X的用户画像,P(Y)为用户Y的用户画像,P(X)的顶点e通过边(e,é)连接到P(Y)的顶点é;
基于所述加权二分图获取所述用户画像P(X)的顶点e与所述用户画像P(Y)的顶点é之间的相似性;
根据所述P(X)的顶点e与所述P(Y)的顶点é之间的相似性确定所述边(e,é)的权重;
基于所述边(e,é)的权重获取用户画像P(X)和用户画像P(Y)之间的最大加权匹配值;
根据所述最大加权匹配值获取所述用户X和用户Y的用户画像相似性。
优选地,所述用户X的用户画像P(X)存储为:
所述用户Y的用户画像P(Y)存储为:
其中,表示用户X的第i个查询,表示与查询有关的所有文档;表示用户Y的第j个查询,表示与查询有关的所有文档。
优选地,所述用户画像P(X)的顶点e包括对应的第一查询元素和第一文档元素,所述用户画像P(Y)的顶点é包括对应的第二查询元素和第二文档元素;
所述获取所述用户画像P(X)的顶点e与所述用户画像P(Y)的顶点é之间的相似性的过程包括:
获取所述第一查询元素和第二查询元素之间的第一相似性,以及获取所述第一文档元素和所述第二文档元素之间的第二相似性;
基于所述第一相似性和所述第二相似性确定所述顶点e和顶点é之间的相似性。
优选地,所述第一查询元素和第二查询元素的第一相似性通过编辑距离算法、杰卡德系数算法、TF算法、TFIDF算法或Word2Vec算法获取;
所述第一文档元素和所述第二文档元素之间的第二相似性通过TFIDF算法或基于空间向量的余弦算法获取。
优选地,所述用户X的用户画像P(X)包括元素A、B、C、D、E,其中元素A、B、C、D、E包含第一查询元素和第一文档元素;
用户Y的用户画像P(Y)包含元素1、2、3、4、5,其中元素1、2、3、4、5包含第二查询元素和第二文档元素;
第一步:通过以下公式获取所述加权二分图的所有的加权匹配值;
M1=w(A,1)+w(B,3)+w(C,2)+w(D,4)+w(E,5)
M2=w(A,1)+w(B,3)+w(C,5)+w(D,4)+w(E,2)
M2=w(A,1)+w(B,4)+w(C,2)+w(D,3)+w(E,5)
M2=w(A,1)+w(B,4)+w(C,5)+w(D,3)+w(E,2)
其中,w(i,j)表示元素i和元素j之间的相似性或者边ij的权重;
第二步:从所有的加权匹配值中确定最大加权匹配值。
为实现上述目的,本发明还提供一种电子装置,该电子装置包括:存储器及处理器,所述存储器中包括基于画像相似性的信息检索推荐程序,所述基于用户画像相似性的信息检索推荐程序被所述处理器执行时实现如下步骤:
获取不同用户的用户画像,并确定各用户画像之间的用户画像相似性;
基于所述用户画像相似性创建用户动态社区,使相似画像的用户分属到同一用户动态社区内;
根据所述用户动态社区及所述用户的查询语句对所述用户进行信息检索推荐。
优选地,所述获取不同用户的用户画像,并确定各用户画像之间的用户画像相似性的步骤包括:
将用户画像P存储为与坐标(q,Dq)相关的集合;其中,q表示用户的任意一个查询记录,Dq表示与所述查询记录q相关的所有文档;
基于待处理的用户画像P(X)和用户画像P(Y)构造加权二分图;其中,P(X)为用户X的用户画像,P(Y)为用户Y的用户画像,P(X)的顶点e通过边(e,é)连接到P(Y)的顶点é;
基于所述加权二分图获取所述用户画像P(X)的顶点e与所述用户画像P(Y)的顶点é之间的相似性;
根据所述P(X)的顶点e与所述P(Y)的顶点é之间的相似性确定所述边(e,é)的权重;
基于所述边(e,é)的权重获取用户画像P(X)和用户画像P(Y)之间的最大加权匹配值;
根据所述最大加权匹配值获取所述用户X和用户Y的用户画像相似性。
优选地,所述用户X的用户画像P(X)存储为:
所述用户Y的用户画像P(Y)存储为:
其中,表示用户X的第i个查询,表示与查询有关的所有文档;表示用户Y的第j个查询,表示与查询有关的所有文档。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中包括基于用户画像相似性的信息检索推荐程序,所述基于用户画像相似性的信息检索推荐程序被处理器执行时,实现如上所述的基于用户画像相似性的信息检索推荐方法的步骤。
本发明提出的基于用户画像相似性的信息检索推荐方法、电子装置及计算机可读存储介质,基于用户画像构造加权二分图,并采用加权二分图最大匹配的方式获取用户画像之间的最大加权匹配值,能够在协同信息检索环境中基于用户画像相似性动态构建用户社区,并根据用户社区进行个性化信息检索推荐,能够提高用户检索准确率,优化用户体验,实现个性化推荐。
附图说明
图1为根据本发明基于用户画像相似性的信息检索推荐方法较佳实施例的应用环境示意图;
图2为图1中根据本发明基于用户画像相似性的信息检索推荐程序较佳实施例的模块示意图;
图3为根据本发明基于用户画像相似性的信息检索推荐方法较佳实施例的流程图;
图4为基于图算法的用户画像相似性计算方法流程图:
图5为基于两个不同用户的用户画像构造的二分图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种基于用户画像相似性的信息检索推荐方法,应用于一种电子装置1。参照图1所示,为本发明基于用户画像相似性的信息检索推荐方法较佳实施例的应用环境示意图。
在本实施例中,电子装置1可以是服务器、智能手机、平板电脑、便携计算机、桌上型计算机等具有运算功能的终端设备。
该电子装置1包括:处理器12、存储器11、网络接口14及通信总线15。
存储器11包括至少一种类型的可读存储介质。所述至少一种类型的可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器11等的非易失性存储介质。在一些实施例中,所述可读存储介质可以是所述电子装置1的内部存储单元,例如该电子装置1的硬盘。在另一些实施例中,所述可读存储介质也可以是所述电子装置1的外部存储器11,例如所述电子装置1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
在本实施例中,所述存储器11的可读存储介质通常用于存储安装于所述电子装置1的基于用户画像相似性的信息检索推荐程序10等。所述存储器11还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行基于用户画像相似性的信息检索推荐程序10等。
网络接口14可选地可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该电子装置1与其他电子设备之间建立通信连接。
通信总线15用于实现这些组件之间的连接通信。
图1仅示出了具有组件11-15的电子装置1,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
可选地,该电子装置1还可以包括用户接口,用户接口可以包括输入单元比如键盘(Keyboard)、语音输入装置比如麦克风(microphone)等具有语音识别功能的设备、语音输出装置比如音响、耳机等,可选地用户接口还可以包括标准的有线接口、无线接口。
可选地,该电子装置1还可以包括显示器,显示器也可以称为显示屏或显示单元。在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode,OLED)触摸器等。显示器用于显示在电子装置1中处理的信息以及用于显示可视化的用户界面。
可选地,该电子装置1还包括触摸传感器。所述触摸传感器所提供的供用户进行触摸操作的区域称为触控区域。此外,这里所述的触摸传感器可以为电阻式触摸传感器、电容式触摸传感器等。而且,所述触摸传感器不仅包括接触式的触摸传感器,也可包括接近式的触摸传感器等。此外,所述触摸传感器可以为单个传感器,也可以为例如阵列布置的多个传感器。
此外,该电子装置1的显示器的面积可以与所述触摸传感器的面积相同,也可以不同。可选地,将显示器与所述触摸传感器层叠设置,以形成触摸显示屏。该装置基于触摸显示屏侦测用户触发的触控操作。
可选地,该电子装置1还可以包括射频(Radio Frequency,RF)电路,传感器、音频电路等等,在此不再赘述。
在图1所示的装置实施例中,作为一种计算机存储介质的存储器11中可以包括操作系统、以及基于用户画像相似性的信息检索推荐程序10;处理器12执行存储器11中存储的基于用户画像相似性的信息检索推荐程序10时实现如下步骤:
获取不同用户的用户画像,并确定各用户画像之间的用户画像相似性;
基于所述用户画像相似性创建用户动态社区,使相似画像的用户分属到同一用户动态社区内;
根据所述用户动态社区及所述用户的查询语句对所述用户进行信息检索推荐。
在上述步骤中,所述获取不同用户的用户画像,并确定各用户画像之间的用户画像相似性可通过基于图算法的用户画像相似性计算方法来获取;
具体地,基于图算法的用户画像相似性计算方法包括以下步骤:
将用户画像P存储为与坐标(q,Dq)相关的集合;其中,q表示用户的任意一个查询记录,Dq表示与所述查询记录q相关的所有文档;
基于待处理的用户画像P(X)和用户画像P(Y)构造加权二分图;其中,P(X)为用户X的用户画像,P(Y)为用户Y的用户画像,P(X)的顶点e通过边(e,é)连接到P(Y)的顶点é;
基于所述加权二分图获取所述用户画像P(X)的顶点e与所述用户画像P(Y)的顶点é之间的相似性;
根据所述P(X)的顶点e与所述P(Y)的顶点é之间的相似性确定所述边(e,é)的权重;
基于所述边(e,é)的权重获取用户画像P(X)和用户画像P(Y)之间的最大加权匹配值;
根据所述最大加权匹配值获取所述用户X和用户Y的用户画像相似性。
优选地,所述用户X的用户画像P(X)存储为:
所述用户Y的用户画像P(Y)存储为:
其中,表示用户X的第i个查询,表示与查询有关的所有文档;表示用户Y的第j个查询,表示与查询有关的所有文档。
优选地,所述用户画像P(X)的顶点e包括对应的第一查询元素和第一文档元素,所述用户画像P(Y)的顶点é包括对应的第二查询元素和第二文档元素;
所述获取所述用户画像P(X)的顶点e与所述用户画像P(Y)的顶点é之间的相似性的过程包括:
获取所述第一查询元素和第二查询元素之间的第一相似性,以及获取所述第一文档元素和所述第二文档元素之间的第二相似性;
基于所述第一相似性和所述第二相似性确定所述顶点e和顶点é之间的相似性。
优选地,所述第一查询元素和第二查询元素的第一相似性通过编辑距离算法、杰卡德系数算法、TF算法、TFIDF算法或Word2Vec算法获取;
所述第一文档元素和所述第二文档元素之间的第二相似性通过TFIDF算法或基于空间向量的余弦算法获取。
优选地,所述用户X的用户画像P(X)包括元素A、B、C、D、E,其中元素A、B、C、D、E包含第一查询元素和第一文档元素;
用户Y的用户画像P(Y)包含元素1、2、3、4、5,其中元素1、2、3、4、5包含第二查询元素和第二文档元素;
第一步:通过以下公式获取所述加权二分图的所有的加权匹配值;
M1=w(A,1)+w(B,3)+w(C,2)+w(D,4)+w(E,5)
M2=w(A,1)+w(B,3)+w(C,5)+w(D,4)+w(E,2)
M2=w(A,1)+w(B,4)+w(C,2)+w(D,3)+w(E,5)
M2=w(A,1)+w(B,4)+w(C,5)+w(D,3)+w(E,2)
其中,w(i,j)表示元素i和元素j之间的相似性或者边ij的权重;
第二步:从所有的加权匹配值中确定最大加权匹配值。
待获取不同用户的用户画像相似性之后,可以基于用户P(X)和用户P(Y)之间的用户画像相似性创建用户社区,并根据所创建的用户社区对用户查询结果进行排序推荐。
作为具体示例,假设用户U需要查询的语句为q,基于用户P(X)和用户P(Y)之间的用户画像相似性进行查询的步骤包括:
步骤一:寻找与查询q相似的历史查询记录A。
设A={(U1,q1,Dq1),(U2,q2,Dq2),…(Um,qm,Dqm)}
s(q,qi)>θ且s(P(U),P(Ui))>ω1≤i≤m
其中,Um表示用户,qm为用户Um的查询,Dqm为与查询qm相关的所有文档,P(U)为用户U的用户画像,P(Ui)为用户i的用户画像,s(P(U),P(Ui))为用户U和用户I之间的用户画像相似性;s(q,q1)为语句q与语句qi之间的相似性,上述相似性均可通过基于图算法的用户画像相似性计算方法获得。
步骤二:计算所有与查询q相关的文档集合。
Dq=Dq1∪Dq2∪…Dqm
其次,对于语料库中每个文档d符合d∈Dq,计算如下得分:
而对于每个d不属于Dq,则默认R(U,d,q)=0;
步骤三:对于语料库中的每个文档d,计算d和q之间的相似性,获取相似性r(d,q);
步骤四:计算文集中每个文档的最终排名:
Rfinal(U,d,q)=a*r(d,q)+b*R(U,d,q)
其中,a和b为设定系数。
步骤五:按文档的最终排名可对文档进行排序,以构造输出列表,根据输出列表即可对用户U需要查询的语句q进行查询输出。
上述实施例提出的电子装置1,通过加权二分图最大匹配的方式获取用户画像之间的相似性,能够在协同信息检索环境中基于用户画像相似性动态构建用户社区,并根据用户社区进行个性化信息检索推荐,能够提高用户检索准确率,优化用户体验,实现个性化推荐。
在其他实施例中,基于用户画像相似性的信息检索推荐程序10还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器11中,并由处理器12执行,以完成本发明。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。参照图2所示,为图1中基于用户画像相似性的信息检索推荐程序10较佳实施例的程序模块图。所述基于用户画像相似性的信息检索推荐程序10可以被分割为:
用户画像相似性确定单元110,用于获取不同用户的用户画像,并确定各用户画像之间的用户画像相似性;
动态社区创建单元120,用户基于所述用户画像相似性创建用户动态社区,使相似画像的用户分属到同一用户动态社区内;
检索推荐单元130,用于根据所述用户动态社区及所述用户的查询语句对所述用户进行信息检索推荐。
用户画像相似性确定单元110进一步包括,用户画像存储单元,用于将用户画像P存储为与坐标(q,Dq)相关的集合;其中,q表示用户的任意一个查询记录,Dq表示与所述查询记录q相关的所有文档;
加权二分图构造单元,用于基于待处理的用户画像P(X)和用户画像P(Y)构造加权二分图;其中,P(X)为用户X的用户画像,P(Y)为用户Y的用户画像,P(X)的顶点e通过边(e,é)连接到P(Y)的顶点é;
相似性获取单元,用于基于所述加权二分图获取所述用户画像P(X)的顶点e与所述用户画像P(Y)的顶点é之间的相似性;
权重确定单元,用于根据所述P(X)的顶点e与所述P(Y)的顶点é之间的相似性确定所述边(e,é)的权重;
最大加权匹配值获取单元,用于基于所述边(e,é)的权重获取用户画像P(X)和用户画像P(Y)之间的最大加权匹配值;
用户画像相似性确定单元,用于根据所述最大加权匹配值获取所述用户X和用户Y的用户画像相似性。
此外,本发明还提供一种基于用户画像相似性的信息检索推荐方法。参照图3所示,为本发明基于用户画像相似性的信息检索推荐方法较佳实施例的流程图。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。
在本实施例中,基于用户画像相似性的信息检索推荐方法包括以下步骤:
步骤S11:获取不同用户的用户画像,并确定各用户画像之间的用户画像相似性。
步骤S12:基于所述用户画像相似性创建用户动态社区,使相似画像的用户分属到同一用户动态社区内。
步骤S13:根据所述用户动态社区及所述用户的查询语句对所述用户进行信息检索推荐。
如图4基于图算法的用户画像相似性计算方法流程所示,上述步骤S11进一步包括以下步骤:
步骤S101:将用户画像P存储为与坐标(q,Dq)相关的集合;其中,q表示用户的任意一个查询记录,Dq表示与所述查询记录q相关的所有文档。
其中,用户画像又称用户角色,作为一种勾画目标用户、联系用户诉求与设计方向的有效工具,用户画像在各领域得到了广泛的应用。我们在实际操作的过程中往往会以最为浅显和贴近生活的话语将用户的属性、行为与期待联结起来。作为实际用户的虚拟代表,用户画像所形成的用户角色并不是脱离产品和市场之外所构建出来的,形成的用户角色需要有代表性能代表产品的主要受众和目标群体。
在本发明中,用户X的用户画像P(X)可存储为:
所述用户Y的用户画像P(Y)可存储为:
其中,表示用户X的第i个查询,表示与查询有关的所有文档;表示用户Y的第j个查询,表示与查询有关的所有文档。
因此,用户X和用户Y之间的用户画像相似性(User Profile Similarity,UPS)即为计算以上两组集合P(x)与P(y)之间的相似性。
步骤S102:基于待处理的用户画像P(X)和用户画像P(Y)构造加权二分图;其中,P(X)为用户X的用户画像,P(Y)为用户Y的用户画像,P(X)的顶点e通过边(e,é)连接到P(Y)的顶点é。
其中,二分图又称作二部图,是图论中的一种特殊模型。设G=(V,E)是一个无向图,如果顶点V可分割为两个互不相交的子集(A,B),并且图中的每条边(i,j)所关联的两个顶点i和j分别属于这两个不同的顶点集(i in A,j in B),则称图G为一个二分图。
其中,基于上述用户画像P(x)和用户画像P(Y)构造一个加权二分图G=(V=(P(X),P(Y)),E)。用户画像P(X)的元素构成图G的一部分,P(Y)的元素构成图的另一部分。P(X)的每个顶点e通过边(e,é)连接到P(Y)的每个顶点é。而边(e,é)的权重则等于顶点(或元素)e和é之间的相似性。其中,边(e,é)的权重和元素类型有关,元素类型包括查询或者文档。
优选地,所述用户画像P(X)的顶点e包括对应的第一查询元素和第一文档元素,所述用户画像P(Y)的顶点é包括对应的第二查询元素和第二文档元素;
所述获取所述用户画像P(X)的顶点e与所述用户画像P(Y)的顶点é之间的相似性的过程包括:
首先,获取所述第一查询元素和第二查询元素之间的第一相似性,以及获取所述第一文档元素和所述第二文档元素之间的第二相似性;然后,基于所述第一相似性和所述第二相似性确定所述顶点e和顶点é之间的相似性。
步骤S103:基于所述加权二分图获取所述用户画像P(X)的顶点e与所述用户画像P(Y)的顶点é之间的相似性。
其中,用户画像P(X)的各顶点e包括相应的查询元素和文档元素,用户画像P(Y)的各顶点也包括相应的查询元素和文档元素,在获取顶点e与顶点é之间的相似性的过程中,首先获取用户画像P(X)和用户画像P(Y)的各查询元素之间的相似性,以及用户画像P(X)和用户画像P(Y)之间的各文档元素之间的相似性,基于用户画像P(x)和用户画像P(Y)的查询顶点之间的相似性及各文档顶点之间的相似性,就可以确定所有顶点e与顶点é之间的相似性。
具体地,用户画像P(X)和用户画像P(Y)的各查询之间的相似性的计算,实际为各查询语句之间的相似性计算,目前的查询语句相似性获取方法主要包括:编辑距离算法、杰卡德系数算法、TF算法、TFIDF算法以及Word2Vec算法等。
进一步地,编辑距离算法,英文叫做Edit Distance,又称Levenshtein距离算法,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数,如果它们的距离越大,说明它们越是不同。许可的编辑操作包括将一个字符替换成另一个字符、插入一个字符、删除一个字符等。
而杰卡德系数,英文叫做Jaccard index,又称为Jaccard相似系数,用于比较有限样本集之间的相似性与差异性。Jaccard系数值越大,样本相似度越高。实际上。杰卡德系数的计算方式非常简单,就是两个样本的交集除以并集得到的数值,当两个样本完全一致时,结果为1,当两个样本完全不同时,结果为0。
另外,用户画像P(X)和用户画像P(Y)的各文档之间的相似性计算方法主要包括TFIDF算法和基于空间向量的余弦算法等。
换言之,所述第一查询元素和第二查询元素的第一相似性通过编辑距离算法、杰卡德系数算法、TF算法、TFIDF算法或Word2Vec算法等算法获取;所述第一文档元素和所述第二文档元素之间的第二相似性通过TFIDF算法或基于空间向量的余弦算法等方法获取。
步骤S104:根据所述P(X)的顶点e与所述P(Y)的顶点é之间的相似性确定所述边(e,é)的权重。
具体地,可将所述边(e,é)的权重设置为等于所述P(X)的顶点e与所述P(Y)的顶点é之间的相似性。
步骤S105:基于所述边(e,é)的权重获取用户画像P(X)和用户画像P(Y)之间的最大加权匹配值。
其中,二分图的最大匹配主要指:给定一个二分图G,在二分图G的一个子图M中,M的边集中的任意两条边都不依附于同一个顶点,则称M是一个匹配。选择这样的边数最大的子集称为图的最大匹配问题(maximalmatching problem),如果一个匹配中,图中的每个顶点都和图中某条边相关联,则称此匹配为完全匹配,也称作完备匹配。
例如,用户X的用户画像P(X)包括元素A、B、C、D、E,其中A、B、C、D、E中包含第一查询元素和第一文档元素,用户Y的用户画像P(Y)包含元素1、2、3、4、5,其中1、2、3、4、5中包含第二查询元素和第二文档元素,用户画像P(X)和用户画像P(Y)构造的二分图如图4所示。
根据图5基于用户画像构造的二分图所示,最大匹配情况的加权匹配值计算通过以下公式计算:
M1=w(A,1)+w(B,3)+w(C,2)+w(D,4)+w(E,5)
M2=w(A,1)+w(B,3)+w(C,5)+w(D,4)+w(E,2)
M2=w(A,1)+w(B,4)+w(C,2)+w(D,3)+w(E,5)
M2=w(A,1)+w(B,4)+w(C,5)+w(D,3)+w(E,2)
其中,w(i,j)表示元素i和元素j之间的相似性或者边ij的权重;例如,w(A,1)表示为元素A和元素1之间的相似性,其也表示边A1的权重,w(B,3)、w(C,2)…w(E,5)等类似。
进而,从所有的加权匹配值中确定最大加权匹配值,在该具体实施例中,最大加权匹配值为3.5。
步骤S106:根据所述最大加权匹配值获取所述用户X和用户Y的用户画像相似性。
其中,待待获取不同用户的用户画像相似性之后,可以基于用户P(X)和用户P(Y)之间的用户画像相似性创建用户社区,并根据所创建的用户社区对用户查询结果进行排序推荐。
作为具体示例,假设用户U需要查询的语句为q,基于用户P(X)和用户P(Y)之间的用户画像相似性进行查询的步骤包括:
步骤一:寻找与查询q相似的历史查询记录A。
设A={(U1,q1,Dq1),(U2,q2,Dq2),…(Um,qm,Dqm)}
s(q,qi)>θ且s(P(U),P(Ui))>ω1≤i≤m
其中,Um表示用户,qm为用户Um的查询,Dqm为与查询qm相关的所有文档,P(U)为用户U的用户画像,P(Ui)为用户i的用户画像,s(P(U),P(Ui))为用户U和用户I之间的用户画像相似性;s(q,q1)为语句q与语句qi之间的相似性,上述相似性均可通过基于图算法的用户画像相似性计算方法获得。
步骤二:计算所有与查询q相关的文档集合。
Dq=Dq1∪Dq2∪…Dqm
其次,对于语料库中每个文档d符合d∈Dq,计算如下得分:
而对于每个d不属于Dq,则默认R(U,d,q)=0;
步骤三:对于语料库中的每个文档d,计算d和q之间的相似性,获取相似性r(d,q);
步骤四:计算文集中每个文档的最终排名:
Rfinal(U,d,q)=a*r(d,q)+b*R(U,d,q)
其中,a和b为设定系数。
步骤五:按文档的最终排名可对文档进行排序,以构造输出列表,根据输出列表即可对用户U需要查询的语句q进行查询输出。
利用上述基于用户选项相似性的信息检索推荐方法,采用加权二分图最大匹配的方式获取用户画像之间的相似性,能够在协同信息检索环境中基于用户画像相似性动态构建用户社区,并根据用户社区进行个性化信息检索推荐,能够提高用户检索准确率,优化用户体验,实现个性化推荐。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质中包括基于用户画像相似性的信息检索推荐程序,所述基于用户画像相似性的信息检索推荐程序被处理器执行时实现如下操作:
获取不同用户的用户画像,并确定各用户画像之间的用户画像相似性;
基于所述用户画像相似性创建用户动态社区,使相似画像的用户分属到同一用户动态社区内;
根据所述用户动态社区及所述用户的查询语句对所述用户进行信息检索推荐。
优选地,所述获取不同用户的用户画像,并确定各用户画像之间的用户画像相似性的步骤包括:
将用户画像P存储为与坐标(q,Dq)相关的集合;其中,q表示用户的任意一个查询记录,Dq表示与所述查询记录q相关的所有文档;
基于待处理的用户画像P(X)和用户画像P(Y)构造加权二分图;其中,P(X)为用户X的用户画像,P(Y)为用户Y的用户画像,P(X)的顶点e通过边(e,é)连接到P(Y)的顶点é;
基于所述加权二分图获取所述用户画像P(X)的顶点e与所述用户画像P(Y)的顶点é之间的相似性;
根据所述P(X)的顶点e与所述P(Y)的顶点é之间的相似性确定所述边(e,é)的权重;
基于所述边(e,é)的权重获取用户画像P(X)和用户画像P(Y)之间的最大加权匹配值;
根据所述最大加权匹配值获取所述用户X和用户Y的用户画像相似性。
优选地,所述用户X的用户画像P(X)存储为:
所述用户Y的用户画像P(Y)存储为:
其中,表示用户X的第i个查询,表示与查询有关的所有文档;表示用户Y的第j个查询,表示与查询有关的所有文档。
优选地,所述用户画像P(X)的顶点e包括对应的第一查询元素和第一文档元素,所述用户画像P(Y)的顶点é包括对应的第二查询元素和第二文档元素;
所述获取所述用户画像P(X)的顶点e与所述用户画像P(Y)的顶点é之间的相似性的过程包括:
获取所述第一查询元素和第二查询元素之间的第一相似性,以及获取所述第一文档元素和所述第二文档元素之间的第二相似性;
基于所述第一相似性和所述第二相似性确定所述顶点e和顶点é之间的相似性。
优选地,所述第一查询元素和第二查询元素的第一相似性通过编辑距离算法、杰卡德系数算法、TF算法、TFIDF算法或Word2Vec算法获取;
所述第一文档元素和所述第二文档元素之间的第二相似性通过TFIDF算法或基于空间向量的余弦算法获取。
优选地,所述用户X的用户画像P(X)包括元素A、B、C、D、E,其中元素A、B、C、D、E包含第一查询元素和第一文档元素;
用户Y的用户画像P(Y)包含元素1、2、3、4、5,其中元素1、2、3、4、5包含第二查询元素和第二文档元素;
第一步:通过以下公式获取所述加权二分图的所有的加权匹配值;
M1=w(A,1)+w(B,3)+w(C,2)+w(D,4)+w(E,5)
M2=w(A,1)+w(B,3)+w(C,5)+w(D,4)+w(E,2)
M2=w(A,1)+w(B,4)+w(C,2)+w(D,3)+w(E,5)
M2=w(A,1)+w(B,4)+w(C,5)+w(D,3)+w(E,2)
其中,w(i,j)表示元素i和元素j之间的相似性或者边ij的权重;
第二步:从所有的加权匹配值中确定最大加权匹配值。
本发明之计算机可读存储介质的具体实施方式与上述基于用户画像相似性的信息检索推荐方法、电子装置的具体实施方式大致相同,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种基于画像相似性的信息检索推荐方法,应用于电子装置,其特征在于,所述方法包括:
获取不同用户的用户画像,并确定各用户画像之间的用户画像相似性;
基于所述用户画像相似性创建用户动态社区,使相似画像的用户分属到同一用户动态社区内;
根据所述用户动态社区及所述用户的查询语句对所述用户进行信息检索推荐。
2.根据权利要求1所述的基于画像相似性的信息检索推荐方法,其特征在于,所述获取不同用户的用户画像,并确定各用户画像之间的用户画像相似性的步骤包括:
将用户画像P存储为与坐标(q,Dq)相关的集合;其中,q表示用户的任意一个查询记录,Dq表示与所述查询记录q相关的所有文档;
基于待处理的用户画像P(X)和用户画像P(Y)构造加权二分图;其中,P(X)为用户X的用户画像,P(Y)为用户Y的用户画像,P(X)的顶点e通过边(e,é)连接到P(Y)的顶点é;
基于所述加权二分图获取所述用户画像P(X)的顶点e与所述用户画像P(Y)的顶点é之间的相似性;
根据所述P(X)的顶点e与所述P(Y)的顶点é之间的相似性确定所述边(e,é)的权重;
基于所述边(e,é)的权重获取用户画像P(X)和用户画像P(Y)之间的最大加权匹配值;
根据所述最大加权匹配值获取所述用户X和用户Y的用户画像相似性。
3.根据权利要求2所述的基于画像相似性的信息检索推荐方法,其特征在于,
所述用户X的用户画像P(X)存储为:
所述用户Y的用户画像P(Y)存储为:
其中,表示用户X的第i个查询,表示与查询有关的所有文档;表示用户Y的第j个查询,表示与查询有关的所有文档。
4.根据权利要求2所述的基于画像相似性的信息检索推荐方法,其特征在于,
所述用户画像P(X)的顶点e包括对应的第一查询元素和第一文档元素,所述用户画像P(Y)的顶点é包括对应的第二查询元素和第二文档元素;
所述获取所述用户画像P(X)的顶点e与所述用户画像P(Y)的顶点é之间的相似性的过程包括:
获取所述第一查询元素和第二查询元素之间的第一相似性,以及获取所述第一文档元素和所述第二文档元素之间的第二相似性;
基于所述第一相似性和所述第二相似性确定所述顶点e和顶点é之间的相似性。
5.根据权利要求4所述的基于画像相似性的信息检索推荐方法,其特征在于,
所述第一查询元素和第二查询元素的第一相似性通过编辑距离算法、杰卡德系数算法、TF算法、TFIDF算法或Word2Vec算法获取;
所述第一文档元素和所述第二文档元素之间的第二相似性通过TFIDF算法或基于空间向量的余弦算法获取。
6.根据权利要求2所述的基于画像相似性的信息检索推荐方法,其特征在于,
所述用户X的用户画像P(X)包括元素A、B、C、D、E,其中元素A、B、C、D、E包含第一查询元素和第一文档元素;
用户Y的用户画像P(Y)包含元素1、2、3、4、5,其中元素1、2、3、4、5包含第二查询元素和第二文档元素;
第一步:通过以下公式获取所述加权二分图的所有的加权匹配值;
M1=w(A,1)+w(B,3)+w(C,2)+w(D,4)+w(E,5)
M2=w(A,1)+w(B,3)+w(C,5)+w(D,4)+w(E,2)
M2=w(A,1)+w(B,4)+w(C,2)+w(D,3)+w(E,5)
M2=w(A,1)+w(B,4)+w(C,5)+w(D,3)+w(E,2)
其中,w(i,j)表示元素i和元素j之间的相似性或者边ij的权重;
第二步:从所有的加权匹配值中确定最大加权匹配值。
7.一种电子装置,其特征在于,该电子装置包括:存储器及处理器,所述存储器中包括基于画像相似性的信息检索推荐程序,所述基于画像相似性的信息检索推荐程序被所述处理器执行时实现如下步骤:
获取不同用户的用户画像,并确定各用户画像之间的用户画像相似性;
基于所述用户画像相似性创建用户动态社区,使相似画像的用户分属到同一用户动态社区内;
根据所述用户动态社区及所述用户的查询语句对所述用户进行信息检索推荐。
8.根据权利要求7所述的电子装置,其特征在于,所述获取不同用户的用户画像,并确定各用户画像之间的用户画像相似性的步骤包括:
将用户画像P存储为与坐标(q,Dq)相关的集合;其中,q表示用户的任意一个查询记录,Dq表示与所述查询记录q相关的所有文档;
基于待处理的用户画像P(X)和用户画像P(Y)构造加权二分图;其中,P(X)为用户X的用户画像,P(Y)为用户Y的用户画像,P(X)的顶点e通过边(e,é)连接到P(Y)的顶点é;
基于所述加权二分图获取所述用户画像P(X)的顶点e与所述用户画像P(Y)的顶点é之间的相似性;
根据所述P(X)的顶点e与所述P(Y)的顶点é之间的相似性确定所述边(e,é)的权重;
基于所述边(e,é)的权重获取用户画像P(X)和用户画像P(Y)之间的最大加权匹配值;
根据所述最大加权匹配值获取所述用户X和用户Y的用户画像相似性。
9.根据权利要求8所述的电子装置,其特征在于,所述用户X的用户画像P(X)存储为:
所述用户Y的用户画像P(Y)存储为:
其中,表示用户X的第i个查询,表示与查询有关的所有文档;表示用户Y的第j个查询,表示与查询有关的所有文档。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括基于画像相似性的信息检索推荐程序,所述基于画像相似性的信息检索推荐程序被处理器执行时,实现如权利要求1至6中任一项所述的基于画像相似性的信息检索推荐方法的步骤。
CN201910748591.3A 2019-08-14 2019-08-14 基于画像相似性的信息检索推荐方法、装置及存储介质 Active CN110598123B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910748591.3A CN110598123B (zh) 2019-08-14 2019-08-14 基于画像相似性的信息检索推荐方法、装置及存储介质
PCT/CN2019/117794 WO2021027149A1 (zh) 2019-08-14 2019-11-13 基于画像相似性的信息检索推荐方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910748591.3A CN110598123B (zh) 2019-08-14 2019-08-14 基于画像相似性的信息检索推荐方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN110598123A true CN110598123A (zh) 2019-12-20
CN110598123B CN110598123B (zh) 2023-12-29

Family

ID=68854177

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910748591.3A Active CN110598123B (zh) 2019-08-14 2019-08-14 基于画像相似性的信息检索推荐方法、装置及存储介质

Country Status (2)

Country Link
CN (1) CN110598123B (zh)
WO (1) WO2021027149A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111857660A (zh) * 2020-07-06 2020-10-30 南京航空航天大学 一种基于查询语句的情境感知api推荐方法及终端
CN112686462A (zh) * 2021-01-06 2021-04-20 广州视源电子科技股份有限公司 基于学生画像的异常检测方法、装置、设备及存储介质
CN113486985A (zh) * 2021-08-02 2021-10-08 汤恩智能科技(上海)有限公司 电动设备的用户识别方法、管理方法、介质和电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101398854A (zh) * 2008-10-24 2009-04-01 清华大学 一种视频片段检索方法和系统
CN101556603A (zh) * 2009-05-06 2009-10-14 北京航空航天大学 一种用于对检索结果重新排序的协同检索方法
CN106021423A (zh) * 2016-05-16 2016-10-12 西安电子科技大学 基于群组划分的元搜索引擎个性化结果推荐方法
CN106599148A (zh) * 2016-12-02 2017-04-26 东软集团股份有限公司 一种文摘生成方法及装置
CN108062375A (zh) * 2017-12-12 2018-05-22 百度在线网络技术(北京)有限公司 一种用户画像的处理方法、装置、终端和存储介质
CN110111167A (zh) * 2018-02-01 2019-08-09 北京京东尚科信息技术有限公司 一种确定推荐对象的方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521659A (zh) * 2011-11-26 2012-06-27 北京航空航天大学 一种面向云制造的服务间关联关系判定方法
KR101752636B1 (ko) * 2017-01-31 2017-07-03 주식회사 스켈터랩스 독립체 중심의 기록 어플리케이션을 이용한 추천 방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101398854A (zh) * 2008-10-24 2009-04-01 清华大学 一种视频片段检索方法和系统
CN101556603A (zh) * 2009-05-06 2009-10-14 北京航空航天大学 一种用于对检索结果重新排序的协同检索方法
CN106021423A (zh) * 2016-05-16 2016-10-12 西安电子科技大学 基于群组划分的元搜索引擎个性化结果推荐方法
CN106599148A (zh) * 2016-12-02 2017-04-26 东软集团股份有限公司 一种文摘生成方法及装置
CN108062375A (zh) * 2017-12-12 2018-05-22 百度在线网络技术(北京)有限公司 一种用户画像的处理方法、装置、终端和存储介质
CN110111167A (zh) * 2018-02-01 2019-08-09 北京京东尚科信息技术有限公司 一种确定推荐对象的方法和装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111857660A (zh) * 2020-07-06 2020-10-30 南京航空航天大学 一种基于查询语句的情境感知api推荐方法及终端
CN112686462A (zh) * 2021-01-06 2021-04-20 广州视源电子科技股份有限公司 基于学生画像的异常检测方法、装置、设备及存储介质
CN113486985A (zh) * 2021-08-02 2021-10-08 汤恩智能科技(上海)有限公司 电动设备的用户识别方法、管理方法、介质和电子设备

Also Published As

Publication number Publication date
WO2021027149A1 (zh) 2021-02-18
CN110598123B (zh) 2023-12-29

Similar Documents

Publication Publication Date Title
CN108491433B (zh) 聊天应答方法、电子装置及存储介质
CN107679144B (zh) 基于语义相似度的新闻语句聚类方法、装置及存储介质
CN110162695B (zh) 一种信息推送的方法及设备
CN109086394B (zh) 搜索排序方法、装置、计算机设备和存储介质
CN111046221B (zh) 歌曲推荐方法、装置、终端设备以及存储介质
CN110503506B (zh) 基于评分数据的物品推荐方法、装置及介质
US20110106805A1 (en) Method and system for searching multilingual documents
CN109906450A (zh) 用于通过相似性关联对电子信息排名的方法和装置
CN110598123B (zh) 基于画像相似性的信息检索推荐方法、装置及存储介质
CN108959453B (zh) 基于文本聚类的信息提取方法、装置及可读存储介质
KR20150137006A (ko) 주석 디스플레이 보조 장치 및 주석 디스플레이를 보조하는 방법
CN111414375A (zh) 基于数据库查询的输入推荐方法、电子装置及存储介质
CN107679208A (zh) 一种图片的搜索方法、终端设备及存储介质
CN109840120B (zh) 解耦微服务发布方法、电子装置及计算机可读存储介质
CN111552457A (zh) 基于语句识别的前端开发页面构建方法、装置及存储介质
CN110795942B (zh) 基于语义识别的关键词确定方法、装置和存储介质
CN110263121B (zh) 表格数据处理方法、装置、电子装置及计算机可读存储介质
JP6772478B2 (ja) 情報検索プログラム及び情報検索装置
CN111400439A (zh) 网络不良数据监控方法、装置及存储介质
KR102277240B1 (ko) 키워드 관계 구조를 이용한 동의어 추출 방법 및 시스템
CN113869063A (zh) 数据推荐方法、装置、电子设备及存储介质
CN112287140A (zh) 一种基于大数据的图像检索方法及系统
CN116738057A (zh) 信息推荐方法、装置、计算机设备及存储介质
CN112988993B (zh) 一种问答方法和计算设备
CN111985217B (zh) 一种关键词提取方法、计算设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant