CN116662556A - 一种融合用户属性的文本数据处理方法 - Google Patents

一种融合用户属性的文本数据处理方法 Download PDF

Info

Publication number
CN116662556A
CN116662556A CN202310964402.2A CN202310964402A CN116662556A CN 116662556 A CN116662556 A CN 116662556A CN 202310964402 A CN202310964402 A CN 202310964402A CN 116662556 A CN116662556 A CN 116662556A
Authority
CN
China
Prior art keywords
text data
target user
obtaining
vector
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310964402.2A
Other languages
English (en)
Other versions
CN116662556B (zh
Inventor
董啸天
李健增
冯源
张晓凡
张振伟
孟祥飞
孙娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianhe Supercomputing Huaihai Sub Center
Original Assignee
Tianhe Supercomputing Huaihai Sub Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianhe Supercomputing Huaihai Sub Center filed Critical Tianhe Supercomputing Huaihai Sub Center
Priority to CN202310964402.2A priority Critical patent/CN116662556B/zh
Publication of CN116662556A publication Critical patent/CN116662556A/zh
Application granted granted Critical
Publication of CN116662556B publication Critical patent/CN116662556B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • G06F16/337Profile generation, learning or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请涉及电数字数据处理技术领域,特别是涉及一种融合用户属性的文本数据处理方法。该方法包括以下步骤:获取目标用户的文本数据A;遍历A1,获取an,1对应的主题情感向量Bn,1;根据Bn,1获取第n个目标用户对应的第一表征向量Vn,1;获取第n个目标用户对应的第二表征向量Vn,2;根据Vn,1、an,2和Vn,2获取第n个目标用户对应的目标表征向量Vn;根据每一Vn对N个目标用户进行聚类,得到聚类结果C;获取待匹配的非数值型文本数据A’;遍历C和A’,将与cj对应的非数值型文本数据匹配的a’ l 作为cj的目标文本数据。本发明使得各目标用户都能够获得与其需求较为匹配的信息。

Description

一种融合用户属性的文本数据处理方法
技术领域
本发明涉及电数字数据处理技术领域,特别是涉及一种融合用户属性的文本数据处理方法。
背景技术
用户生成内容作为一种新兴的信息形式,在信息传播、参与互动、创作、知识共享以及社会影响等方面发挥着重要作用且具有多重价值,充分的挖掘其中潜在的信息能够有助于获取用户的需求。当前对用户生成的文本信息的分析主要是提取其中的关键信息,但是,单纯进行用户生成的文本信息的分析无法全面理解用户的需求,也无法针对性地为用户推荐与其需求匹配的信息。
发明内容
本发明目的在于,提供一种融合用户属性的文本数据处理方法,以为用户推荐更为匹配的信息。
根据本发明,提供了一种融合用户属性的文本数据处理方法,包括以下步骤:
S100,获取目标用户的文本数据A,A=(A1,A2),A1为目标用户的非数值型文本数据,A1=(a1,1,a2,1,…,an,1,…,aN,1),an,1为第n个目标用户的非数值型文本数据,A2为目标用户的数值型文本数据,A2=(a1,2,a2,2,…,an,2,…,aN,2),an,2为第n个目标用户的数值型文本数据;n的取值范围为1到N,N为目标用户的数量;所述非数值型文本数据为不只包括数值的文本数据;所述数值型文本数据为只包括数值的文本数据。
S200,遍历A1,获取an,1对应的主题情感向量Bn,1,Bn,1=(b1 n,1,b2 n,1,…,bm n,1,…,bM n,1),bm n,1为an,1对应的第m个主题的情感值,m的取值范围为1到M,M为an,1对应的主题数量。
S300,根据Bn,1获取第n个目标用户对应的第一表征向量Vn,1
S400,获取第n个目标用户对应的第二表征向量Vn,2,Vn,2=(s1 n,2,s2 n,2,…,si n,2,…,su n,2),si n,2为第n个用户的第i个预设属性对应的元素值,i的取值范围为1到u,u为预设属性的数量。
S500,根据Vn,1、an,2和Vn,2获取第n个目标用户对应的目标表征向量Vn
S600,根据每一Vn对N个目标用户进行聚类,得到聚类结果C,C=(c1,c2,…,cj,…,ck),cj为聚类得到的第j个簇,j的取值范围为1到k,k为聚类得到的簇的数量;cj=(cj,1,cj,2,…,cj,e,…,cj,E),cj,e为cj包括的第e个目标用户,e的取值范围为1到E,E为cj包括的目标用户的数量。
S700,获取待匹配的非数值型文本数据A’,A’=(a’1,a’2,…,a’ l ,…,a’L),a’ l 为第l个待匹配的非数值型文本数据,l的取值范围为1到L,L为待匹配的非数值型文本数据的数量。
S800,遍历C和A’,将与cj对应的非数值型文本数据匹配的a’ l 作为cj的目标文本数据。
本发明与现有技术相比,其至少具有以下有益效果:
本发明获取了目标用户的非数值型文本数据和数值型文本数据,对于目标用户的非数值型文本数据,本发明得到了其对应的主题情感向量,并基于该主题情感向量得到了目标用户的第一表征向量;在目标用户的第一表征向量和目标用户的数值型文本数据的基础上,本发明还获取了与目标用户的属性相关的目标用户的第二表征向量,该第二表征向量用于表征对应目标用户的属性信息;本发明结合了第一表征向量、数值型文本数据和第二表征向量得到了目标用户对应的目标表征向量,该目标表征向量融合了目标用户的非数值型文本、数值型文本和目标用户的属性三方面的数据;本发明将各目标用户对应的目标表征向量作为对目标用户进行聚类的基础,由此得到的同一个簇中目标用户的属性和对应的文本的相似性较高,对应的需求差异较小;不同簇中目标用户的属性和对应的文本的相似性较低,对应的需求差异较大;对于同一簇中的目标用户,本发明将待匹配的非数值型文本数据中与该簇匹配的非数值型文本作为与该簇中各目标用户匹配的文本数据,使得各目标用户都能够获得与其较为匹配的文本数据,使得各目标用户都能够获得与其需求较为匹配的信息。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的融合用户属性的文本数据处理方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
根据本发明,提供了一种融合用户属性的文本数据处理方法,包括以下步骤,如图1所示:
S100,获取目标用户的文本数据A,A=(A1,A2),A1为目标用户的非数值型文本数据,A1=(a1,1,a2,1,…,an,1,…,aN,1),an,1为第n个目标用户的非数值型文本数据,A2为目标用户的数值型文本数据,A2=(a1,2,a2,2,…,an,2,…,aN,2),an,2为第n个目标用户的数值型文本数据;n的取值范围为1到N,N为目标用户的数量;所述非数值型文本数据为不只包括数值的文本数据;所述数值型文本数据为只包括数值的文本数据。
具体的,an,2=(a1 n,2,a2 n,2,…,at n,2,…,aT n,2),at n,2为an,2包括的第t个数值型数据,t的取值为1到T,T为an,2包括的数值型数据的数量。本实施例中不同目标用户对应的数值型文本数据的序列长度相同,不同目标用户对应的数值型文本数据的序列中同一位置对应的元素之间具有对应关系,不同目标用户对应的数值型文本数据的序列中同一位置对应的元素大小可能存在差异。
作为一个具体实施方式,an,1和an,2通过对第n个目标用户进行问卷调查的方式得到,问卷中包括两种类型的题目,其中第一种类型的题目为问答题,an,1由第n个目标用户对第一种类型的答复结果得到;第二种类型的题目为选择题,an,2由第n个目标用户对第二种类型的答复结果得到,at n,2也即第n个目标用户对第t个第二种类型的题目的答复结果,可选的,目标用户对第二种类型的题目的答复结果为1(对应第一个选项)、2(对应第二个选项)、3(对应第三个选项)或4(对应第四个选项),或者目标用户对第二种类型的题目的答复结果为第一个选项中的数值、第二个选项中的数值、第三个选项中的数值或第四个选项中的数值。目标用户对调查问卷的答复结果可以反应目标用户的需求,根据不同目标用户对同一目标问卷的答复结果可以用于判断哪些目标用户的需求较为相似。
优选的,A1为经过数据清洗处理后的非数值型文本,所述数据清洗处理包括缺失值处理、异常值处理、重复值处理、相关领域停用词处理等。
S200,遍历A1,获取an,1对应的主题情感向量Bn,1,Bn,1=(b1 n,1,b2 n,1,…,bm n,1,…,bM n,1),bm n,1为an,1对应的第m个主题的情感值,m的取值范围为1到M,M为an,1对应的主题数量。
具体的,S200包括:
S210,使用经训练的XLNet模型获取an,1对应的语义向量qn,1;qn,1由an,1包括的每一个词的词向量相加求平均得到。
本实施例使用经训练的XLNet模型获取an,1中每一个词的词向量,可选的,每一个词向量为768维的特征向量;通过将词向量相加取平均的方式,可以得到qn,1。本领域技术人员知悉,现有技术中任何的使用XLNet模型实现文本向量化的方法均落入本发明的保护范围。
S220,使用经训练的BiLSTM模型获取qn,1对应的隐层状态Qn,1
本实施例将qn,1输入至经训练的BiLSTM模型,以由经训练的BiLSTM模型提取上下文相关特征,对an,1的深层语义进行分析和计算。本领域技术人员知悉,现有技术中任何的使用BiLSTM模型获取隐层状态的方法均落入本发明的保护范围。
S230,将Qn,1和Hn,1作为自注意力机制的输入,得到自注意力机制的输出H’n,1;Hn,1为an,1对应的主题词的词向量。
由于不同的特征对情感倾向的贡献度上是不同的,因此本实施例将Hn,1作为Qn,1的约束,引入自注意力机制根据特征重要程度赋予不同权重;本领域技术人员知悉,现有技术中任何的使用自注意力机制获取文本数据中的重要特征信息的方法均落入本发明的保护范围。
具体的,Hn,1的获取过程包括以下步骤:
S231,将M和an,1输入至LDA主题模型,得到an,1对应的M个主题的主题词Pn;Pn=(P1 n,P2 n,…,Pm n,…,PM n),Pm n为an,1对应的第m个主题的主题词,Pm n=(pm n,1,pm n,2,…,pm n,r,…,pm n,R),pm n,r为an,1对应的第m个主题的第r个主题词,r的取值范围为1到R,R为an,1对应的第m个主题的主题词数量。
优选的,M的获取过程包括:利用主题一致性分数、困惑度或主题间余弦相似度最小方法确定最优主题个数;利用轮廓系数、误差平方和(SSE)和Davies-Bouldin Index指数确定最佳聚类个数;如果最优主题个数与最佳聚类个数相等,则将最优主题个数的值赋予M;如果最优主题个数与最佳聚类个数不相等,则分别获取最优主题个数对应的综合指标值与最佳聚类个数对应的综合指标值,如果最优主题个数对应的综合指标值较优,则将最优主题个数的值赋予M;如果最佳聚类个数对应的综合指标值较优,则将最佳聚类个数的值赋予M;上述综合指标为主题一致性分数、困惑度、主题间余弦相似度、轮廓系数、误差平方和以及Davies-Bouldin Index指数,可通过为各指标赋予权重的方式来得到综合指标值。
S232,遍历Pn,使用经训练的XLNet模型获取pm n,r的词向量hm n,r,并将hm n,r追加至预设的an,1对应的第m个主题的词向量序列hm n,得到hm n=(hm n,1,hm n,2,…,hm n,r,…,hm n,R);hm n的初始化为空值。
S233,获取Hn,1,Hn,1=(h1 n,h2 n,…,hm n,…,hM n)。
S240,使用softmax函数获取H’n,1对应的各主题的情感值。
本领域技术人员知悉,现有技术中任何的使用softmax函数获得不同主题的情感值的方法均落入本发明的保护范围。
S300,根据Bn,1获取第n个目标用户对应的第一表征向量Vn,1
优选的,S300包括:
S310,获取Bn,1中属于第一预设区间的主题情感值的数量λ1;所述第一预设区间对应的主题情感值表征的是消极情感。
本实施例中情感值的取值范围为(0,1)。作为一种具体的实施方式,第一预设区间为[0,0.3]。
S320,获取Bn,1中属于第二预设区间的主题情感值的数量λ2;所述第二预设区间对应的主题情感值表征的是积极情感。
作为一种具体的实施方式,第二预设区间为[0.7,1]。如果Bn,1中某主题情感值既不属于第一预设区间,也不属于第二预设区间,那么该主题情感值表征的是中立情感。
S330,获取第n个目标用户对应的情感倾向值λ0,λ0=(λ12)/M。
S340,获取an,1对应的第m个主题的主题词平均向量xm;xm由an,1对应的第m个主题的词向量相加求平均得到。
S350,获取an,1对应的主题平均向量yn,1;yn,1由an,1对应的M个主题的主题词平均向量相加求平均得到。
S360,获取第n个目标用户与其他目标用户的非数值型文本相似度simn,simn由第n个目标用户与任一其他目标用户的主题平均向量相似度相加求平均得到。
本领域技术人员知悉,现有技术中任何的获取两向量之间相似度的方法均落入本发明的保护范围。
S370,获取Vn,1,Vn,1=(λ0,simn,M)或Vn,1=(λ0,M,simn)或Vn,1=(simn0,M)或Vn,1=(simn,M,λ0)或Vn,1=(M,simn0)或Vn,1=(M,λ0,simn)。
根据S310-S370得到的Vn,1能够表征an,1包括的主题数量、第n个目标用户与其他目标用户的非数值型文本的相似度和第n个目标用户的情感倾向,反应的是目标用户的需求的多样性、普遍性和情感倾向;基于该Vn,1得到的目标表征向量Vn能够更准确地表征第n个目标用户,有利于提高第n个目标用户与后期为其匹配的目标文本数据之间的匹配度,能够更好地满足第n个目标用户的需求。
S400,获取第n个目标用户对应的第二表征向量Vn,2,Vn,2=(s1 n,2,s2 n,2,…,si n,2,…,su n,2),si n,2为第n个用户的第i个预设属性对应的元素值,i的取值范围为1到u,u为预设属性的数量。
本实施例中不同目标用户对应的第二表征向量的长度相同,不同目标用户对应的第二表征向量中同一位置对应的元素之间具有对应关系,不同目标用户对应的第二表征向量中同一位置对应的元素大小可能存在差异。
作为一个具体实施方式,u=3,第一个预设属性为用户的企业的规模,第二个预设属性为用户的企业的类别,第三个预设属性为用户的企业的注册资金;不同规模对应的数值不同,不同类别对应的数值也不同,可以根据不同目标用户对应的第二表征向量之间的差异判断不同目标用户之间的属性差异。
S500,根据Vn,1、an,2和Vn,2获取第n个目标用户对应的目标表征向量Vn
具体的,S500包括:
S510,获取第n个目标用户对应的初始表征向量V’n,V’n=(Vn,1,an,2,Vn,2)或V’n=(Vn,1,Vn,2,an,2)或V’n=(an,2,Vn,2,Vn,1)或V’n=(an,2,Vn,1,Vn,2)或V’n=(Vn,2,an,2,Vn,1)或V’n=(Vn,2,Vn,1,an,2)。
S520,对V’n中每一元素进行归一化处理,得到Vn
本领域技术人员知悉,现有技术中任何的归一化处理方法均落入本发明的保护范围。
S600,根据每一Vn对N个目标用户进行聚类,得到聚类结果C,C=(c1,c2,…,cj,…,ck),cj为聚类得到的第j个簇,j的取值范围为1到k,k为聚类得到的簇的数量;cj=(cj,1,cj,2,…,cj,e,…,cj,E),cj,e为cj包括的第e个目标用户,e的取值范围为1到E,E为cj包括的目标用户的数量。
优选的,先利用轮廓系数、误差平方和(SSE)和Davies-Bouldin Index指数确定最佳聚类个数k,然后再利用k-means聚类方法进行聚类,其中,将每一目标用户作为一个对象,任意两个目标用户之间的距离与该两个目标用户对应的目标表征向量之间的相似度负相关。
S700,获取待匹配的非数值型文本数据A’,A’=(a’1,a’2,…,a’ l ,…,a’L),a’ l 为第l个待匹配的非数值型文本数据,l的取值范围为1到L,L为待匹配的非数值型文本数据的数量。
本实施例中A’为由拟向用户推荐的所有文本数据构成的序列。优选的,A’为经过数据清洗处理后的非数值型文本,所述数据清洗处理包括缺失值处理、异常值处理、重复值处理、相关领域停用词处理等。作为一个具体的实施方式,A’为包括针对性解决不同用户需求的策略在内的非数值型文本。
S800,遍历C和A’,将与cj对应的非数值型文本数据匹配的a’ l 作为cj的目标文本数据。
具体的,S800包括:
S810,获取cj对应的非数值型文本数据Gj,Gj=(gj,1,gj,2,…,gj,e,…,gj,E),gj,e为A1中cj,e对应的非数值型文本数据。
应当理解的是,cj中每一目标用户对应的非数值文本数据均出现在A1中。
S820,遍历Gj,获取gj,e对应的语义向量fj,e
本实施例使用经训练的XLNet模型获取gj,e中每一个词的词向量,可选的,每一个词向量为768维的特征向量;通过将词向量相加取平均的方式,可以得到fj,e。本领域技术人员知悉,现有技术中任何的使用XLNet模型实现文本向量化的方法均落入本发明的保护范围。
S830,遍历A’,获取a’ l 对应的语义向量f’ l
本实施例使用经训练的XLNet模型获取a’ l 中每一个词的词向量,可选的,每一个词向量为768维的特征向量;通过将词向量相加取平均的方式,可以得到f’ l 。本领域技术人员知悉,现有技术中任何的使用XLNet模型实现文本向量化的方法均落入本发明的保护范围。
S840,获取gj,e与a’ l 的语义相似度w l j,e
本领域技术人员知悉,现有技术中任何获取两向量之间相似度的方法均落入本发明的保护范围。
S850,获取cj与a’ l 的语义相似度w l ,w l =(∑E e=1w l j,e)/E。
本实施例中cj与a’ l 的语义相似度w l 为cj包括的所有目标用户对应的非数值型文本数据与a’ l 的语义相似度的平均值。
S860,获取cj对应的语义相似度序列w,w=(w1,w2,…,w l ,…,wL)。
S870,将max(w)对应的A’中待匹配的非数值型文本数据判定为与cj对应的非数值型文本数据匹配的a’ l ,max( )为取最大值。
本实施例中max(w)为w中最大的语义相似度,与cj对应的非数值型文本数据匹配的a’ l 即向cj中各目标用户推荐的目标文本数据。
本实施例获取了目标用户的非数值型文本数据和数值型文本数据,对于目标用户的非数值型文本数据,本实施例得到了其对应的主题情感向量,并基于该主题情感向量得到了目标用户的第一表征向量;在目标用户的第一表征向量和目标用户的数值型文本数据的基础上,本实施例还获取了与目标用户的属性相关的目标用户的第二表征向量,该第二表征向量用于表征对应目标用户的属性信息;本实施例结合了第一表征向量、数值型文本数据和第二表征向量得到了目标用户对应的目标表征向量,该目标表征向量融合了目标用户的非数值型文本、数值型文本和目标用户的属性三方面的数据;本实施例将各目标用户对应的目标表征向量作为对目标用户进行聚类的基础,由此得到的同一个簇中目标用户的属性和对应的文本的相似性较高,对应的需求差异较小;不同簇中目标用户的属性和对应的文本的相似性较低,对应的需求差异较大;对于同一簇中的目标用户,本实施例将待匹配的非数值型文本数据中与该簇匹配的非数值型文本作为与该簇中各目标用户匹配的文本数据,使得各目标用户都能够获得与其较为匹配的文本数据,使得各目标用户都能够获得与其需求较为匹配的信息。
虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员还应理解,可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明的范围由所附权利要求来限定。

Claims (7)

1.一种融合用户属性的文本数据处理方法,其特征在于,包括以下步骤:
S100,获取目标用户的文本数据A,A=(A1,A2),A1为目标用户的非数值型文本数据,A1=(a1,1,a2,1,…,an,1,…,aN,1),an,1为第n个目标用户的非数值型文本数据,A2为目标用户的数值型文本数据,A2=(a1,2,a2,2,…,an,2,…,aN,2),an,2为第n个目标用户的数值型文本数据;n的取值范围为1到N,N为目标用户的数量;所述非数值型文本数据为不只包括数值的文本数据;所述数值型文本数据为只包括数值的文本数据;
S200,遍历A1,获取an,1对应的主题情感向量Bn,1,Bn,1=(b1 n,1,b2 n,1,…,bm n,1,…,bM n,1),bm n,1为an,1对应的第m个主题的情感值,m的取值范围为1到M,M为an,1对应的主题数量;
S300,根据Bn,1获取第n个目标用户对应的第一表征向量Vn,1
S400,获取第n个目标用户对应的第二表征向量Vn,2,Vn,2=(s1 n,2,s2 n,2,…,si n,2,…,su n,2),si n,2为第n个用户的第i个预设属性对应的元素值,i的取值范围为1到u,u为预设属性的数量;
S500,根据Vn,1、an,2和Vn,2获取第n个目标用户对应的目标表征向量Vn
S600,根据每一Vn对N个目标用户进行聚类,得到聚类结果C,C=(c1,c2,…,cj,…,ck),cj为聚类得到的第j个簇,j的取值范围为1到k,k为聚类得到的簇的数量;cj=(cj,1,cj,2,…,cj,e,…,cj,E),cj,e为cj包括的第e个目标用户,e的取值范围为1到E,E为cj包括的目标用户的数量;
S700,获取待匹配的非数值型文本数据A’,A’=(a’1,a’2,…,a’ l ,…,a’L),a’ l 为第l个待匹配的非数值型文本数据,l的取值范围为1到L,L为待匹配的非数值型文本数据的数量;
S800,遍历C和A’,将与cj对应的非数值型文本数据匹配的a’ l 作为cj的目标文本数据。
2.根据权利要求1所述的融合用户属性的文本数据处理方法,其特征在于,S800包括:
S810,获取cj对应的非数值型文本数据Gj,Gj=(gj,1,gj,2,…,gj,e,…,gj,E),gj,e为A1中cj,e对应的非数值型文本数据;
S820,遍历Gj,获取gj,e对应的语义向量fj,e
S830,遍历A’,获取a’ l 对应的语义向量f’ l
S840,获取gj,e与a’ l 的语义相似度w l j,e
S850,获取cj与a’ l 的语义相似度w l ,w l =(∑E e=1w l j,e)/E;
S860,获取cj对应的语义相似度序列w,w=(w1,w2,…,w l ,…,wL);
S870,将max(w)对应的A’中待匹配的非数值型文本数据判定为与cj对应的非数值型文本数据匹配的a’ l ,max( )为取最大值。
3.根据权利要求1所述的融合用户属性的文本数据处理方法,其特征在于,S200包括:
S210,使用经训练的XLNet模型获取an,1对应的语义向量qn,1;qn,1由an,1包括的每一个词的词向量相加求平均得到;
S220,使用经训练的BiLSTM模型获取qn,1对应的隐层状态Qn,1
S230,将Qn,1和Hn,1作为自注意力机制的输入,得到自注意力机制的输出H’n,1;Hn,1为an,1对应的主题词的词向量;
S240,使用softmax函数获取H’n,1对应的各主题的情感值。
4.根据权利要求3所述的融合用户属性的文本数据处理方法,其特征在于,Hn,1的获取过程包括以下步骤:
S231,将M和an,1输入至LDA主题模型,得到an,1对应的M个主题的主题词Pn;Pn=(P1 n,P2 n,…,Pm n,…,PM n),Pm n为an,1对应的第m个主题的主题词,Pm n=(pm n,1,pm n,2,…,pm n,r,…,pm n,R),pm n,r为an,1对应的第m个主题的第r个主题词,r的取值范围为1到R,R为an,1对应的第m个主题的主题词数量;
S232,遍历Pn,使用经训练的XLNet模型获取pm n,r的词向量hm n,r,并将hm n,r追加至预设的an,1对应的第m个主题的词向量序列hm n,得到hm n=(hm n,1,hm n,2,…,hm n,r,…,hm n,R);hm n的初始化为空值;
S233,获取Hn,1,Hn,1=(h1 n,h2 n,…,hm n,…,hM n)。
5.根据权利要求1所述的融合用户属性的文本数据处理方法,其特征在于,S300包括:
S310,获取Bn,1中属于第一预设区间的主题情感值的数量λ1;所述第一预设区间对应的主题情感值表征的是消极情感;
S320,获取Bn,1中属于第二预设区间的主题情感值的数量λ2;所述第二预设区间对应的主题情感值表征的是积极情感;
S330,获取第n个目标用户对应的情感倾向值λ0,λ0=(λ12)/M;
S340,获取an,1对应的第m个主题的主题词平均向量xm;xm由an,1对应的第m个主题的词向量相加求平均得到;
S350,获取an,1对应的主题平均向量yn,1;y n,1由an,1对应的M个主题的主题词平均向量相加求平均得到;
S360,获取第n个目标用户与其他目标用户的非数值型文本相似度simn,simn由第n个目标用户与任一其他目标用户的主题平均向量相似度相加求平均得到;
S370,获取Vn,1,Vn,1=(λ0,simn,M)或Vn,1=(λ0,M,simn)或Vn,1=(simn0,M)或Vn,1=(simn,M,λ0)或Vn,1=(M,simn0)或Vn,1=(M,λ0,simn)。
6.根据权利要求1所述的融合用户属性的文本数据处理方法,其特征在于,an,2=(a1 n,2,a2 n,2,…,at n,2,…,aT n,2),at n,2为an,2包括的第t个数值型数据,t的取值为1到T,T为an,2包括的数值型数据的数量。
7.根据权利要求1所述的融合用户属性的文本数据处理方法,其特征在于,S500包括:
S510,获取第n个目标用户对应的初始表征向量V’n,V’n=(Vn,1,an,2,Vn,2)或V’n=(Vn,1,Vn,2,an,2)或V’n=(an,2,Vn,2,Vn,1)或V’n=(an,2,Vn,1,Vn,2)或V’n=(Vn,2,an,2,Vn,1)或V’n=(Vn,2,Vn,1,an,2);
S520,对V’n中每一元素进行归一化处理,得到Vn
CN202310964402.2A 2023-08-02 2023-08-02 一种融合用户属性的文本数据处理方法 Active CN116662556B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310964402.2A CN116662556B (zh) 2023-08-02 2023-08-02 一种融合用户属性的文本数据处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310964402.2A CN116662556B (zh) 2023-08-02 2023-08-02 一种融合用户属性的文本数据处理方法

Publications (2)

Publication Number Publication Date
CN116662556A true CN116662556A (zh) 2023-08-29
CN116662556B CN116662556B (zh) 2023-10-20

Family

ID=87710194

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310964402.2A Active CN116662556B (zh) 2023-08-02 2023-08-02 一种融合用户属性的文本数据处理方法

Country Status (1)

Country Link
CN (1) CN116662556B (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577579A (zh) * 2013-11-08 2014-02-12 南方电网科学研究院有限责任公司 基于用户潜在需求的资源推荐方法及系统
US20150205859A1 (en) * 2012-08-31 2015-07-23 Nec Corporation Text mining device, text mining method, and computer-readable recording medium
US9367608B1 (en) * 2009-01-07 2016-06-14 Guangsheng Zhang System and methods for searching objects and providing answers to queries using association data
CN108491529A (zh) * 2018-03-28 2018-09-04 百度在线网络技术(北京)有限公司 信息推荐方法及装置
CN108877880A (zh) * 2018-06-29 2018-11-23 清华大学 基于病历文本的病人相似性度量装置及方法
CN112507248A (zh) * 2020-09-18 2021-03-16 西北大学 一种基于用户评论数据和信任关系的旅游景点推荐方法
CN112800248A (zh) * 2021-01-19 2021-05-14 天河超级计算淮海分中心 相似病例检索方法、装置、计算机设备及存储介质
WO2021143396A1 (zh) * 2020-01-16 2021-07-22 支付宝(杭州)信息技术有限公司 利用文本分类模型进行分类预测的方法及装置
WO2021189976A1 (zh) * 2020-03-25 2021-09-30 平安科技(深圳)有限公司 一种产品信息推送方法、装置、设备及存储介质
CN114119057A (zh) * 2021-08-10 2022-03-01 国家电网有限公司 用户画像模型的构建系统
US20220147715A1 (en) * 2019-05-16 2022-05-12 Huawei Technologies Co., Ltd. Text processing method, model training method, and apparatus
CN114691861A (zh) * 2020-12-28 2022-07-01 北京市博汇科技股份有限公司 一种基于主题词语义相似度的话题聚类方法
WO2022141861A1 (zh) * 2020-12-31 2022-07-07 平安科技(深圳)有限公司 情感分类方法、装置、电子设备及存储介质

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9367608B1 (en) * 2009-01-07 2016-06-14 Guangsheng Zhang System and methods for searching objects and providing answers to queries using association data
US20150205859A1 (en) * 2012-08-31 2015-07-23 Nec Corporation Text mining device, text mining method, and computer-readable recording medium
CN103577579A (zh) * 2013-11-08 2014-02-12 南方电网科学研究院有限责任公司 基于用户潜在需求的资源推荐方法及系统
CN108491529A (zh) * 2018-03-28 2018-09-04 百度在线网络技术(北京)有限公司 信息推荐方法及装置
CN108877880A (zh) * 2018-06-29 2018-11-23 清华大学 基于病历文本的病人相似性度量装置及方法
US20220147715A1 (en) * 2019-05-16 2022-05-12 Huawei Technologies Co., Ltd. Text processing method, model training method, and apparatus
WO2021143396A1 (zh) * 2020-01-16 2021-07-22 支付宝(杭州)信息技术有限公司 利用文本分类模型进行分类预测的方法及装置
WO2021189976A1 (zh) * 2020-03-25 2021-09-30 平安科技(深圳)有限公司 一种产品信息推送方法、装置、设备及存储介质
CN112507248A (zh) * 2020-09-18 2021-03-16 西北大学 一种基于用户评论数据和信任关系的旅游景点推荐方法
CN114691861A (zh) * 2020-12-28 2022-07-01 北京市博汇科技股份有限公司 一种基于主题词语义相似度的话题聚类方法
WO2022141861A1 (zh) * 2020-12-31 2022-07-07 平安科技(深圳)有限公司 情感分类方法、装置、电子设备及存储介质
CN112800248A (zh) * 2021-01-19 2021-05-14 天河超级计算淮海分中心 相似病例检索方法、装置、计算机设备及存储介质
CN114119057A (zh) * 2021-08-10 2022-03-01 国家电网有限公司 用户画像模型的构建系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王婷婷;韩满;王宇;: "LDA模型的优化及其主题数量选择研究――以科技文献为例", 数据分析与知识发现, no. 01, pages 33 - 34 *

Also Published As

Publication number Publication date
CN116662556B (zh) 2023-10-20

Similar Documents

Publication Publication Date Title
US11989220B2 (en) System for determining and optimizing for relevance in match-making systems
WO2020119272A1 (zh) 风险识别模型训练方法、装置及服务器
Farnadi et al. Computational personality recognition in social media
Baatarjav et al. Group recommendation system for facebook
US20040172267A1 (en) Statistical personalized recommendation system
US20090210246A1 (en) Statistical personalized recommendation system
WO2016104736A1 (ja) コミュニケーション提供システム及びコミュニケーション提供方法
CN111143704B (zh) 一种融合用户影响关系的在线社区好友推荐方法及系统
Lu et al. Does The internet make us more intolerant? A contextual analysis in 33 countries
Rhue et al. WHO ARE YOU AND WHAT ARE YOU SELLING? CREATORBASED AND PRODUCT-BASED RACIAL CUES IN CROWDFUNDING.
CN116662556B (zh) 一种融合用户属性的文本数据处理方法
CN110633410A (zh) 信息处理方法及装置、存储介质、电子装置
Kim et al. The effects of cultural distance on online brand popularity
CN115630147A (zh) 应答方法、装置、电子设备及存储介质
Cannon et al. " Don't Downvote A\$\$\$\$\$\$ s!!": An Exploration of Reddit's Advice Communities
CN107590742A (zh) 一种基于行为的社交网络用户属性值反演方法
CN111680134A (zh) 一种信息熵度量问答咨询信息的方法
McIlwraith Algorithms of the intelligent web
khan Feroz et al. To what extent do network effects moderate the relationship between social media propagated news and investors’ perceptions?
Matin IRANIAN YOUTH’S IDENTITY POLITICS: COSMOPOLITAN ASPIRATIONS, SELF-REPROACH AND LIVED EXPERIENCES OF BELONGINGNESS TO THE NATION
Rhue et al. Who Are You and What Are You Selling? The Effects of Creator-Based and Product-Based Racial Cues on Crowdfunding Success
Martín et al. The unstudied effects of wording and answer formats in the analysis of impartiality in public service provision
TWI829241B (zh) 媒合系統
Ayoub Designing and Developing a Personalized Country Recommender System
Williams Hybrid Recommender System via Spectral Learning and a Random Forest

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant