CN113704436A - 基于会话场景的用户画像标签挖掘方法及装置 - Google Patents
基于会话场景的用户画像标签挖掘方法及装置 Download PDFInfo
- Publication number
- CN113704436A CN113704436A CN202111028037.1A CN202111028037A CN113704436A CN 113704436 A CN113704436 A CN 113704436A CN 202111028037 A CN202111028037 A CN 202111028037A CN 113704436 A CN113704436 A CN 113704436A
- Authority
- CN
- China
- Prior art keywords
- words
- labels
- word
- label
- initial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及一种基于会话场景的用户画像标签挖掘方法、装置、计算机设备和存储介质。所述方法包括:从会话场景信息中提取多个对话短文本,将对话短文本分词后,训练词向量语义模型,根据初始标签的词汇类别,将初始标签输入到对应的语义模型中得到初始标签的同级标签;将筛选后的同级标签作为新标签加入初始用户画像标签体系的标签集中,采用聚类算法对短文本进行计算得到多个类簇,从类簇中提取中心词,将标签集中的标签和中心词进行语义相似度计算,得到标记后的类簇或未标记的类簇,根据未标记的类簇的中心词,得到初始用户画像标签体系的新标签。采用本方法能够挖掘用户画像的新标签。
Description
技术领域
本申请涉及数据挖掘领域,特别是涉及一种基于会话场景的用户画像标签挖掘方法、装置、计算机设备和存储介质。
背景技术
在会话场景,人与人之间的交流过程中,会提到一些个人情况、话题、生活习惯、兴趣爱好、产品偏好等,从这些数据中构建用户画像标签,可以更好的服务用户需求,从会话文本中挖掘用户画像标签,实现场景人像特征生成,在推荐系统中,能够更好的定位用户的偏好,实现个性化精准推荐;用户画像标签挖掘方法也可以应用与领域人物知识图谱的构建。
然而,现有的技术主要是基于短评和文章等内容构建业务标签体系,会话场景的难点在于会话场景中语料没有较好的连贯性,缺少针对会话场景的人物画像挖掘技术。
发明内容
基于此,有必要针对上述技术问题,提供一种能够挖掘针对会话场景的用户画像标签的基于会话场景的用户画像标签挖掘方法、装置、计算机设备和存储介质。
一种基于会话场景的用户画像标签挖掘方法,所述方法包括:
获取用户会话场景信息;用户会话场景信息中包含多个对话短文本;
根据对话短文本搭建用户画像标签体系;在用户画像标签体系定义初始用户画像标签体系及初始标签;
将对话短文本分词,根据分词后的词汇类别,预先训练词向量语义模型;词向量语义模型包括泛语义模型和场景语义模型;
根据初始标签的词汇类别,将初始标签输入到对应的语义模型中得到初始标签的同级标签;将筛选后的同级标签作为新标签加入初始用户画像标签体系的标签集中;
采用聚类算法对短文本进行计算得到多个类簇,从类簇中提取中心词;中心词为类簇数据分词后的高频词;
将标签集中的标签和中心词进行语义相似度计算,根据相似度解算结果,得到标记后的类簇或未标记的类簇;
根据未标记的类簇的中心词,得到初始用户画像标签体系的新标签。
在其中一个实施例中,还包括:对对话短文本数据采用规则挖掘算法,得到所有数值类数据;预先设置多个分类模型,根据数值类数据的类型,将数值类数据划分到对应的分类模型中;对所有分类模型进行标记,得到数值类数据的标签;将数值类数据的标签加入初始用户画像标签体系的标签集中。
在其中一个实施例中,将对话短文本分词,根据分词后的词汇类别,预先训练词向量语义模型;词向量语义模型包括泛语义模型和场景语义模型,包括:
将对话短文本分词,将词汇分为泛领域词汇、垂直领域词汇和其他词汇;
根据分词后的词汇类别,使用开放领域的语料训练泛语义模型,使用垂直领域的会话数据训练场景语义模型。
在其中一个实施例中,使用开放领域的语料训练泛语义模型,包括:
根据分词后的泛领域词汇,利用爬虫爬取百科类网站文本内容,通过文本清洗,去除停用词;使用分词工具对去除停用词的文本进行分词,利用机器学习算法对分词后的词汇进行建模训练,得到泛语义模型。
在其中一个实施例中,使用垂直领域的会话数据训练场景语义模型,包括:
根据分词后的垂直领域词汇,获取垂直领域的会话数据,通过文本清洗和高频词统计分析,将筛选后的高频词加入停用词表;使用分词工具对文本进行分词,去除停用词后利用机器学习算法对分词后的词汇进行建模训练,得到场景语义模型。
在其中一个实施例中,将标签集中的标签和中心词进行语义相似度计算,根据相似度解算结果,得到标记后的类簇或未标记的类簇,包括:
将标签集中的标签和中心词进行语义相似度计算,若相似度大于预先设置的阈值,则使用标签标记中心词对应的类簇;若相似度小于预先设置的阈值,则不使用标签标记所述中心词对应的类簇。
在其中一个实施例中,根据未标记的类簇的中心词,得到初始用户画像标签体系的新标签,包括:
根据未标记的类簇的中心词,业务人员进行审核后,将具有业务含义的词汇重新定义为新标签,加入初始用户画像标签体系。
一种基于会话场景的用户画像标签挖掘装置,所述装置包括:
定义标签体系模块,用于获取用户会话场景信息;用户会话场景信息中包含多个对话短文本;根据对话短文本搭建用户画像标签体系;在用户画像标签体系定义初始用户画像标签体系及初始标签;
扩充标签集模块,用于将对话短文本分词,根据分词后的词汇类别,预先训练词向量语义模型;词向量语义模型包括泛语义模型和场景语义模型;根据初始标签的词汇类别,将初始标签输入到对应的语义模型中得到初始标签的同级标签;将筛选后的同级标签作为新标签加入初始用户画像标签体系的标签集中;
相似度计算模块,用于采用聚类算法对短文本进行计算得到多个类簇,从类簇中提取中心词;中心词为类簇数据分词后的高频词;将标签集中的标签和中心词进行语义相似度计算,根据相似度解算结果,得到标记后的类簇或未标记的类簇;
新标签生成模块,用于根据未标记的类簇的中心词,得到初始用户画像标签体系的新标签。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取用户会话场景信息;用户会话场景信息中包含多个对话短文本;
根据对话短文本搭建用户画像标签体系;在用户画像标签体系定义初始用户画像标签体系及初始标签;
将对话短文本分词,根据分词后的词汇类别,预先训练词向量语义模型;词向量语义模型包括泛语义模型和场景语义模型;
根据初始标签的词汇类别,将初始标签输入到对应的语义模型中得到初始标签的同级标签;将筛选后的同级标签作为新标签加入初始用户画像标签体系的标签集中;
采用聚类算法对短文本进行计算得到多个类簇,从类簇中提取中心词;中心词为类簇数据分词后的高频词;
将标签集中的标签和中心词进行语义相似度计算,根据相似度解算结果,得到标记后的类簇或未标记的类簇;
根据未标记的类簇的中心词,得到初始用户画像标签体系的新标签。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取用户会话场景信息;用户会话场景信息中包含多个对话短文本;
根据对话短文本搭建用户画像标签体系;在用户画像标签体系定义初始用户画像标签体系及初始标签;
将对话短文本分词,根据分词后的词汇类别,预先训练词向量语义模型;词向量语义模型包括泛语义模型和场景语义模型;
根据初始标签的词汇类别,将初始标签输入到对应的语义模型中得到初始标签的同级标签;将筛选后的同级标签作为新标签加入初始用户画像标签体系的标签集中;
采用聚类算法对短文本进行计算得到多个类簇,从类簇中提取中心词;中心词为类簇数据分词后的高频词;
将标签集中的标签和中心词进行语义相似度计算,根据相似度解算结果,得到标记后的类簇或未标记的类簇;
根据未标记的类簇的中心词,得到初始用户画像标签体系的新标签。
上述基于会话场景的用户画像标签挖掘方法、装置、计算机设备和存储介质,一方面通过对对话短文本中用户画像标签进行识别后分别输入到预先训练的语义模型中计算后得到用户画像的同级标签,将筛选后的同级标签作为新标签加入初始用户画像标签体系的标签集中,另一方面使用聚类算法将没有连贯性的短文本信息聚类后与标签集中的标签进行相似度计算得到新标签,从而挖掘出了初始用户画像标签体系的新标签。
附图说明
图1为一个实施例中基于会话场景的用户画像标签挖掘方法的流程示意图;
图2为一个实施例中基于会话场景的用户画像标签挖掘装置的结构框图;
图3为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种基于会话场景的用户画像标签挖掘方法,包括以下步骤:
步骤102,获取用户会话场景信息;用户会话场景信息中包含多个对话短文本;根据对话短文本搭建用户画像标签体系;在用户画像标签体系定义初始用户画像标签体系及初始标签。
用户会话场景信息由多个短文本组成,会话场景中的每次对话作为一个短文本,短文本中包含用户的特征信息,比如:身份信息、从业信息、家庭信息、生活习惯、兴趣爱好、产品偏好等,根据用户会话场景中体现的行业特性及业务特性搭建用户画像标签体系,在用户画像标签体系中选择一个用户作为初始用户画像标签体系,在初始用户画像标签体系中拟定一个标签为初始标签,初始标签作为是挖掘体系中的种子标签,后续将使用语义对初始标签进行标签扩充。
步骤104,将对话短文本分词,根据分词后的词汇类别,预先训练词向量语义模型;词向量语义模型包括泛语义模型和场景语义模型;根据初始标签的词汇类别,将初始标签输入到对应的语义模型中得到初始标签的同级标签;将筛选后的同级标签作为新标签加入初始用户画像标签体系的标签集中。
短文本由许多带有信息量的词汇构成,利用分词工具将短文本分为泛领域词汇、垂直领域词汇和停用词等。泛领域词汇指开放领域的词汇,垂直领域词汇指特定领域,比如金融领域的常用词。停用词是指不具备业务含义的高频词。根据分词后的词汇类别,使用对应的数据训练语义模型,泛语义模型是指使用百科类网站的数据为基础进行训练的词向量模型。场景语义模型是指使用会话场景中的文本数据为基础进行训练的词向量模型。种子标签若为泛领域词汇,则将种子标签词输入到泛语义模型中获得词向量,如职业:律师,经过向量计算得到所有与该种子词接近的其他职业,如检察官、警长、法官等用于扩充职业范围内的同级标签词。种子标签若为垂直领域的词汇,则将种子标签词输入到场景语义模型获得词向量,计算得到所有与该种子词接近的其他词汇作为新的同级标签词。经过人工筛选后将同级标签词作为新标签加入初始用户画像标签体系的标签集中,一方面用来扩充初始用户标签体系,另一方面用来标记短文本聚类后的类簇数据。
步骤106,采用聚类算法对短文本进行计算得到多个类簇,从类簇中提取中心词;中心词为类簇数据分词后的高频词;将标签集中的标签和中心词进行语义相似度计算,根据相似度解算结果,得到标记后的类簇或未标记的类簇。
聚类就是按照某个特定标准(如距离准则)把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能地大。对短文本采用聚类算法后得到的类簇具有业务特征显著性,将数据经过分词后提取高频词作为该类簇的中心词,将中心词与标签集中的所有标签输入泛语义模型中得到词向量计算语义相似度,如果相似度高则将该类簇标记上对应标签。
步骤108,根据未标记的类簇的中心词,得到初始用户画像标签体系的新标签。
未标记的类簇为包含了当前用户画像标签体系中不存在的标签概念的数据,对类簇的中心词进行审核后,定义为新标签,加入初始用户画像标签体系,扩充标签体系中的标签词。
上述基于会话场景的用户画像标签挖掘方法、装置、计算机设备和存储介质,一方面通过对对话短文本中用户画像标签进行识别后分别输入到预先训练的语义模型中计算后得到用户画像的同级标签,将筛选后的同级标签作为新标签加入初始用户画像标签体系的标签集中,另一方面使用聚类算法将没有连贯性的短文本信息聚类后与标签集中的标签进行相似度计算得到新标签,从而挖掘出了初始用户画像标签体系的新标签。
在其中一个实施例中,还包括:对对话短文本数据采用规则挖掘算法,得到所有数值类数据;预先设置多个分类模型,根据数值类数据的类型,将数值类数据划分到对应的分类模型中;对所有分类模型进行标记,得到数值类数据的标签;将数值类数据的标签加入初始用户画像标签体系的标签集中。
短文本中的数值类的标签无法直接关联,如年龄段、金额等。在本实施例中使用规则挖掘算法将所有数值类数据筛选出来,通过设置分类模型对数值类数据进行分类,然后对分类模型进行标记,得到数值类数据的标签,将该标签加入初始用户画像标签体系的标签集中,用来扩充初始用户画像标签体系并且可以用来与类簇数据做相似度计算后标记类簇数据。
在其中一个实施例中,将对话短文本分词,根据分词后的词汇类别,预先训练词向量语义模型;词向量语义模型包括泛语义模型和场景语义模型,包括:将对话短文本分词,将词汇分为泛领域词汇、垂直领域词汇和其他词汇;根据分词后的词汇类别,使用开放领域的语料训练泛语义模型,使用垂直领域的会话数据训练场景语义模型。
通过训练语义模型,将初始标签输入语义模型中可以准确挖掘出初始标签的同级标签词。
在其中一个实施例中,使用开放领域的语料训练泛语义模型,包括:
根据分词后的泛领域词汇,利用爬虫爬取百科类网站文本内容,通过文本清洗,去除停用词;使用分词工具对去除停用词的文本进行分词,利用机器学习算法对分词后的词汇进行建模训练,得到泛语义模型。
百科类网站包括:百度,谷歌等。本实施例中,通过爬虫爬取百科类网站的文本内容,在文本内容的基础上进行文本清洗,去掉停用词等操作,使用机器学习算法进行建模训练,得到所需的泛语义模型,用来计算得到所有与初始标签接近的同级词汇,该同级词汇作为同级标签词用来扩充初始用户标签体系。
具体的,机器学习算法可以是fasttext算法但不限于fasttext算法。
在其中一个实施例中,使用垂直领域的会话数据训练场景语义模型,包括:
根据分词后的垂直领域词汇,获取垂直领域的会话数据,通过文本清洗和高频词统计分析,将筛选后的高频词加入停用词表;使用分词工具对文本进行分词,去除停用词后利用机器学习算法对分词后的词汇进行建模训练,得到场景语义模型。
对统计分析后的高频词进行业务筛选,将不具备业务含义的高频词加入停用表,分词后的文本去除停用词后,使用机器学习算法对分词后的文本进行建模训练,得到会话场景下的所有词的向量模型。将初始标签输入到词向量模型中进行语义挖掘,计算与标签词相近的词,作为联想标签词,然后通过业务人员筛选定义为新标签扩充初始用户标签体系。
具体的,机器学习算法可以是fasttext算法但不限于fasttext算法。
在其中一个实施例中,将标签集中的标签和中心词进行语义相似度计算,根据相似度解算结果,得到标记后的类簇或未标记的类簇,包括:将标签集中的标签和中心词进行语义相似度计算,若相似度大于预先设置的阈值,则使用标签标记中心词对应的类簇;若相似度小于预先设置的阈值,则不使用标签标记所述中心词对应的类簇。
将标签集中的标签和中心词进行语义相似度计算,若相似度大于预先设置的阈值,则使用该相似度结果对应的参与计算的标签标记中心词对应的类簇,标签与类簇关联。若相似度大于预先设置的阈值,则不使用标签相关联。
在其中一个实施例中,根据未标记的类簇的中心词,业务人员进行审核后,将具有业务含义的词汇重新定义为新标签,加入初始用户画像标签体系。
未标记标签的类簇中包含了当前标签体系中不存在的标签概念,通过提取该类簇的高频词作为中心词,提供给业务人员从业务角度进行筛选定义,将具有业务含义的词汇重新定义出新标签,加入初始用户画像标签体系中,扩充了标签体系中的标签,完善初始用户画像标签体系。
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图2所示,提供了一种基于会话场景的用户画像标签挖掘装置,包括:定义标签体系模块202、扩充标签集模块204、相似度计算模块模块206和新标签生成模块208,其中:
定义标签体系模块202,用于获取用户会话场景信息;用户会话场景信息中包含多个对话短文本;根据对话短文本搭建用户画像标签体系;在用户画像标签体系定义初始用户画像标签体系及初始标签;
扩充标签集模块204,用于将对话短文本分词,根据分词后的词汇类别,预先训练词向量语义模型;词向量语义模型包括泛语义模型和场景语义模型;根据初始标签的词汇类别,将初始标签输入到对应的语义模型中得到初始标签的同级标签;将筛选后的同级标签作为新标签加入初始用户画像标签体系的标签集中;
相似度计算模块206,用于采用聚类算法对短文本进行计算得到多个类簇,从类簇中提取中心词;中心词为类簇数据分词后的高频词;将标签集中的标签和中心词进行语义相似度计算,根据相似度解算结果,得到标记后的类簇或未标记的类簇;
新标签生成模块208,用于根据未标记的类簇的中心词,得到初始用户画像标签体系的新标签。
在一个实施例中,扩充标签集模块204还用于对对话短文本数据采用规则挖掘算法,得到所有数值类数据;预先设置多个分类模型,根据数值类数据的类型,将数值类数据划分到对应的分类模型中;对所有分类模型进行标记,得到数值类数据的标签;将数值类数据的标签加入初始用户画像标签体系的标签集中。
在一个实施例中,扩充标签集模块204还用于将对话短文本分词,将词汇分为泛领域词汇、垂直领域词汇和其他词汇;根据分词后的词汇类别,使用开放领域的语料训练泛语义模型,使用垂直领域的会话数据训练场景语义模型。
在一个实施例中,扩充标签集模块204还用于根据分词后的泛领域词汇,利用爬虫爬取百科类网站文本内容,通过文本清洗,去除停用词;使用分词工具对去除停用词的文本进行分词,利用机器学习算法对分词后的词汇进行建模训练,得到泛语义模型。
在一个实施例中,扩充标签集模块块204还用于根据分词后的垂直领域词汇,获取垂直领域的会话数据,通过文本清洗和高频词统计分析,将筛选后的高频词加入停用词表;使用分词工具对文本进行分词,去除停用词后利用机器学习算法对分词后的词汇进行建模训练,得到场景语义模型。
在一个实施例中,相似度计算模块模块206还用于将标签集中的标签和中心词进行语义相似度计算,若相似度大于预先设置的阈值,则使用标签标记中心词对应的类簇;若相似度小于预先设置的阈值,则不使用标签标记所述中心词对应的类簇。
在一个实施例中,新标签生成模208还用于根据未标记的类簇的中心词,业务人员进行审核后,将具有业务含义的词汇重新定义为新标签,加入初始用户画像标签体系。
关于基于会话场景的用户画像标签挖掘装置的具体限定可以参见上文中对于基于会话场景的用户画像标签挖掘方法的限定,在此不再赘述。上述基于会话场景的用户画像标签挖掘装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于会话场景的用户画像标签挖掘方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述实施例中方法的步骤。
在一个实施例中,提供了一种计算机存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种基于会话场景的用户画像标签挖掘方法,其特征在于,所述方法包括:
获取用户会话场景信息;所述用户会话场景信息中包含多个对话短文本;
根据所述对话短文本搭建用户画像标签体系;在所述用户画像标签体系定义初始用户画像标签体系及初始标签;
将所述对话短文本分词,根据分词后的词汇类别,预先训练词向量语义模型;所述词向量语义模型包括泛语义模型和场景语义模型;
根据所述初始标签的词汇类别,将所述初始标签输入到对应的语义模型中得到所述初始标签的同级标签;将筛选后的同级标签作为新标签加入初始用户画像标签体系的标签集中;
采用聚类算法对所述短文本进行计算得到多个类簇,从所述类簇中提取中心词;所述中心词为所述类簇数据分词后的高频词;
将所述标签集中的标签和所述中心词进行语义相似度计算,根据相似度解算结果,得到标记后的类簇或未标记的类簇;
根据所述未标记的类簇的中心词,得到初始用户画像标签体系的新标签。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对所述对话短文本数据采用规则挖掘算法,得到所有数值类数据;
预先设置多个分类模型,根据所述数值类数据的类型,将所述数值类数据划分到对应的分类模型中;
对所有分类模型进行标记,得到数值类数据的标签;
将所述数值类数据的标签加入初始用户画像标签体系的标签集中。
3.根据权利要求1所述的方法,其特征在于,将所述对话短文本分词,根据分词后的词汇类别,预先训练词向量语义模型;所述词向量语义模型包括泛语义模型和场景语义模型,包括:
将所述对话短文本分词,将所述词汇分为泛领域词汇、垂直领域词汇和其他词汇;
根据分词后的词汇类别,使用开放领域的语料训练泛语义模型,使用垂直领域的会话数据训练场景语义模型。
4.根据权利要求3所述的方法,其特征在于,使用开放领域的语料训练泛语义模型,包括:
根据分词后的泛领域词汇,利用爬虫爬取百科类网站文本内容,通过文本清洗,去除停用词;
使用分词工具对去除停用词的文本进行分词,利用机器学习算法对分词后的词汇进行建模训练,得到泛语义模型。
5.根据权利要求3所述的方法,其特征在于,使用垂直领域的会话数据训练场景语义模型,包括:
根据分词后的垂直领域词汇,获取垂直领域的会话数据,通过文本清洗和高频词统计分析,将筛选后的高频词加入停用词表;
使用分词工具对所述文本进行分词,去除停用词后利用机器学习算法对分词后的词汇进行建模训练,得到场景语义模型。
6.根据权利要求1所述的方法,其特征在于,将所述标签集中的标签和所述中心词进行语义相似度计算,根据相似度解算结果,得到标记后的类簇或未标记的类簇,包括:
将所述标签集中的标签和所述中心词进行语义相似度计算,若相似度大于预先设置的阈值,则使用标签标记所述中心词对应的类簇;
若相似度小于预先设置的阈值,则不使用标签标记所述中心词对应的类簇。
7.根据权利要求1所述的方法,其特征在于,根据所述未标记的类簇的中心词,得到初始用户画像标签体系的新标签,包括:
根据所述未标记的类簇的中心词,业务人员进行审核后,将具有业务含义的词汇重新定义为新标签,加入初始用户画像标签体系。
8.一种基于会话场景的用户画像标签挖掘装置,其特征在于,所述装置包括:
定义标签体系模块,用于获取用户会话场景信息;所述用户会话场景信息中包含多个对话短文本;根据所述对话短文本搭建用户画像标签体系;在所述用户画像标签体系定义初始用户画像标签体系及初始标签;
扩充标签集模块,用于将所述对话短文本分词,根据分词后的词汇类别,预先训练词向量语义模型;所述词向量语义模型包括泛语义模型和场景语义模型;根据所述初始标签的词汇类别,将所述初始标签输入到对应的语义模型中得到所述初始标签的同级标签;将筛选后的同级标签作为新标签加入初始用户画像标签体系的标签集中;
相似度计算模块,用于采用聚类算法对所述短文本进行计算得到多个类簇,从所述类簇中提取中心词;所述中心词为所述类簇分词后的高频词;
将所述标签集中的标签和所述中心词进行语义相似度计算,根据相似度解算结果,得到标记后的类簇或未标记的类簇;
新标签生成模块,用于根据所述未标记的类簇的中心词,得到初始用户画像标签体系的新标签。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111028037.1A CN113704436B (zh) | 2021-09-02 | 2021-09-02 | 基于会话场景的用户画像标签挖掘方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111028037.1A CN113704436B (zh) | 2021-09-02 | 2021-09-02 | 基于会话场景的用户画像标签挖掘方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113704436A true CN113704436A (zh) | 2021-11-26 |
CN113704436B CN113704436B (zh) | 2023-08-08 |
Family
ID=78657646
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111028037.1A Active CN113704436B (zh) | 2021-09-02 | 2021-09-02 | 基于会话场景的用户画像标签挖掘方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113704436B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114117054A (zh) * | 2022-01-24 | 2022-03-01 | 华南师范大学 | 基于个性词的学生期末评价方法、系统、装置和存储介质 |
CN115964658A (zh) * | 2022-10-11 | 2023-04-14 | 北京睿企信息科技有限公司 | 一种基于聚类的分类标签更新方法及系统 |
CN117556802A (zh) * | 2024-01-12 | 2024-02-13 | 碳丝路文化传播(成都)有限公司 | 一种基于大语言模型的用户画像方法、装置、设备及介质 |
CN118037250A (zh) * | 2024-04-11 | 2024-05-14 | 成都鱼泡科技有限公司 | 应用文字信息化系统的数据挖掘方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103699663A (zh) * | 2013-12-27 | 2014-04-02 | 中国科学院自动化研究所 | 一种基于大规模知识库的热点事件挖掘方法 |
CN105404944A (zh) * | 2015-12-11 | 2016-03-16 | 中国电力科学研究院 | 一种面向电力系统重过载预警的大数据分析方法 |
US20190294673A1 (en) * | 2018-03-23 | 2019-09-26 | Servicenow, Inc. | Method and system for automated intent mining, classification and disposition |
CN111414479A (zh) * | 2020-03-16 | 2020-07-14 | 北京智齿博创科技有限公司 | 基于短文本聚类技术的标签抽取方法 |
-
2021
- 2021-09-02 CN CN202111028037.1A patent/CN113704436B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103699663A (zh) * | 2013-12-27 | 2014-04-02 | 中国科学院自动化研究所 | 一种基于大规模知识库的热点事件挖掘方法 |
CN105404944A (zh) * | 2015-12-11 | 2016-03-16 | 中国电力科学研究院 | 一种面向电力系统重过载预警的大数据分析方法 |
US20190294673A1 (en) * | 2018-03-23 | 2019-09-26 | Servicenow, Inc. | Method and system for automated intent mining, classification and disposition |
CN111414479A (zh) * | 2020-03-16 | 2020-07-14 | 北京智齿博创科技有限公司 | 基于短文本聚类技术的标签抽取方法 |
Non-Patent Citations (4)
Title |
---|
TIANTIAN WU等: "research on recommendation system based on user portrait", 2020 IEEE INTERNATIONAL CONFERENCE ON ARTIFICIAL INTELLIGENCE AND INFORMATION, pages 1 - 12 * |
宋梅青;: "大数据环境下用户兴趣的信息挖掘流程重构", 图书馆学研究, no. 23, pages 47 - 52 * |
尹婷婷: "用户画像技术在高校数字图书馆信息服务中的研究与应用", 图书馆理论与实践, no. 6, pages 106 - 111 * |
李振鹏;陈碧珍;罗静宇;: "基于文本挖掘的网络舆情分类研究", 系统科学与数学, vol. 40, no. 05, pages 813 - 826 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114117054A (zh) * | 2022-01-24 | 2022-03-01 | 华南师范大学 | 基于个性词的学生期末评价方法、系统、装置和存储介质 |
CN114117054B (zh) * | 2022-01-24 | 2022-05-17 | 华南师范大学 | 基于个性词的学生期末评价方法、系统、装置和存储介质 |
CN115964658A (zh) * | 2022-10-11 | 2023-04-14 | 北京睿企信息科技有限公司 | 一种基于聚类的分类标签更新方法及系统 |
CN115964658B (zh) * | 2022-10-11 | 2023-10-20 | 北京睿企信息科技有限公司 | 一种基于聚类的分类标签更新方法及系统 |
CN117556802A (zh) * | 2024-01-12 | 2024-02-13 | 碳丝路文化传播(成都)有限公司 | 一种基于大语言模型的用户画像方法、装置、设备及介质 |
CN117556802B (zh) * | 2024-01-12 | 2024-04-05 | 碳丝路文化传播(成都)有限公司 | 一种基于大语言模型的用户画像方法、装置、设备及介质 |
CN118037250A (zh) * | 2024-04-11 | 2024-05-14 | 成都鱼泡科技有限公司 | 应用文字信息化系统的数据挖掘方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113704436B (zh) | 2023-08-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110765265B (zh) | 信息分类抽取方法、装置、计算机设备和存储介质 | |
CN108874992B (zh) | 舆情分析方法、系统、计算机设备和存储介质 | |
CN109446302B (zh) | 基于机器学习的问答数据处理方法、装置和计算机设备 | |
CN112632385B (zh) | 课程推荐方法、装置、计算机设备及介质 | |
CN108804512B (zh) | 文本分类模型的生成装置、方法及计算机可读存储介质 | |
CN107808011B (zh) | 信息的分类抽取方法、装置、计算机设备和存储介质 | |
CN109815333B (zh) | 信息获取方法、装置、计算机设备和存储介质 | |
CN113704436B (zh) | 基于会话场景的用户画像标签挖掘方法及装置 | |
CN108509596B (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN108664595B (zh) | 领域知识库构建方法、装置、计算机设备和存储介质 | |
WO2020147395A1 (zh) | 基于情感的文本分类处理方法、装置和计算机设备 | |
CN108520041B (zh) | 文本的行业分类方法、系统、计算机设备和存储介质 | |
CN113094578B (zh) | 基于深度学习的内容推荐方法、装置、设备及存储介质 | |
CN110569356B (zh) | 基于智能面试交互系统的面试方法、装置和计算机设备 | |
CN112036154A (zh) | 基于问诊对话的电子病历生成方法、装置和计算机设备 | |
CN109800346B (zh) | 文本匹配方法、装置、计算机设备和存储介质 | |
CN110674131A (zh) | 财务报表数据处理方法、装置、计算机设备和存储介质 | |
CN112651236B (zh) | 提取文本信息的方法、装置、计算机设备和存储介质 | |
CN110362798B (zh) | 裁决信息检索分析方法、装置、计算机设备和存储介质 | |
CN111710383A (zh) | 病历质控方法、装置、计算机设备和存储介质 | |
CN112699923A (zh) | 文档分类预测方法、装置、计算机设备及存储介质 | |
CN114399396A (zh) | 保险产品推荐方法、装置、计算机设备及存储介质 | |
CN115269842A (zh) | 一种智能标签生成方法、装置、计算机设备和存储介质 | |
CN113868419B (zh) | 基于人工智能的文本分类方法、装置、设备及介质 | |
CN112580329A (zh) | 文本噪声数据识别方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |