CN111858901A - 一种基于语义相似的文本推荐方法及系统 - Google Patents
一种基于语义相似的文本推荐方法及系统 Download PDFInfo
- Publication number
- CN111858901A CN111858901A CN201910360306.0A CN201910360306A CN111858901A CN 111858901 A CN111858901 A CN 111858901A CN 201910360306 A CN201910360306 A CN 201910360306A CN 111858901 A CN111858901 A CN 111858901A
- Authority
- CN
- China
- Prior art keywords
- text
- forum
- category
- portrait
- recognition model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000012549 training Methods 0.000 claims abstract description 32
- 230000008451 emotion Effects 0.000 claims description 27
- 238000000605 extraction Methods 0.000 claims description 18
- 238000010801 machine learning Methods 0.000 claims description 18
- 230000008909 emotion recognition Effects 0.000 claims description 9
- 230000000007 visual effect Effects 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 description 15
- 230000000694 effects Effects 0.000 description 6
- 238000001914 filtration Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000002360 preparation method Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000011835 investigation Methods 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 208000016254 weariness Diseases 0.000 description 2
- 230000003796 beauty Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000012954 risk control Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于语义相似的文本推荐方法及系统,包括:根据采集的论坛文本建立语义识别模型和其他多种类别模型;根据建立的多种类别模型对论坛文本进行训练生成各打标签画像结果信息;将论坛文本和论坛文本对应的打标签画像结果信息,按照一种标签一列的方式存储到Elasticsearch中;对一论坛文本进行画像生成对应的打标签画像结果信息,根据打标签画像结果信息中各标签,在Elasticsearch中进行模糊查询,完成对该论坛文本的推荐。本发明解决了当前文本推荐系统的推荐内容呆板、延展性低、乏味或使用户视野狭小,推荐内容过于单调及影响用户浏览体验等问题。
Description
技术领域
本发明涉及计算机和自然语言处理技术领域,尤其涉及一种基于语义相似的文本推荐方法及系统。
背景技术
随着互联网的广泛应用,海量的信息呈指数式爆炸增长。互联网的蓬勃发展,催生了一批又一批互联网企业。互联网企业自诞生之日起就会和一个词密不可分,那就是“活跃用户量”,互联网企业为了追求用户活跃度也是各显其招,其中用户论坛就是维持并提高用户活跃度的重要手段。例如,互联网美容企业的用户论坛,各大手机品牌的用户论坛,互联网招聘公司的用户论坛等等。而论坛维持并提高用户活跃度的非常重要的一个手段就是通过文本推荐技术向用户推荐用户可能感兴趣的文本,来提高用户粘性,增加用户的访问频率和访问时间,从而达到提高企业热度、知名度、乃至舆论风险把控等目的
根据大量的调查验证发现,网络上的网络论坛目前的推荐技术基本有两种,一种是基于TF-IDF的关键词solar/Elasticsearch检索相似推荐技术(传统文本推荐技术),一种是基于用户和文本画像的协同过滤推荐技术。第一种文本推荐技术存在死板,过于局限于文本相似,推荐结果没有扩展性,不能达到推荐的多样性、蔓延性,在短期之内就可以造成用户出现厌倦心理,提高用户活跃度的效果十分有限。第二种文本推荐技术主要得益于大数据技术的快速发展,目前被广泛应用于各种推荐场景中。通过大数据对用户标签矩阵和文本标签矩阵的计算对用户进行基于兴趣的文本推荐,该方法由于根据用户的兴趣进行推荐,由于通过兴趣导向,所以短期内会能够快速达到提高用户活跃度的目的,但是由于过于推荐范围过于狭小,时间久了会造成用户视野狭小,推荐内容单一,影响用户浏览体验,反而对用户活跃度造成损害,而且用户存在隐私泄露顾虑。另外第二种方法还存在对极端资源需求过大问题。
因此,如何提供一种新的文本推荐的技术方案,就成为了当前需要解决的问题。
发明内容
本发明的目的是提供一种基于语义相似的文本推荐方法及系统,用以解决当前文本推荐系统的推荐内容呆板、延展性低、乏味或使用户视野狭小,推荐内容过于单调及影响用户浏览体验等问题。
为实现上述目的,本发明提供了一种基于语义相似的文本推荐方法及系统,包括:
根据采集的论坛文本建立语义识别模型和其他多种类别模型,其中建立各类别模型的步骤包括:对论坛文本进行聚类并生成聚类结果后,根据聚类结果确定用于训练各类别模型的论坛文本的对应类别模型的类别集;其中,其他多种类别模型包括情感识别模型、情绪识别模型、地理识别模型、情感关键词提取模型、行业识别模型、职位识别模型、性别识别模型、年龄识别模型和/或TF-IDF关键词提取模型;
根据建立的多种类别模型对论坛文本进行训练生成各打标签画像结果信息;
将论坛文本和论坛文本对应的打标签画像结果信息,按照一种标签一列的方式存储到Elasticsearch中;
对一论坛文本进行画像生成对应的打标签画像结果信息,根据打标签画像结果信息中各标签,在Elasticsearch中进行模糊查询,完成对该论坛文本的推荐。
本发明还提供了一种基于语义相似的文本推荐系统,包括:
数据采集模块,用于采集论坛文本信息;
建立模型模块,用于根据采集的论坛文本信息建立语义识别模型和其他多种类别模型,其中对论坛文本进行聚类并生成聚类结果后,根据聚类结果确定用于训练各类别模型的论坛文本的对应类别模型的类别集;其中,其他多种类别模型包括情感识别模型、情绪识别模型、地理识别模型、情感关键词提取模型、行业识别模型、职位识别模型、性别识别模型、年龄识别模型和/或TF-IDF关键词提取模型;
文本画像模块,用于根据建立的多种类别模型对论坛文本进行训练生成各打标签画像结果信息;
存储模块,用于将论坛文本和论坛文本对应的打标签画像结果信息,按照一种标签一列的方式存储到Elasticsearch中;及
文本推荐模块,用于对一论坛文本进行画像生成对应的打标签画像结果信息,根据打标签画像结果信息中各标签,在Elasticsearch中进行模糊查询,完成对该论坛文本的推荐。
应用本发明提供的基于语义相似的文本推荐方法及系统,通过以语义类别为着重点,画像的多种维度为辅助,解决了传统基于文本相似推荐系统的呆板、局限于文本相似的问题。通过只对文本进行画像,用画像结果作为Elasticsearch为相似检索的条件,解决了基于协同过滤的文本推荐技术存在的用户隐私顾虑、性能低、资源消耗大、推荐文本类别固定、用户厌倦感等问题。从而实现了高性价比、推荐灵活多变、语义相似、无隐私顾虑的文本推荐。
附图说明
此处所说明的附图用于提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本发明的基于语义相似的文本推荐方法的流程图;
图2为本发明一实例提供的基于语义相似的文本推荐方法流程图。
图3为本发明实施例提供的基于语义相似的文本推荐系统的结构示意图。
具体实施方式
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
本发明中的实施例将以某个求职论坛做文本推荐时为例进行描述,但权利要求不仅限于求职论坛。
图1为本发明实施例提供的基于语义相似的文本推荐方法流程图。如图1所示,本发明的基于语义相似的文本推荐方法,包括以下步骤:
步骤110、根据采集的论坛文本建立语义识别模型和其他多种类别模型,其中建立各类别模型的步骤包括:对论坛文本进行聚类并生成聚类结果后,根据聚类结果确定用于训练各类别模型的论坛文本的对应类别模型的类别集;其中,其他多种类别模型包括情感识别模型、情绪识别模型、地理识别模型、情感关键词提取模型、行业识别模型、职位识别模型、性别识别模型、年龄识别模型和/或TF-IDF关键词提取模型;
所述根据采集的论坛文本建立语义识别模型和其他多种类别模型的步骤,包括:
根据采集的论坛文本通过机器学习方式建立语义识别模型和其他多种类别模型。采用机器学习的方式建立模型可以有效保证画像的标签正确率和召回率,其中模型的实现具体算法和优化可以根据实际情况进行选择。
所述根据采集的论坛文本建立语义识别模型、情感识别模型、情绪识别模型、地理识别模型、情感关键词提取模型、行业识别模型、职位识别模型、性别识别模型、年龄识别模型或TF-IDF文本关键词模型的步骤,还包括:
根据采集的论坛文本和确定画像所需的维度信息,建立对应的模型,其中,维度信息包括:语义类别、情感类别、情绪类别、地理类别、情感关键词类别、行业类别、职位类别、性别类别、年龄类别或TF-IDF文本关键词类别。除了TF-IDF文本关键词提取模型,其他模型都需要依靠用户需要打标后的样本进行对应的模型训练。
所述将采集的论坛文本通过机器学习方式建立语义识别模型的步骤,还包括:通过文本聚类算法对论坛文本进行聚类并生成聚类结果后,根据聚类结果确定用于训练语义识别模型的论坛文本语义类别集,建立语义识别模型。其中语义识别模型的建立人工成本太高,所以可以通过文本聚类算法辅助用户来确定语义类别体系,减少语义识别模型的人工成本。
步骤120、根据建立的多种类别模型对论坛文本进行训练生成打标签画像;
在本步骤中,只需要对论坛文本进行训练生成打标签画像,其中不需要对用户进行训练生成打标签画像。从根本上杜绝了对用户隐私造成侵犯的可能性。解决了当下用户对推荐算法的隐私顾虑问题。
步骤130、将论坛文本和论坛文本对应的打标签画像结果信息,按照一种标签一列的方式存储到Elasticsearch中;
步骤140、对一论坛文本进行画像生成对应的打标签画像结果信息,根据打标签画像结果信息中各标签,在Elasticsearch中进行模糊查询,完成对该论坛文本的推荐。
其中Elasticsearch和机器学习技术结合,通过对画像结果进行侧重检索的方式来实现基于语义的相似性推荐,降低了计算资源消耗实现对论坛海量文本的相似推荐。
所述对一论坛文本进行画像生成对应的打标签画像结果信息,根据打标签画像结果信息中各标签,在Elasticsearch中进行模糊查询,完成对该论坛文本的推荐的步骤,还包括:
所述对一论坛文本进行画像生成对应的打标签画像结果信息,判断若存在通过语义识别模型对论坛文本进行训练生成打标签画像的操作,则首先根据语义类别在Elasticsearch中进行模糊查询,对该论坛文本进行推荐。其中采用了语义识别模型(语义识别模型最为重要),画像中有语义类别,将语义类别作为是推荐查询的首个条件,也就意味着语义类别在查询中的权重最高,会侧重语义相似进行查询,满足了用户需要的论坛文本的推荐。
具体实例,如图2所示,本发明实施例的基于语义相似的文本推荐方法包括:
步骤101,根据对论坛文本进行调研确定文本画像的维度;
具体的,当要针对某个论坛做文本推荐时,首先要对论坛文本进行调研,目的是确定文本画像的维度,进而可以对文本进行画像。
步骤102,根据根用户选择确定文本画像的维度信息;
具体地,如图2所示,文本画像的维度信息由语义类别、情感类别、行业类别和其他类别构成。
在一个具体的实施例中,需要用户确定画像需要哪些维度信息,也就是在哪些方面对文本进行画像,然后根据需要的维度信息建立对应的模型。
步骤103,根据对需求的理解和对文本的调研确定文本画像的维度信息内每个文本画像的维度的类别集标准;
具体地,根据步骤102得到的文本画像的维度信息,确定每个文本画像的维度对应的类别集标准。
例如,情感是要分为(正面情感,负面情感,中立情感)还是要分为(疑似正面情感,正面情感,疑似负面情感,负面情感,中立情感)。这些类别集标准来源于对需求的理解和对文本的调研。其中,语义类别比较特殊,根据对论坛现有文本进行无监督聚类,然后依靠用户结合聚类结果作为辅助去定出语义类别集标准,而其余类别根据用户确定类别中的类别集标准。
步骤104,根据用户协助进行标注与语料准备并完成数据标注;
具体地,如图2所示,根据步骤103确定所有的文本画像的维度类别集标准后,就可以开始用户准备标注与语料,即数据标注过程。
步骤105,根据机器学习技术分门别类的针对每个画像的维度进行模型训练;
具体地,根据步骤104完成数据标注之后,合理的运用机器学习技术,分门别类的针对每个画像的维度进行模型训练。即模型训练过程。
其中,根据机器学习技术建立的各种模型是建立文本画像的维度体系过程中根据需要建立各种类别模型中效果最好的。
在一个具体的实施例中,各种模型具体包括:语义识别模型、情感识别模型、情绪识别模型、地理识别模型、情感关键词提取模型、行业识别模型、职位别别模型、性别识别模型、年龄识别模型和TF-IDF关键词提取模型等。
具体的,文本画像的维度体系通过机器学习的方式建立各个维度的模型,根据机器学习的方式建立的维度的模型可以有效保证画像的标签正确率和召回率。各个维度的模型实现具体算法和优化可以根据实际情况选择。
在一个具体的实施例中,各个维度的模型具体包括:语义类别模型、情感类别模型、行业类别模型和其他模型;各个维度的模型建立初期需要依靠用户确定画像所需维度信息,待确定所需维度信息后建立对应的模型。
其中,维度的模型中除了TF-IDF关键词提取模型,其他的模型全部需要根据依靠用户打标后的样本进行对应的模型训练;语义类别模型由于建立所需的人工成本太高,可以通过文本聚类算法辅助用户确定语义类别体系,从而降低人工成本;语义识别模型通过对论坛文本进行聚类,再根据聚类结果辅助用户确定论坛文本语义类别集,用于训练语义类别模型。
步骤106,将通过模型训练得到的多个维度模型组成文本画像模型。
具体地,文本画像模型是有多个维度的模型组成,当所有的画像的维度模型都训练完成后,就表示文本画像模型训练完成。
下面以一个具体实施方式做具体阐述。在该具体实施方式中,首先要对论坛文本进行调研并确定文本画像的维度,文本画像的维度信息需要用户确定,也就是在哪些方面对文本进行画像,然后根据对需求的理解和对文本的调研确定每个方面的画像的维度类别集标准,确定所有的文本画像的维度类别集标准后,根据用户进行标注与语料准备完成数据标注,即数据标注过程。完成数据标注之后,合理的运用机器学习技术,分门别类的针对每个画像的维度进行模型训练,即模型训练过程。通过模型训练得到的多个维度模型(语义类别模型、情感类别模型、行业类别模型和其他(...)模型)组成文本画像模型。
图3为本发明实施例提供的基于语义相似的文本推荐系统运行流程图。如图3所示,本发明实施例的基于语义相似的文本推荐系统,包括:数据采集模块、建立模型模块、文本画像模块、存储模块和文本推荐模块,其中,
数据采集模块,用于采集论坛文本信息;
建立模型模块,用于根据采集的论坛文本信息建立语义识别模型和其他多种类别模型,其中对论坛文本进行聚类并生成聚类结果后,根据聚类结果确定用于训练各类别模型的论坛文本的对应类别模型的类别集;其中,其他多种类别模型包括情感识别模型、情绪识别模型、地理识别模型、情感关键词提取模型、行业识别模型、职位识别模型、性别识别模型、年龄识别模型和/或TF-IDF关键词提取模型;
文本画像模块,用于根据建立的多种类别模型对论坛文本进行训练生成各打标签画像结果信息;
存储模块,用于将论坛文本和论坛文本对应的打标签画像结果信息,按照一种标签一列的方式存储到Elasticsearch中;
文本推荐模块,用于对一论坛文本进行画像生成对应的打标签画像结果信息,根据打标签画像结果信息中各标签,在Elasticsearch中进行模糊查询,完成对该论坛文本的推荐。
所述建立模型模块根据采集的论坛文本建立语义识别模型和其他多种类别模型,具体是指:所述建立模型模块通过机器学习方式,根据采集的论坛文本和确定画像所需的维度信息,建立对应的模型,其中,维度信息包括:语义类别、情感类别、情绪类别、地理类别、情感关键词类别、行业类别、职位类别、性别类别、年龄类别或TF-IDF文本关键词类别。
所述建立模型模块将采集的论坛文本通过机器学习方式建立语义识别模型,具体是指:建立模型模块通过文本聚类算法对论坛文本进行聚类并生成聚类结果后,根据聚类结果确定用于训练语义识别模型的论坛文本语义类别集,建立语义识别模型。
所述文本推荐模块对一论坛文本进行画像生成对应的打标签画像结果信息,根据打标签画像结果信息中各标签,在Elasticsearch中进行模糊查询,完成对该论坛文本的推荐,具体是指:
所述文本推荐模块对一论坛文本进行画像生成对应的打标签画像结果信息,判断若存在通过语义识别模型对论坛文本进行训练生成打标签画像的操作,则首先根据语义类别在Elasticsearch中进行模糊查询,对该论坛文本进行推荐。
下面以一个具体实施方式做具体阐述。在该具体实施方式中,如图3所示,首先将论坛的文本历史,通过文本画像模型进行多维度打标,然后存储到Elasticsearch库中,作为待推荐文本的总数据集。这是模型训练后首先要做的准备工作。当用户在论坛文本中查看一个文本,假设这个文本是用户比较感兴趣的文本,为了便于吸引用户点击和引起注意力,论坛需要为用户准备好所查看内容的文本。而语义相似文本无疑是最好的选择。此时将用户所查看的文本送入系统,系统首先对该文本进行画像,之后将得到的画像结果作为Elasticsearch检索文本的条件,进行多条件模糊查询,查询条件中语义标签需要作为首要查询条件,其他条件的顺序安排可以根据具体业务细节调整。如图2所示输出将查询结果反馈至用户,我们就完成了一次基于机器学习的语义相似文本推荐,然后用户不断点击新的文本,不断通过本发明的基于机器学习的语义相似文本推荐系统进行推荐。就达到了吸引用户点击和注意力,提高用户活跃度的目的。
本发明实施例提供的基于语义相似的文本推荐方法及系统,通过以语义类别为着重点,画像的多种维度为辅助,解决了传统基于文本相似推荐系统的呆板、局限于文本相似的问题。通过只对文本进行画像,用画像结果作为Elasticsearch为相似检索的条件,解决了基于协同过滤的文本推荐技术存在的用户隐私顾虑、性能低、资源消耗大、推荐文本类别固定、用户厌倦感等问题。从而实现了高性价比、推荐灵活多变、语义相似、无隐私顾虑的文本推荐。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于语义相似的文本推荐方法,其特征在于,包括:
根据采集的论坛文本建立语义识别模型和其他多种类别模型,其中建立各类别模型的步骤包括:对论坛文本进行聚类并生成聚类结果后,根据聚类结果确定用于训练各类别模型的论坛文本的对应类别模型的类别集;其中,其他多种类别模型包括情感识别模型、情绪识别模型、地理识别模型、情感关键词提取模型、行业识别模型、职位识别模型、性别识别模型、年龄识别模型和/或TF-IDF关键词提取模型;
根据建立的多种类别模型对论坛文本进行训练生成各打标签画像结果信息;
将论坛文本和论坛文本对应的打标签画像结果信息,按照一种标签一列的方式存储到Elasticsearch中;
对一论坛文本进行画像生成对应的打标签画像结果信息,根据打标签画像结果信息中各标签,在Elasticsearch中进行模糊查询,完成对该论坛文本的推荐。
2.根据权利要求1所述的方法,其特征在于,
所述根据采集的论坛文本建立语义识别模型和其他多种类别模型的步骤,包括:
根据采集的论坛文本通过机器学习方式建立语义识别模型和其他多种类别模型。
3.根据权利要求2所述的方法,其特征在于,
所述根据采集的论坛文本建立语义识别模型、情感识别模型、情绪识别模型、地理识别模型、情感关键词提取模型、行业识别模型、职位识别模型、性别识别模型、年龄识别模型或TF-IDF文本关键词模型的步骤,还包括:
根据采集的论坛文本和确定画像所需的维度信息,建立对应的模型,其中,维度信息包括:语义类别、情感类别、情绪类别、地理类别、情感关键词类别、行业类别、职位类别、性别类别、年龄类别或TF-IDF文本关键词类别。
4.根据权利要求2所述的方法,其特征在于,
所述将采集的论坛文本通过机器学习方式建立语义识别模型的步骤,还包括:通过文本聚类算法对论坛文本进行聚类并生成聚类结果后,根据聚类结果确定用于训练语义识别模型的论坛文本语义类别集,建立语义识别模型。
5.根据权利要求4所述的方法,其特征在于,
所述对一论坛文本进行画像生成对应的打标签画像结果信息,根据打标签画像结果信息中各标签,在Elasticsearch中进行模糊查询,完成对该论坛文本的推荐的步骤,还包括:
所述对一论坛文本进行画像生成对应的打标签画像结果信息,判断若存在通过语义识别模型对论坛文本进行训练生成打标签画像的操作,则首先根据语义类别在Elasticsearch中进行模糊查询,对该论坛文本进行推荐。
6.根据权利要求2所述的方法,其特征在于,
所述根据建立的多种类别模型对论坛文本进行训练生成各打标签画像结果信息的步骤,进一步包括:只需要对论坛文本进行训练生成打标签画像,其中不需要对用户进行训练生成打标签画像。
7.一种基于语义相似的文本推荐系统,其特征在于,包括:
数据采集模块,用于采集论坛文本信息;
建立模型模块,用于根据采集的论坛文本信息建立语义识别模型和其他多种类别模型,其中对论坛文本进行聚类并生成聚类结果后,根据聚类结果确定用于训练各类别模型的论坛文本的对应类别模型的类别集;其中,其他多种类别模型包括情感识别模型、情绪识别模型、地理识别模型、情感关键词提取模型、行业识别模型、职位识别模型、性别识别模型、年龄识别模型和/或TF-IDF关键词提取模型;
文本画像模块,用于根据建立的多种类别模型对论坛文本进行训练生成各打标签画像结果信息;
存储模块,用于将论坛文本和论坛文本对应的打标签画像结果信息,按照一种标签一列的方式存储到Elasticsearch中;及
文本推荐模块,用于对一论坛文本进行画像生成对应的打标签画像结果信息,根据打标签画像结果信息中各标签,在Elasticsearch中进行模糊查询,完成对该论坛文本的推荐。
8.根据权利要求7所述的系统,其特征在于,
所述建立模型模块根据采集的论坛文本建立语义识别模型和其他多种类别模型,具体是指:所述建立模型模块通过机器学习方式,根据采集的论坛文本和确定画像所需的维度信息,建立对应的模型,其中,维度信息包括:语义类别、情感类别、情绪类别、地理类别、情感关键词类别、行业类别、职位类别、性别类别、年龄类别或TF-IDF文本关键词类别。
9.根据权利要求8所述的系统,其特征在于,
所述建立模型模块将采集的论坛文本通过机器学习方式建立语义识别模型,具体是指:建立模型模块通过文本聚类算法对论坛文本进行聚类并生成聚类结果后,根据聚类结果确定用于训练语义识别模型的论坛文本语义类别集,建立语义识别模型。
10.根据权利要求9所述的系统,其特征在于,
所述文本推荐模块对一论坛文本进行画像生成对应的打标签画像结果信息,根据打标签画像结果信息中各标签,在Elasticsearch中进行模糊查询,完成对该论坛文本的推荐,具体是指:
所述文本推荐模块对一论坛文本进行画像生成对应的打标签画像结果信息,判断若存在通过语义识别模型对论坛文本进行训练生成打标签画像的操作,则首先根据语义类别在Elasticsearch中进行模糊查询,对该论坛文本进行推荐。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910360306.0A CN111858901A (zh) | 2019-04-30 | 2019-04-30 | 一种基于语义相似的文本推荐方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910360306.0A CN111858901A (zh) | 2019-04-30 | 2019-04-30 | 一种基于语义相似的文本推荐方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111858901A true CN111858901A (zh) | 2020-10-30 |
Family
ID=72966504
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910360306.0A Pending CN111858901A (zh) | 2019-04-30 | 2019-04-30 | 一种基于语义相似的文本推荐方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111858901A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114595387A (zh) * | 2022-03-03 | 2022-06-07 | 戎行技术有限公司 | 一种基于机器学习勾勒人物画像的方法、设备、存储介质 |
Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101295303A (zh) * | 2007-04-28 | 2008-10-29 | 李树德 | 基于智能本体的知识搜索引擎及其实现方法 |
CN103324708A (zh) * | 2013-06-18 | 2013-09-25 | 哈尔滨工程大学 | 一种长文本到短文本的迁移学习方法 |
CN104268292A (zh) * | 2014-10-23 | 2015-01-07 | 广州索答信息科技有限公司 | 画像系统的标签词库更新方法 |
US20160283481A1 (en) * | 2014-12-30 | 2016-09-29 | Socialtopias, Llc | Method and apparatus for combining text search and recommendation engines |
US20160306800A1 (en) * | 2015-04-16 | 2016-10-20 | Fluenty Korea Inc. | Reply recommendation apparatus and system and method for text construction |
CN107220295A (zh) * | 2017-04-27 | 2017-09-29 | 银江股份有限公司 | 一种人民矛盾调解案例搜索和调解策略推荐方法 |
CN107409126A (zh) * | 2015-02-24 | 2017-11-28 | 思科技术公司 | 用于保护企业计算环境安全的系统和方法 |
CN107423396A (zh) * | 2017-07-26 | 2017-12-01 | 中山大学 | 一种基于功能隐含关系及聚类的Mashup推荐方法 |
CN107491548A (zh) * | 2017-08-28 | 2017-12-19 | 武汉烽火普天信息技术有限公司 | 一种网络舆情文本信息推荐及可视化方法 |
CN107832312A (zh) * | 2017-01-03 | 2018-03-23 | 北京工业大学 | 一种基于深度语义辨析的文本推荐方法 |
CN108897871A (zh) * | 2018-06-29 | 2018-11-27 | 北京百度网讯科技有限公司 | 文档推荐方法、装置、设备及计算机可读介质 |
CN108897815A (zh) * | 2018-06-20 | 2018-11-27 | 淮阴工学院 | 一种基于相似度模型和FastText的多标签文本分类方法 |
CN109189892A (zh) * | 2018-09-17 | 2019-01-11 | 北京点网聚科技有限公司 | 一种基于文章评论的推荐方法及装置 |
CN109213908A (zh) * | 2018-08-01 | 2019-01-15 | 浙江工业大学 | 一种基于数据挖掘的学术会议论文推送系统 |
CN109271491A (zh) * | 2018-11-02 | 2019-01-25 | 合肥工业大学 | 基于非结构化文本信息的云服务推荐方法 |
US20190034823A1 (en) * | 2017-07-27 | 2019-01-31 | Getgo, Inc. | Real time learning of text classification models for fast and efficient labeling of training data and customization |
CN109446301A (zh) * | 2018-09-18 | 2019-03-08 | 沈文策 | 一种相似文章的查找方法及装置 |
CN109471980A (zh) * | 2018-12-20 | 2019-03-15 | 厦门笨鸟电子商务有限公司 | 一种基于文本匹配的搜索推荐相关度计算方法 |
CN109522422A (zh) * | 2018-11-12 | 2019-03-26 | 北京懿医云科技有限公司 | 医疗文献推送方法、系统、设备及存储介质 |
-
2019
- 2019-04-30 CN CN201910360306.0A patent/CN111858901A/zh active Pending
Patent Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101295303A (zh) * | 2007-04-28 | 2008-10-29 | 李树德 | 基于智能本体的知识搜索引擎及其实现方法 |
CN103324708A (zh) * | 2013-06-18 | 2013-09-25 | 哈尔滨工程大学 | 一种长文本到短文本的迁移学习方法 |
CN104268292A (zh) * | 2014-10-23 | 2015-01-07 | 广州索答信息科技有限公司 | 画像系统的标签词库更新方法 |
US20160283481A1 (en) * | 2014-12-30 | 2016-09-29 | Socialtopias, Llc | Method and apparatus for combining text search and recommendation engines |
CN107409126A (zh) * | 2015-02-24 | 2017-11-28 | 思科技术公司 | 用于保护企业计算环境安全的系统和方法 |
US20160306800A1 (en) * | 2015-04-16 | 2016-10-20 | Fluenty Korea Inc. | Reply recommendation apparatus and system and method for text construction |
CN107832312A (zh) * | 2017-01-03 | 2018-03-23 | 北京工业大学 | 一种基于深度语义辨析的文本推荐方法 |
CN107220295A (zh) * | 2017-04-27 | 2017-09-29 | 银江股份有限公司 | 一种人民矛盾调解案例搜索和调解策略推荐方法 |
CN107423396A (zh) * | 2017-07-26 | 2017-12-01 | 中山大学 | 一种基于功能隐含关系及聚类的Mashup推荐方法 |
US20190034823A1 (en) * | 2017-07-27 | 2019-01-31 | Getgo, Inc. | Real time learning of text classification models for fast and efficient labeling of training data and customization |
CN107491548A (zh) * | 2017-08-28 | 2017-12-19 | 武汉烽火普天信息技术有限公司 | 一种网络舆情文本信息推荐及可视化方法 |
CN108897815A (zh) * | 2018-06-20 | 2018-11-27 | 淮阴工学院 | 一种基于相似度模型和FastText的多标签文本分类方法 |
CN108897871A (zh) * | 2018-06-29 | 2018-11-27 | 北京百度网讯科技有限公司 | 文档推荐方法、装置、设备及计算机可读介质 |
CN109213908A (zh) * | 2018-08-01 | 2019-01-15 | 浙江工业大学 | 一种基于数据挖掘的学术会议论文推送系统 |
CN109189892A (zh) * | 2018-09-17 | 2019-01-11 | 北京点网聚科技有限公司 | 一种基于文章评论的推荐方法及装置 |
CN109446301A (zh) * | 2018-09-18 | 2019-03-08 | 沈文策 | 一种相似文章的查找方法及装置 |
CN109271491A (zh) * | 2018-11-02 | 2019-01-25 | 合肥工业大学 | 基于非结构化文本信息的云服务推荐方法 |
CN109522422A (zh) * | 2018-11-12 | 2019-03-26 | 北京懿医云科技有限公司 | 医疗文献推送方法、系统、设备及存储介质 |
CN109471980A (zh) * | 2018-12-20 | 2019-03-15 | 厦门笨鸟电子商务有限公司 | 一种基于文本匹配的搜索推荐相关度计算方法 |
Non-Patent Citations (2)
Title |
---|
ALBERT WEICHSELBRAUN: ""Application of Data Mining Technology in the Recall of Defective Automobile Products in China"", 《DATA & KNOWLEDGE ENGINEERING》, pages 18 - 24 * |
周蓓蓓: ""知识社区中用户问题分配方法与实现"", 《信息技术》, pages 169 - 173 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114595387A (zh) * | 2022-03-03 | 2022-06-07 | 戎行技术有限公司 | 一种基于机器学习勾勒人物画像的方法、设备、存储介质 |
CN114595387B (zh) * | 2022-03-03 | 2023-09-29 | 戎行技术有限公司 | 一种基于机器学习勾勒人物画像的方法、设备、存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110162593B (zh) | 一种搜索结果处理、相似度模型训练方法及装置 | |
CN111753060B (zh) | 信息检索方法、装置、设备及计算机可读存储介质 | |
CN106649818B (zh) | 应用搜索意图的识别方法、装置、应用搜索方法和服务器 | |
CN111241237B (zh) | 一种基于运维业务的智能问答数据处理方法及装置 | |
US11768869B2 (en) | Knowledge-derived search suggestion | |
US20200356729A1 (en) | Generation of text from structured data | |
WO2018205084A1 (en) | Providing local service information in automated chatting | |
CN117688163B (zh) | 基于指令微调和检索增强生成的在线智能问答方法及装置 | |
CN113569011B (zh) | 文本匹配模型的训练方法、装置、设备及存储介质 | |
CN111723295B (zh) | 一种内容分发方法、装置和存储介质 | |
US20200192921A1 (en) | Suggesting text in an electronic document | |
CN112231554B (zh) | 一种搜索推荐词生成方法、装置、存储介质和计算机设备 | |
CN111552773A (zh) | 一种阅读理解任务中是否类问题关键句寻找方法及系统 | |
CN111400584A (zh) | 联想词的推荐方法、装置、计算机设备和存储介质 | |
CN111563158A (zh) | 文本排序方法、排序装置、服务器和计算机可读存储介质 | |
CN112115252A (zh) | 智能辅助写作处理方法、装置、电子设备及存储介质 | |
Anoop et al. | A topic modeling guided approach for semantic knowledge discovery in e-commerce | |
CN114722176A (zh) | 一种智能答疑的方法、装置、介质及电子设备 | |
CN114281935A (zh) | 搜索结果分类模型的训练方法、装置、介质及设备 | |
CN111858901A (zh) | 一种基于语义相似的文本推荐方法及系统 | |
CN111125387B (zh) | 多媒体列表生成、命名方法、装置、电子设备和存储介质 | |
CN113821669A (zh) | 搜索方法、装置、电子设备和存储介质 | |
CN113392310A (zh) | 一种数据处理方法、装置、设备及介质 | |
CN114722267A (zh) | 信息推送方法、装置及服务器 | |
CN110826313A (zh) | 一种信息提取方法、电子设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information |
Inventor after: Li Tao Inventor after: Li Qinglong Inventor after: Luo Fei Inventor before: Li Qinglong Inventor before: Luo Fei Inventor before: Peng Xuantao Inventor before: An Longbo Inventor before: Wang Zhen |
|
CB03 | Change of inventor or designer information |