CN110910175A - 一种旅游门票产品画像生成方法 - Google Patents

一种旅游门票产品画像生成方法 Download PDF

Info

Publication number
CN110910175A
CN110910175A CN201911175273.9A CN201911175273A CN110910175A CN 110910175 A CN110910175 A CN 110910175A CN 201911175273 A CN201911175273 A CN 201911175273A CN 110910175 A CN110910175 A CN 110910175A
Authority
CN
China
Prior art keywords
label
product
travel ticket
product information
ticket
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911175273.9A
Other languages
English (en)
Other versions
CN110910175B (zh
Inventor
付仁杰
黄�俊
洪清华
刘源远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jing Jing Culture Communication Ltd By Share Ltd
Original Assignee
Shanghai Jing Jing Culture Communication Ltd By Share Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jing Jing Culture Communication Ltd By Share Ltd filed Critical Shanghai Jing Jing Culture Communication Ltd By Share Ltd
Priority to CN201911175273.9A priority Critical patent/CN110910175B/zh
Publication of CN110910175A publication Critical patent/CN110910175A/zh
Application granted granted Critical
Publication of CN110910175B publication Critical patent/CN110910175B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/14Travel agencies

Landscapes

  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Primary Health Care (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种旅游门票产品画像生成方法,包括:S1、获取旅游门票的样本产品信息,提取旅游门票的样本产品特征;S2、根据旅游门票的样本产品特征和预设的产品标签数,构建标签树;S3、根据预设的样本标签数据集,通过文本分析技术和多分类算法,以训练得到大类标签预测模型;S4、由大类标签预测模型对实际产品信息进行大类标签分类,将大类标签作为一级标签数据;S5、通过关键词提取方法对实际产品信息进行标签细分,得二级标签数据,结合一级标签数据,即得到旅游门票的产品画像。与现有技术相比,本发明能够自动准确地对产品信息进行一级标签分类预测和二级标签细分,解决了人工标签工作量巨大且不准确的问题。

Description

一种旅游门票产品画像生成方法
技术领域
本发明涉及互联网大数据技术领域,尤其是涉及一种旅游门票产品画像生成方法。
背景技术
随着大数据技术的深入研究与应用,企业的专注点日益聚焦于怎样利用大数据来为精准营销服务,进而深入挖掘潜在的商业价值。于是,“数据画像”的概念也就应运而生,对于企业来说,利用大数据进行“画像”建设是大数据在企业应用上最重要的场景之一,而产品画像是否精准,则会直接影响到各上层应用的效果,在旅游行业为了能够给用户推荐更合适的产品,旅游门票产品的画像尤为重要,精准的产品画像才能够有效的支撑用户画像、产品推荐、精准营销等应用。
传统的旅游门票产品画像工作都是通过人工配置的方式进行,由产品运营经理在配置产品信息的时候,基于业务经验,人工提取产品信息中的关键词,以人工判断的形式给产品设置相应的标签,这样的方法存在以下缺点:一方面导致运营人员工作量巨大繁杂,另一方面很难保证人工标签的产品画像准确度。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种旅游门票产品画像生成方法,能够自动快速地生成旅游门票对应的产品画像。
本发明的目的可以通过以下技术方案来实现:一种旅游门票产品画像生成方法,包括以下步骤:
S1、获取旅游门票的样本产品信息,提取旅游门票的样本产品特征;
S2、根据旅游门票的样本产品特征,结合预设的产品标签数,构建标签树,其中,标签树包括一级标签和二级标签;
S3、根据预设的样本标签数据集,通过文本分析技术和多分类算法,以训练得到大类标签预测模型;
S4、由大类标签预测模型对旅游门票的实际产品信息进行大类标签分类,将大类标签作为旅游门票的一级标签数据;
S5、通过关键词提取方法对旅游门票的实际产品信息进行标签细分,得到旅游门票的二级标签数据,结合步骤S4中旅游门票的一级标签数据,即得到旅游门票的产品画像。
进一步地,所述样本标签数据集包括多个产品信息,所述产品信息包括多个景点描述文档,所述景点描述文档由不同的产品特征组成,所述产品特征包括产品标题和对应的产品描述文本。
进一步地,所述一级标签包括文化、自然、玩乐、运动和历史共五个大类。
进一步地,所述步骤S3具体包括以下步骤:
S31、从样本标签数据集中随机选择N个景点描述文档作为训练集,样本标签数据集中剩余的景点描述文档作为测试集;
S32、将训练集输入逻辑回归模型,采用文本分析技术和链式关联多分类算法进行模型训练,得到训练好的逻辑回归模型;
S33、将测试集输入训练好的逻辑回归模型,若输出分类概率小于或等于预设概率值,则该训练好的逻辑回归模型即为大类标签预测模型,否则返回步骤S31。
进一步地,所述步骤S5具体包括以下步骤:
S51、基于预设的分词词库,对旅游门票的实际产品信息进行分词处理;
S52、从多个分词中提取关键词;
S53、将提取的关键词映射至标签树的二级标签,得到旅游门票的二级标签数据;
S54、结合旅游门票的一级标签数据和二级标签数据,即得到旅游门票的产品画像。
进一步地,所述步骤S51具体是采用Ansj中文分词工具对旅游门票的实际产品信息进行分词处理。
进一步地,所述步骤S52具体是采用TF-IDF算法从分词中提取关键词。
进一步地,所述步骤S52具体包括以下步骤:
S521、计算各分词的词频和逆向文件频率,得到各分词的TF-IDF值;
S522、将各分词的TF-IDF值按从大至小的顺序进行排序,选择TF-IDF值排序靠前70%的分词作为关键词。
进一步地,所述词频的计算公式为:
Figure BDA0002289793700000031
其中,tf为分词的词频,nw为分词在产品信息中出现的次数,np为产品信息中心出现各分词的次数;
逆向文件频率的计算公式为:
Figure BDA0002289793700000032
其中,idf为分词的逆向文件频率,∑Dw为产品信息中包含该分词的景点文档数量,∑Da为产品信息中全部景点文档数量;
TF-IDF值的计算公式为:
TF-IDF=tf*idf。
与现有技术相比,本发明具有以下优点:
一、本发明基于文本分析技术,利用多分类算法,能够自动对产品信息进行大类标签标注,结合关键词提取方法,能够进一步对产品信息进行大类标签的细分,最终自动生成包含一级标签和二级标签的产品画像,解决了传统人工标签工作量巨大繁杂的问题。
二、本发明通过构建标签树,并根据样本标签数据集进行训练和测试,保证了大类标签预测模型的可靠性,能够将产品精确地进行一级标签分类,此外,通过将排序靠前的关键词映射至二级标签,使得一级标签与二级标签为相互对应的关系,最终能够确保产品画像的准确性。
附图说明
图1为本发明的方法流程示意图;
图2为实施例中旅游门票产品画像生成逻辑示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
如图1所示,一种旅游门票产品画像生成方法,包括以下步骤:
S1、获取旅游门票的样本产品信息,提取旅游门票的样本产品特征;
S2、根据旅游门票的样本产品特征,结合预设的产品标签数,构建标签树,其中,标签树包括一级标签和二级标签;
S3、根据预设的样本标签数据集,通过文本分析技术和多分类算法,以训练得到大类标签预测模型;
S4、由大类标签预测模型对旅游门票的实际产品信息进行大类标签分类,将大类标签作为旅游门票的一级标签数据;
S5、通过关键词提取方法对旅游门票的实际产品信息进行标签细分,得到旅游门票的二级标签数据,结合步骤S4中旅游门票的一级标签数据,即得到旅游门票的产品画像。
本发明基于产品信息中的景点描述文档,采用文本分析技术对产品描述文本进行自动标签分类,标签分类主要包含大类标签分类及细分标签分类,大类标签分类主要采用链式关联多分类技术进行多标签分类,而细分标签主要采用关键词提取的方式提取相关关键词后再映射至各细分标签。如图2所示,本实施例首先基于产品信息和产品标签数,梳理出门票产品的标签树体系,标签树体系主要包含两级标签,第一级为大类标签,根据门票产品的主题特征,分为文化、自然、玩乐、运动和历史共五大类,各大类下再细分为二级标签。
完成标签树的构建后,选取部分样本标签数据作为模型训练样本,根据产品标签大类,对训练样本进行大类标签标注,基于文本分析技术构建产品大类标签预测模型,利用训练样本完成模型训练后将该模型用于全量数据的大类标签分类预测。完成门票产品的大类标签分类后将各大类标签作为标签画像体系的一级标签。
完成大类标签分类后,再基于各大类标签进行标签细分,即门票产品二级标签。区别于一级标签的标签预测模式,二级细分标签主要根据门票产品的关键词进行分类。利用文本信息挖掘技术——TF-IDF算法,对各门票产品描述信息进行关键词提取,再将高频关键词结合标签树进行关键词——标签映射,从而生成二级标签。
具体的,将本发明方法应用于实施例的主要过程包括:
1、样本标签数据整理:包括景点描述文档和分词词库两部分。
1.1景点描述文档:来源于系统内部的数据和网络数据,主要包括产品的标题和产品的描述文本,从整体文档中随机抽取一万个文档作为样本,然后在选取的样本数据中进行一万次抽样,抽到的数据作为训练集,剩下没被抽到的作为测试集;
1.2分词词库:包括默认词库、停用词库和歧义词库,默认词库使用分词算法,将自带的词库和网络旅游词库结合去重得到,停用词库使用各种中文符号、介词、语气词、形容词以及初次分词后筛选出来高频无用词构成,歧义词库主要结合品牌名称和景点名称构成。
2、数据集关键词提取:分词是使用Ansj分词工具对全体数据集进行统一操作,使用TF-IDF提取关键词,每篇文档抽取前20个词,然后在20个词中计算词频,筛选出高频无用词加入到停用词库里面,然后再重新抽取关键词,这样重复10次,以得到每篇文档的关键词,最后使用w2v方法将关键词向量化;
TF-IDF主要分两部分计算——TF和IDF,TF为词频,表示关键词在文本中出现的频率:
Figure BDA0002289793700000051
式中,tf为分词的词频,nw为分词在产品信息中出现的次数,np为产品信息中心出现各分词的次数;
IDF是逆向文件频率,某一特定词语的IDF,可以由总文件数目除以包含该词语的文件的数目:
Figure BDA0002289793700000052
式中,idf为分词的逆向文件频率,∑Dw为产品信息中包含该分词的景点文档数量,∑Da为产品信息中全部景点文档数量;
最后得到:
TF-IDF=tf*idf。
3、训练集构建:从数据集中随机抽出一万个文档,然后在从一万个文档里面有放回的随机抽取一万次抽取出来的文档作为训练集,剩下的为测试集。
可知一个样本始终不会被抽到的概率为:
Figure BDA0002289793700000053
取极限为:
Figure BDA0002289793700000054
训练集标签的构建,对训练集的每个关键词进行人工打标签,最终得到整个训练集的标签。然后使用链式关联把多分类转化为二分类,最后基于逻辑回归模型进行模型训练。
4、对测试集进行标签分类
使用训练好的逻辑回归模型对测试集进行大类标签预测,每个产品预设有20个关键词,能够得到20个标签,其中会有重复的标签,所以每个产品最多有20个标签,然后按照所有关键词TF-IDF值的排序,去掉后百分之三十的关键词以及标签,最后将所有的标签进行人工分类,构建出包含一级标签和二级标签的标签树。
综上所述,采用本发明提出的方法,能够自动根据预置的标签样本数据自动进行训练模型,将该模型用于门票产品的一级标签分类,根据门票产品的描述文本,采用文本分析算法及分类算法,精确地将产品分至不同的类别,得到产品的以及标签;完成一级标签的分类后,利用TF-IDF技术,提取产品描述关键词,再将关键词映射至二级标签,从而完成门票产品的多级标签的分类。
在实际应用中,将产品画像结合获取的订单、用户及流量数据,并与现有的用户画像体系关联,能够衍生出多样的业务模式,包括精准用户产品偏好、主题偏好识别及预测,产品标签精准圈人等,能够成功地指导用户引流、精准营销、人群放大预测等业务。
此外,基于产品画像,与其他多维数据相接合,能够精准地推荐产品给用户,极大地提高了营销效率与精准度,也有效的减少了运营成本,从而取得提效减能的双赢。

Claims (9)

1.一种旅游门票产品画像生成方法,其特征在于,包括以下步骤:
S1、获取旅游门票的样本产品信息,提取旅游门票的样本产品特征;
S2、根据旅游门票的样本产品特征,结合预设的产品标签数,构建标签树,其中,标签树包括一级标签和二级标签;
S3、根据预设的样本标签数据集,通过文本分析技术和多分类算法,以训练得到大类标签预测模型;
S4、由大类标签预测模型对旅游门票的实际产品信息进行大类标签分类,将大类标签作为旅游门票的一级标签数据;
S5、通过关键词提取方法对旅游门票的实际产品信息进行标签细分,得到旅游门票的二级标签数据,结合步骤S4中旅游门票的一级标签数据,即得到旅游门票的产品画像。
2.根据权利要求1所述的一种旅游门票产品画像生成方法,其特征在于,所述样本标签数据集包括多个产品信息,所述产品信息包括多个景点描述文档,所述景点描述文档由不同的产品特征组成,所述产品特征包括产品标题和对应的产品描述文本。
3.根据权利要求1所述的一种旅游门票产品画像生成方法,其特征在于,所述一级标签包括文化、自然、玩乐、运动和历史共五个大类。
4.根据权利要求2所述的一种旅游门票产品画像生成方法,其特征在于,所述步骤S3具体包括以下步骤:
S31、从样本标签数据集中随机选择N个景点描述文档作为训练集,样本标签数据集中剩余的景点描述文档作为测试集;
S32、将训练集输入逻辑回归模型,采用文本分析技术和链式关联多分类算法进行模型训练,得到训练好的逻辑回归模型;
S33、将测试集输入训练好的逻辑回归模型,若输出分类概率小于或等于预设概率值,则该训练好的逻辑回归模型即为大类标签预测模型,否则返回步骤S31。
5.根据权利要求4所述的一种旅游门票产品画像生成方法,其特征在于,所述步骤S5具体包括以下步骤:
S51、基于预设的分词词库,对旅游门票的实际产品信息进行分词处理;
S52、从多个分词中提取关键词;
S53、将提取的关键词映射至标签树的二级标签,得到旅游门票的二级标签数据;
S54、结合旅游门票的一级标签数据和二级标签数据,即得到旅游门票的产品画像。
6.根据权利要求5所述的一种旅游门票产品画像生成方法,其特征在于,所述步骤S51具体是采用Ansj中文分词工具对旅游门票的实际产品信息进行分词处理。
7.根据权利要求6所述的一种旅游门票产品画像生成方法,其特征在于,所述步骤S52具体是采用TF-IDF算法从分词中提取关键词。
8.根据权利要求7所述的一种旅游门票产品画像生成方法,其特征在于,所述步骤S52具体包括以下步骤:
S521、计算各分词的词频和逆向文件频率,得到各分词的TF-IDF值;
S522、将各分词的TF-IDF值按从大至小的顺序进行排序,选择TF-IDF值排序靠前70%的分词作为关键词。
9.根据权利要求8所述的一种旅游门票产品画像生成方法,其特征在于,所述词频的计算公式为:
Figure FDA0002289793690000021
其中,tf为分词的词频,nw为分词在产品信息中出现的次数,np为产品信息中心出现各分词的次数;
逆向文件频率的计算公式为:
Figure FDA0002289793690000022
其中,idf为分词的逆向文件频率,∑Dw为产品信息中包含该分词的景点文档数量,∑Da为产品信息中全部景点文档数量;
TF-IDF值的计算公式为:
TF-IDF=tf*idf。
CN201911175273.9A 2019-11-26 2019-11-26 一种旅游门票产品画像生成方法 Active CN110910175B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911175273.9A CN110910175B (zh) 2019-11-26 2019-11-26 一种旅游门票产品画像生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911175273.9A CN110910175B (zh) 2019-11-26 2019-11-26 一种旅游门票产品画像生成方法

Publications (2)

Publication Number Publication Date
CN110910175A true CN110910175A (zh) 2020-03-24
CN110910175B CN110910175B (zh) 2023-07-28

Family

ID=69819676

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911175273.9A Active CN110910175B (zh) 2019-11-26 2019-11-26 一种旅游门票产品画像生成方法

Country Status (1)

Country Link
CN (1) CN110910175B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112036166A (zh) * 2020-07-22 2020-12-04 大箴(杭州)科技有限公司 一种数据标注方法、装置、存储介质及计算机设备
CN112560474A (zh) * 2020-09-10 2021-03-26 上海东普信息科技有限公司 快递行业画像的生成方法、装置、设备及存储介质
CN113159709A (zh) * 2021-03-24 2021-07-23 深圳闪回科技有限公司 一套自动化标签体系及系统
CN113239205A (zh) * 2021-06-10 2021-08-10 阳光保险集团股份有限公司 数据标注方法、装置、电子设备及计算机可读存储介质
CN113449187A (zh) * 2021-06-28 2021-09-28 平安银行股份有限公司 基于双画像的产品推荐方法、装置、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104978328A (zh) * 2014-04-03 2015-10-14 北京奇虎科技有限公司 一种获取层级分类器以及文本分类的方法及装置
CN107169049A (zh) * 2017-04-25 2017-09-15 腾讯科技(深圳)有限公司 应用的标签信息生成方法及装置
CN107368923A (zh) * 2017-07-21 2017-11-21 成都澳海川科技有限公司 景点热度预测方法及装置
CN107679226A (zh) * 2017-10-23 2018-02-09 中国科学院重庆绿色智能技术研究院 基于主题的旅游本体构建方法
CN108596637A (zh) * 2018-04-24 2018-09-28 北京航空航天大学 一种电商服务问题自动发现系统
US20190122260A1 (en) * 2016-09-27 2019-04-25 Tencent Technology (Shenzhen) Company Limited Method and apparatus for generating targeted label, and storage medium
CN109783818A (zh) * 2019-01-17 2019-05-21 上海三零卫士信息安全有限公司 一种企业行业多标签分类方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104978328A (zh) * 2014-04-03 2015-10-14 北京奇虎科技有限公司 一种获取层级分类器以及文本分类的方法及装置
US20190122260A1 (en) * 2016-09-27 2019-04-25 Tencent Technology (Shenzhen) Company Limited Method and apparatus for generating targeted label, and storage medium
CN107169049A (zh) * 2017-04-25 2017-09-15 腾讯科技(深圳)有限公司 应用的标签信息生成方法及装置
CN107368923A (zh) * 2017-07-21 2017-11-21 成都澳海川科技有限公司 景点热度预测方法及装置
CN107679226A (zh) * 2017-10-23 2018-02-09 中国科学院重庆绿色智能技术研究院 基于主题的旅游本体构建方法
CN108596637A (zh) * 2018-04-24 2018-09-28 北京航空航天大学 一种电商服务问题自动发现系统
CN109783818A (zh) * 2019-01-17 2019-05-21 上海三零卫士信息安全有限公司 一种企业行业多标签分类方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112036166A (zh) * 2020-07-22 2020-12-04 大箴(杭州)科技有限公司 一种数据标注方法、装置、存储介质及计算机设备
CN112560474A (zh) * 2020-09-10 2021-03-26 上海东普信息科技有限公司 快递行业画像的生成方法、装置、设备及存储介质
CN113159709A (zh) * 2021-03-24 2021-07-23 深圳闪回科技有限公司 一套自动化标签体系及系统
CN113239205A (zh) * 2021-06-10 2021-08-10 阳光保险集团股份有限公司 数据标注方法、装置、电子设备及计算机可读存储介质
CN113239205B (zh) * 2021-06-10 2023-09-01 阳光保险集团股份有限公司 数据标注方法、装置、电子设备及计算机可读存储介质
CN113449187A (zh) * 2021-06-28 2021-09-28 平安银行股份有限公司 基于双画像的产品推荐方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN110910175B (zh) 2023-07-28

Similar Documents

Publication Publication Date Title
CN110910175B (zh) 一种旅游门票产品画像生成方法
CN110826320B (zh) 一种基于文本识别的敏感数据发现方法及系统
CN104572958B (zh) 一种基于事件抽取的敏感信息监控方法
CN107463658B (zh) 文本分类方法及装置
CN104598535B (zh) 一种基于最大熵的事件抽取方法
CN106886580B (zh) 一种基于深度学习的图片情感极性分析方法
CN107220237A (zh) 一种基于卷积神经网络的企业实体关系抽取的方法
CN108563638B (zh) 一种基于主题识别和集成学习的微博情感分析方法
CN109670014B (zh) 一种基于规则匹配和机器学习的论文作者名消歧方法
CN107491531A (zh) 基于集成学习框架的中文网络评论情感分类方法
CN112256939B (zh) 一种针对化工领域的文本实体关系抽取方法
CN110134792B (zh) 文本识别方法、装置、电子设备以及存储介质
CN111651566B (zh) 基于多任务的小样本学习的裁判文书争议焦点提取方法
CN110472257A (zh) 一种基于句对的机器翻译引擎测评优选方法及系统
CN110413998B (zh) 一种面向电力行业的自适应中文分词方法及其系统、介质
CN104881399B (zh) 基于概率软逻辑psl的事件识别方法和系统
CN112069312A (zh) 一种基于实体识别的文本分类方法及电子装置
CN110781333A (zh) 一种基于机器学习的斜拉桥非结构化监测数据处理方法
CN111626050A (zh) 基于表情词典与情感常识的微博情感分析方法
CN110110087A (zh) 一种基于二分类器的用于法律文本分类的特征工程方法
TW202111569A (zh) 高擴展性、多標籤的文本分類方法和裝置
CN111460100A (zh) 一种刑事法律文书罪名的推荐方法和系统
CN104834718A (zh) 基于最大熵模型的事件论元识别方法及系统
Suhasini et al. A Hybrid TF-IDF and N-Grams Based Feature Extraction Approach for Accurate Detection of Fake News on Twitter Data
CN107562774A (zh) 小语种词嵌入模型的生成方法、系统及问答方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PP01 Preservation of patent right
PP01 Preservation of patent right

Effective date of registration: 20231107

Granted publication date: 20230728