CN110750646B - 一种旅店评论文本的属性描述提取方法 - Google Patents

一种旅店评论文本的属性描述提取方法 Download PDF

Info

Publication number
CN110750646B
CN110750646B CN201910982544.5A CN201910982544A CN110750646B CN 110750646 B CN110750646 B CN 110750646B CN 201910982544 A CN201910982544 A CN 201910982544A CN 110750646 B CN110750646 B CN 110750646B
Authority
CN
China
Prior art keywords
comment
clause
central
attribute
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910982544.5A
Other languages
English (en)
Other versions
CN110750646A (zh
Inventor
孙锐
曾宇
金澎
谢红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Leshan Normal University
Original Assignee
Leshan Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Leshan Normal University filed Critical Leshan Normal University
Priority to CN201910982544.5A priority Critical patent/CN110750646B/zh
Publication of CN110750646A publication Critical patent/CN110750646A/zh
Application granted granted Critical
Publication of CN110750646B publication Critical patent/CN110750646B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0282Rating or review of business operators or products
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/12Hotels or restaurants

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Game Theory and Decision Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Primary Health Care (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种旅店评论文本的属性描述提取方法,对评论文本进行预处理;利用向量组合方法得到评论子句的向量表示;计算评论子句间的余弦相似度;利用无参聚类方法对评论子句数据集进行文本聚类,得到相似评论簇;计算每个评论簇的中心特征向量,选取中心评论子句;对每个中心评论子句进行依存分析,并根据依存分析关系规则提取属性描述,得到属性评论短语集合。本发明利用无监督的机器学习和自然语言处理技术自动生成产品或服务的属性评论描述,联合属性词和评论词的提取,无需单独构造属性词候选集合和评论词候选集合,利用依存分析技术自动解决属性词和评论词的搭配问题,无需人工知识的引入,简单有效地自动实现属性评论描述的生成。

Description

一种旅店评论文本的属性描述提取方法
技术领域
本发明属于信息处理技术领域,尤其涉及一种旅店评论文本的属性描述提取方法。
背景技术
随着电子商务的流行,更多的消费者习惯在商务网站或论坛上留下对产品或服务的观点态度。多数消费者在购买产品前大多会了解别人对产品或服务的意见,从而做出消费决策。人工浏览这些海量评论文本是非常耗时的,因此,在非结构化的产品评论中提取或标注出相关的属性词和评论词显得尤为重要。消费者可以通过直接浏览属性评论短语(由属性词和评论词构成)即可获得其他消费者对相关产品或服务的总体评论,从而节省大量的浏览时间。
现有技术中商家或平台根据产品或服务的特点定制属性评论短语,将这些短语看成已有的分类标签,采用分类模型为每条评论文本分配标签,但其却存在如下问题:方案要求领域专家事先定制产品或服务属性词以及评论词;因有人工知识的引入,故分类标签的设计带有一定的主观性;该技术为分类模型,在为每条评论文本分配标签时须采用有监督的学习方式,其要求之一就是须有已标注的评论文本作为训练语料。现有技术中还采用无监督的方法依次进行属性词提取、评论词提取和搭配关系识别。在属性词的提取上,大多利用词频技术提取名词或名词短语作为候选;在评论词提取部分,利用情感词典匹配的方式来得到评论词候选;在搭配关系识别上,则利用属性词和评论词的距离或互信息来构造属性评论短语。其存在如下问题:采用流水线的方式进行属性词提取和评论词提取,丢失了候选属性词和候选评论词的语义信息;搭配关系识别的性能一定程度上影响属性评论描述的语法正确性和流畅性。
发明内容
针对现有技术中的上述不足,本发明提供的一种旅店评论文本的属性描述提取方法,实现了采用无监督的机器学习方法自动发现不同的属性评论簇,并为每个簇提取对应的属性评论描述。
为了达到以上目的,本发明采用的技术方案为:
本方案提供一种旅店评论文本的属性描述提取方法,包括如下步骤:
S1、获取旅店评论文本的数据集,并利用分词工具对所述数据集中的每条评论进行预处理;
S2、根据所述预处理结果利用Word2Vec模型得到词嵌入向量,并利用向量组合方法得到评论子句的向量表示;
S3、根据所述评论子句的向量表示计算得到评论子句间的余弦相似度;
S4、根据所述评论子句间的余弦相似度利用无参聚类方法DBSCAN对评论子句的集合进行文本聚类处理,得到相似评论簇;
S5、根据所述相似评论簇计算得到每个簇的中心特征向量,并根据所述中心特征向量得到中心评论子句;
S6、利用中文依存分析方法对每个所述中心评论子句进行依存分析,并根据依存关系规则提取中心评论子句的属性描述,从而完成对旅店评论文本属性描述的提取。
进一步地,所述步骤S1包括如下步骤:
S101、获取旅店评论文本的数据集,并去除旅店评论文本数据集中每条评论的空格、HTML和特殊字符;
S102、将每条评论的长句切分成评论子句得到评论子句集合;
S103、根据所述评论子句集合,利用中文分词工具对每条评论子句进行分词处理,从而完成对每条评论的预处理。
再进一步地,所述步骤S2中评论子句的向量表示s的表达式如下:
Figure BDA0002235665780000031
其中,si表示向量s的第i维度值,wji表示评论子句第j个词的第i维度值,k表示评论子句的文本长度,n表示向量s的维度。
再进一步地,所述步骤S4包括如下步骤:
S401、根据所述评论子句间的余弦相似度构建评论子句数据集的相似度矩阵;
S402、根据所述相似度矩阵利用无参聚类方法DBSCAN对评论子句的集合进行文本聚类处理,得到相似评论簇。
再进一步地,所述步骤S5包括如下步骤:
S501、根据每个所述相似评论簇中所有评论子句的每一维特征向量的平均值计算得到每个簇的中心特征向量;
S502、根据以下公式计算得到每个相似评论簇中每条评论子句sj与所述每个簇的中心特征向量c的余弦相似度sim(sj,c):
Figure BDA0002235665780000032
其中,sji表示评论子句sj的第i维度值,ci表示中心特征向量c的第i维度值,n表示向量维度;
S503、选取所述余弦相似度中最大的评论子句作为该评论簇的中心评论子句,从而确定每个簇的中心对应的中心评论子句。
再进一步地,所述步骤S501中中心特征向量c的表达式如下:
Figure BDA0002235665780000041
其中,ci表示中心特征向量c的第i维度值,|C|表示对应簇C包含的评论子句数量,sji表示簇中评论子句sj第i维度值,n表示向量维度。
再进一步地,所述步骤S6包括如下步骤:
S601、利用中文依存分析方法对每个所述中心评论子句进行依存分析,得到每个中心评论子句的依存图;
S602、根据所述每个中心评论子句的依存图利用依存关系规则提取中心评论子句的属性描述,从而完成对旅店评论文本的属性描述的提取。
本发明的有益效果:
本发明提供了一种旅店评论文本的属性描述提取方法,获取评论数据集,对评论文本进行预处理;利用向量组合方法得到评论子句的向量表示;计算评论子句间的余弦相似度;利用无参聚类方法对评论子句数据集进行文本聚类,得到相似评论簇;计算每个评论簇的中心特征向量,选取中心评论子句;对每个中心评论子句进行依存分析,并根据依存分析关系规则提取属于描述,得到属性评论短语集合。本发明采用无监督的机器学习和自然语言处理技术自动生成产品或服务的属性评论描述,联合属性词和评论词的提取,无需单独构造属性词候选集合和评论词候选集合,利用语义依存分析技术自动解决属性词和评论词的搭配问题,无需人工知识的引入,简单有效地自动实现属性评论描述的生成,且属性评论描述的数量可以通过聚簇数目来调节,属性评论数量直接由簇内评论数目来确定,实现了利用无监督的机器学习方法自动发现不同的属性评论簇,并为每个簇提取对应的属性评论描述,有效地提高了提取旅店评论文本属性描述的精度。
附图说明
图1为本发明的方法流程图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
实施例
海量的评论文本中存在着一部分形态不同,但语义相同或相似的评论。这些评论同时关注着产品或服务的某一个方面或属性,同时也有着相似的情感倾向,如“房间很宽敞”和“房间挺大”。对消费者而言,无需过多地关注每条评论文本中的属性评论描述,而更聚焦于现有所有评论文本对相关产品或服务的各个属性或方面的总体评论(属性评论描述和占比情况)。因此,我们提供了一种针对评论文本的属性描述提取方法,采用无监督的机器学习方法自动发现不同的属性评论簇,并为每个簇提取对应的属性评论描述。该技术有如下特点:
(1)评论文本的自动聚类:以主流的分布式语义表示对评论子句建模,采用无参文本聚类技术实现评论子句的自动聚簇;
(2)提取评论簇的代表描述:计算评论簇的聚类中心以提取代表性评论描述;
(3)利用语义分析技术提取属性评论描述:利用语义依存工具对代表性评论描述进行语义分析,提取属性评论描述。
该技术的优势主要体现在:联合实现属性词提取和评论词提取,利用语义依存关系有效地解决属性词和评论词的语义搭配问题。在旅店评论文本上的实施例表明该技术简单有效,具备一定的可调节性。无监督的学习方式使得技术实施无需过多的人工干预。如图1所示,包括如下步骤:
S1、获取旅店评论文本的数据集,并利用分词工具对所述数据集中的每条评论进行预处理,其实现方法如下:
S101、获取旅店评论文本的数据集,并去除旅店评论文本数据集中每条评论的空格、HTML和特殊字符;
S102、将每条评论的长句切分成评论子句得到评论子句集合;
S103、根据所述评论子句集合,利用中文分词工具对每条评论子句进行分词处理,从而完成对每条评论的预处理;
S2、根据所述预处理结果利用Word2Vec模型得到词嵌入向量,并利用向量组合方法得到评论子句的向量表示。
本实施例中,利用Word2Vec习得词嵌入向量表示,训练语料以旅店评论文本为主,每个词条w的表示为n维,如“酒店”:[-0.02146593,-0.01235346,……,0.09233567];采用向量组合计算的方式,表示每条评论子句。给定评论子句s,其词序列为{w1,w2,…,wk},则该子句的表示向量可按下式计算:
Figure BDA0002235665780000061
其中,si表示向量s的第i维度值,wji表示评论子句第j个词的第i维度值,k表示评论子句的文本长度,n表示向量s的维度。如有评论子句“酒店/位置/地铁/门口”,其向量表示即是四个词向量在各个维度下的均值。
S3、根据所述评论子句的向量表示计算得到评论子句间的余弦相似度,余弦相似度sim(sj,c),
Figure BDA0002235665780000071
其中,sji表示评论子句sj的第i维度值,ci表示中心特征向量c的第i维度值,n表示向量维度;
S4、根据所述评论子句间的余弦相似度利用无参聚类方法DBSCAN对评论子句的集合进行文本聚类处理,得到相似评论簇,其实现方法如下:
S401、根据所述评论子句间的余弦相似度构建评论子句数据集的相似度矩阵;
S402、根据所述相似度矩阵利用无参聚类方法DBSCAN对评论子句的集合进行文本聚类处理,得到相似评论簇;
S5、根据所述相似评论簇计算得到每个簇的中心特征向量,并根据所述中心特征向量得到中心评论子句,其实现方法如下:
S501、根据每个所述相似评论簇中所有评论子句的每一维特征向量的平均值计算得到每个簇的中心特征向量,所述中心特征向量c的表达式如下:
Figure BDA0002235665780000072
其中,ci表示中心特征向量c的第i维度值,|C|表示对应簇C包含的评论子句数量,sji表示簇中评论子句sj第i维度值,n表示向量维度;
S502、根据以下公式计算得到每个相似评论簇中每条评论子句sj与所述每个簇的中心特征向量c的余弦相似度sim(sj,c):
Figure BDA0002235665780000073
其中,sji表示评论子句sj的第i维度值,ci表示中心特征向量c的第i维度值,n表示向量维度;
S503、选取所述余弦相似度中最大的评论子句作为该评论簇的中心评论子句,从而确定每个簇的中心对应的中心评论子句;
S6、利用中文依存分析方法对每个所述中心评论子句进行依存分析,并根据依存关系规则提取中心评论子句的属性描述,从而完成对旅店评论文本属性描述的提取,其实现方法如下:
S601、利用中文依存分析方法对每个所述中心评论子句进行依存分析,得到每个中心评论子句的依存图,如“酒店/早餐/较/丰富/多样”,依存分析后结果为:NN(酒店,早餐),NSUBJ(丰富,早餐),ADVMOD(较,丰富),VC(丰富,多样);
S602、根据所述每个中心评论子句的依存图利用依存关系规则提取中心评论子句的属性描述,从而完成对旅店评论文本的属性描述的提取,如依存关系“NSUBJ”多表示“主谓关系”,故可提取NSUBJ关系对“早餐丰富”作为属性评论描述,其中“早餐”为属性词,“丰富”为评论词。
本发明通过以上设计,采用无监督的机器学习和自然语言处理技术自动生成产品或服务的属性评论描述,联合属性词和评论词的提取,无需单独构造属性词候选和评论词候选,利用语义依存分析技术自动解决属性词和评论词的搭配问题,无需人工知识的引入,简单有效地自动实现属性评论描述的生成,且属性评论描述的数量可以通过聚簇数目来调节,属性评论数量直接由簇内评论数目来确定,实现了利用无监督的机器学习方法自动发现不同的属性评论簇,并为每个簇提取对应的属性评论描述,有效地提高了提取旅店评论文本属性描述的精度。

Claims (2)

1.一种旅店评论文本的属性描述提取方法,其特征在于,包括如下步骤:
S1、获取旅店评论文本的数据集,并利用分词工具对所述数据集中的每条评论进行预处理;
S2、根据所述预处理结果利用Word2Vec模型得到词嵌入向量,并利用向量组合方法得到评论子句的向量表示;
所述步骤S2中评论子句的向量表示s的表达式如下:
Figure FDF0000020073830000011
其中,si表示向量s的第i维度值,wji表示评论子句第j个词的第i维度值,k表示评论子句的文本长度,n表示向量s的维度;
S3、根据所述评论子句的向量表示计算得到评论子句间的余弦相似度;
S4、根据所述评论子句间的余弦相似度利用无参聚类方法DBSCAN对评论子句的集合进行文本聚类处理,得到相似评论簇;
S5、根据所述相似评论簇计算得到每个簇的中心特征向量,并根据所述中心特征向量得到中心评论子句;
S6、利用中文依存分析方法对每个所述中心评论子句进行依存分析,并根据依存关系规则提取中心评论子句的属性描述,从而完成对旅店评论文本属性描述的提取;
所述步骤S1包括如下步骤:
S101、获取旅店评论文本的数据集,并去除旅店评论文本数据集中每条评论的空格、HTML和特殊字符;
S102、将每条评论的长句切分成评论子句得到评论子句集合;
S103、根据所述评论子句集合,利用中文分词工具对每条评论子句进行分词处理,从而完成对每条评论的预处理;
所述步骤S4包括如下步骤:
S401、根据所述评论子句间的余弦相似度构建评论子句数据集的相似度矩阵;
S402、根据所述相似度矩阵利用无参聚类方法DBSCAN对评论子句的集合进行文本聚类处理,得到相似评论簇;
所述步骤S5包括如下步骤:
S501、根据每个所述相似评论簇中所有评论子句的每一维特征向量的平均值计算得到每个簇的中心特征向量;
S502、根据以下公式计算得到每个相似评论簇中每条评论子句sj与所述每个簇的中心特征向量c的余弦相似度sim(sj,c):
Figure FDF0000020073830000021
其中,sji表示评论子句sj的第i维度值,ci表示中心特征向量c的第i维度值,n表示向量维度;
S503、选取所述余弦相似度中最大的评论子句作为该评论簇的中心评论子句,从而确定每个簇的中心对应的中心评论子句;
所述步骤S6包括如下步骤:
S601、利用中文依存分析方法对每个所述中心评论子句进行依存分析,得到每个中心评论子句的依存图;
S602、根据所述每个中心评论子句的依存图利用依存关系规则提取中心评论子句的属性描述,从而完成对旅店评论文本的属性描述的提取。
2.根据权利要求1所述的旅店评论文本的属性描述提取方法,其特征在于,所述步骤S501中中心特征向量c的表达式如下:
Figure FDF0000020073830000031
其中,ci表示中心特征向量c的第i维度值,|C|表示对应簇C包含的评论子句数量,sji表示簇中评论子句sj第i维度值,n表示向量维度。
CN201910982544.5A 2019-10-16 2019-10-16 一种旅店评论文本的属性描述提取方法 Active CN110750646B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910982544.5A CN110750646B (zh) 2019-10-16 2019-10-16 一种旅店评论文本的属性描述提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910982544.5A CN110750646B (zh) 2019-10-16 2019-10-16 一种旅店评论文本的属性描述提取方法

Publications (2)

Publication Number Publication Date
CN110750646A CN110750646A (zh) 2020-02-04
CN110750646B true CN110750646B (zh) 2022-12-06

Family

ID=69278487

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910982544.5A Active CN110750646B (zh) 2019-10-16 2019-10-16 一种旅店评论文本的属性描述提取方法

Country Status (1)

Country Link
CN (1) CN110750646B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111639172A (zh) * 2020-06-01 2020-09-08 复旦大学 在线评论筛选装置
CN112084785A (zh) * 2020-07-30 2020-12-15 中国民用航空上海航空器适航审定中心 适航文本特征提取评估方法,系统,装置及存储介质
CN112184323A (zh) * 2020-10-13 2021-01-05 上海风秩科技有限公司 评价标签生成方法和装置、存储介质及电子设备
CN116541523A (zh) * 2023-04-28 2023-08-04 重庆邮电大学 一种基于大数据的法律判决舆情分类方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013134738A (ja) * 2011-12-27 2013-07-08 Kddi Corp 多数のコメント文章に基づいて位置情報にキーワードをタグ付けする装置、プログラム及び方法
CN104866572A (zh) * 2015-05-22 2015-08-26 齐鲁工业大学 一种网络短文本聚类方法
CN105550365A (zh) * 2016-01-15 2016-05-04 中国科学院自动化研究所 一种基于文本主题模型的可视化分析系统
CN107862343A (zh) * 2017-11-28 2018-03-30 南京理工大学 基于规则和神经网络的商品评论属性级情感分类方法
CN110175325A (zh) * 2019-04-26 2019-08-27 南京邮电大学 基于词向量和句法特征的评论分析方法及可视化交互界面

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102693245A (zh) * 2011-03-22 2012-09-26 日电(中国)有限公司 属性提取和聚类设备及方法
CN107633007B (zh) * 2017-08-09 2021-09-28 五邑大学 一种基于层次化ap聚类的商品评论数据标签化系统和方法
CN108363695B (zh) * 2018-02-23 2020-04-24 西南交通大学 一种基于双向依赖语法树表征的用户评论属性抽取方法
CN108595388B (zh) * 2018-04-23 2021-08-17 乐山师范学院 一种面向网络新闻报道的大事记自动生成方法
CN109033087B (zh) * 2018-08-07 2024-01-26 中证数智科技(深圳)有限公司 计算文本语义距离的方法、去重方法、聚类方法以及装置
CN109522415B (zh) * 2018-10-17 2021-06-01 厦门快商通信息技术有限公司 一种语料标注方法及装置
CN109871447A (zh) * 2019-03-05 2019-06-11 南京甄视智能科技有限公司 中文评论无监督学习的聚类方法、计算机程序产品以及服务器系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013134738A (ja) * 2011-12-27 2013-07-08 Kddi Corp 多数のコメント文章に基づいて位置情報にキーワードをタグ付けする装置、プログラム及び方法
CN104866572A (zh) * 2015-05-22 2015-08-26 齐鲁工业大学 一种网络短文本聚类方法
CN105550365A (zh) * 2016-01-15 2016-05-04 中国科学院自动化研究所 一种基于文本主题模型的可视化分析系统
CN107862343A (zh) * 2017-11-28 2018-03-30 南京理工大学 基于规则和神经网络的商品评论属性级情感分类方法
CN110175325A (zh) * 2019-04-26 2019-08-27 南京邮电大学 基于词向量和句法特征的评论分析方法及可视化交互界面

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于多维小波聚类的空间文本数据情感分布分析;李柯 等;《数据分析与知识发现》;20190731(第31期);14-22 *

Also Published As

Publication number Publication date
CN110750646A (zh) 2020-02-04

Similar Documents

Publication Publication Date Title
CN110750646B (zh) 一种旅店评论文本的属性描述提取方法
CN106776711B (zh) 一种基于深度学习的中文医学知识图谱构建方法
CN106599032B (zh) 一种结合稀疏编码和结构感知机的文本事件抽取方法
Tran et al. Understanding what the users say in chatbots: A case study for the Vietnamese language
CN109086265B (zh) 一种语义训练方法、短文本中多语义词消歧方法
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN112069312B (zh) 一种基于实体识别的文本分类方法及电子装置
CN112364628B (zh) 一种新词识别方法、装置、电子设备及存储介质
CN112434535A (zh) 基于多模型的要素抽取方法、装置、设备及存储介质
CN112800184B (zh) 基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法
CN109582788A (zh) 垃圾评论训练、识别方法、装置、设备及可读存储介质
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
Liu et al. Open intent discovery through unsupervised semantic clustering and dependency parsing
CN114997288A (zh) 一种设计资源关联方法
CN115713072A (zh) 一种基于提示学习和上下文感知的关系类别推断系统及方法
Chen et al. Sentiment classification of tourism based on rules and LDA topic model
CN115017884B (zh) 基于图文多模态门控增强的文本平行句对抽取方法
CN106610949A (zh) 一种基于语义分析的文本特征提取方法
CN114064901B (zh) 一种基于知识图谱词义消歧的书评文本分类方法
CN115759119A (zh) 一种金融文本情感分析方法、系统、介质和设备
Seeha et al. ThaiLMCut: Unsupervised pretraining for Thai word segmentation
CN113901224A (zh) 基于知识蒸馏的涉密文本识别模型训练方法、系统及装置
Shin et al. Learning context using segment-level LSTM for neural sequence labeling
CN117131932A (zh) 基于主题模型的领域知识图谱本体半自动构建方法及系统
Cristea et al. From scan to text. Methodology, solutions and perspectives of deciphering old cyrillic Romanian documents into the Latin script

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant