CN116933782A - 一种电商文本关键词提取处理方法及系统 - Google Patents

一种电商文本关键词提取处理方法及系统 Download PDF

Info

Publication number
CN116933782A
CN116933782A CN202310674877.8A CN202310674877A CN116933782A CN 116933782 A CN116933782 A CN 116933782A CN 202310674877 A CN202310674877 A CN 202310674877A CN 116933782 A CN116933782 A CN 116933782A
Authority
CN
China
Prior art keywords
text
word
keywords
commerce
electronic commerce
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310674877.8A
Other languages
English (en)
Inventor
姚云锋
沈寅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Taofenba Network Technology Co ltd
Original Assignee
Hangzhou Taofenba Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Taofenba Network Technology Co ltd filed Critical Hangzhou Taofenba Network Technology Co ltd
Priority to CN202310674877.8A priority Critical patent/CN116933782A/zh
Publication of CN116933782A publication Critical patent/CN116933782A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开的是种电商文本关键词提取处理方法及系统,获取电商相关文本标题及正文;获取标题词向量与句向量计算相似度,相似度最高的词作为第一候选关键词;将电商文本输入预训练的命名实体识别模型,预测得到多个第二候选关键词;将电商文本与指定电商核心词库进行匹配,以得到多个第三候选关键词;获取电商文本各个词词性,提取多个名词短语作为第四候选关键词;对第一、二、三、四候选关键词进行重要程度排序,将相似度满足预设条件的候选关键词,确定为最终关键词,还包括关键词提取处理系统,包括通信连接的获取模块,第一、第二、第三、第四处理模块,排序模块,本发明具有能够解决电商文本关键词提取准确率不高的问题等技术特点。

Description

一种电商文本关键词提取处理方法及系统
技术领域
本发明涉及一种处理方法,更具体一点说,涉及一种电商文本关键词提取处理方法,属于自然语言处理技术领域。
背景技术
近年来,随着互联网高速发展,尤其是移动互联网的普及,使得电子商务快速发展,网上购物逐渐成为消费者的消费习惯,同时各大电商平台积累了大量有关商品介绍相关的文本数据。面对互联网过中海量的电商文本数据,消费者需要耗费巨大的时间和精力查找阅读文本,找出文本中对自身有价值的关键信息。通过自动化技术提取电商文本数据的关键词以及关键短语,即从文本中找到具有代表性的词语或短语来总结文本内容,并保证尽量不丢失文本中基础信息。这有利于消费者快速了解文本内容,节省消费者的时间,降低消费者的学习成本。
关键词和关键短语提取,是指利用计算机技术从文本中抽取出与文本内容相关性较高的词语或短语。关键词提取是自然语言处理领域的一个分支,是文本检索、摘要生成、文档比较、文本分类和聚类等文本挖掘研究的基础性工作。
目前关键词提取方法中,最常见的方法包括:
1)有监督型的关键词提取:
此方法首先需要通过人工对文本数据进行标注关键词信息,生成标注语料数据。通过人工标注部分数据,然后利用机器学习方法有监督的学习关键词分布特征,训练得到关键词提取的分类器。利用训练好的关键词提取分类器,可以提取新文章的标签。但有监督的提取方法非常依赖于人工标注语料,标注语料的领域、规模和质量都会直接影响到机器的提取效果,人工成本太昂贵。
2)无监督的关键词提取:
无监督的关键词提取不需要人工标注的语料,利用某些方法发现文本中比较重要的词作为关键词,进行关键词提取。该方法的缺点在于,计算复杂度太高,提取效率不高,由于未能有效利用已有的领域知识库信息数据,提取的准确性不高,虽能提取新词,但经常会提取出明显无意义的词,影响整体准确率。
因此需要对现有技术进行改进,以提供一种新的关键短语提取方法。
发明内容
为了解决上述现有技术问题,本发明提供具有能够解决电商文本关键词提取准确率不高的问题等技术特点的一种电商文本关键词提取处理方法及系统。
为了实现上述目的,本发明是通过以下技术方案实现的:
本发明一种电商文本关键词提取处理方法,该方法包括如下步骤:
步骤S101:获取电商相关文本标题及正文;
步骤S102:获取所述标题词向量与句向量计算相似度,相似度最高的词作为第一候选关键词;
步骤S103:将所述电商文本输入预训练的命名实体识别模型,预测得到多个第二候选关键词;
步骤S104:将所述电商文本与指定电商核心词库进行匹配,以得到多个第三候选关键词;
步骤S105:获取电商文本各个词词性,提取多个名词短语作为第四候选关键词;
步骤S106:对所述第一、二、三、四候选关键词进行重要程度排序,将相似度满足预设条件的候选关键词,确定为所述最终关键词;所述预设条件是指相似度是否大于预设阈值,将大于预设阈值的候选关键词,确定为所述最终关键词,其中预设阈值根据需要进行灵活设置,可以根据相同字数依据。
优选的,步骤S102中预设词向量是基于ELMo模型预先训练获取到的,ELMo模型是基于大规模语料训练的语言模型;句向量是对标题中每个词的词向量利用SIF加权平均句子每个词的词向量得到的。
优选的,步骤S103中预设的命名实体识别模型是利用ELMo模型预先基于电商文本样本数据训练得到的。
优选的,步骤S104中所述电商领域核心词汇表中包括商品品类词、品牌词和产品词,对所述电商领域核心词汇表中的词汇进行整理和筛选,以得到高质量目标电商领域核心词汇表。
优选的,步骤S106中词的重要程度是通过计算文本的句向量和所诉候选关键词计算余弦相似度来衡量。
优选的,计算文本的句向量方法还包括:
1)将文档分为较短且完整的句子,通过并行计算句向量来提升计算效率;
2)将句子中每个词第一次出现的位置来生成权重1/(p+u),其中,p是出现的位置,u是超参数。
本发明一种电商文本关键词提取处理系统,包括词向量模块,相似计算模块,实体识别模块,词库匹配模块,词性匹配模块,排序模块;
其中,词向量模块用于获取电商文本标题及正文以及获取电商文本对应的词向量;
相似计算模块将所述电商文本标题每个词的词向量与标题句向量计算相似度,获取相似度最高的词作为第一候选词;
实体识别模块用于将所述电商文本输入预训练的命名实体识别模型,预测得到多个第二候选关键词;
词库匹配模块用于将所述电商文本与指定电商核心词库进行匹配,以得到多个第三候选关键词;
词性匹配模块获取电商文本各个词词性,提取多个名词短语作为第四候选关键词;
排序模块用于第一、二、三、四候选关键词进行重要程度排序。
本发明一种计算机可读存储介质,存储有用于执行电商文本关键词提取处理方法的计算机程序。
有益效果:相对于现有TF-IDF、TextRank等基于统计和图的关键词提取算法,ELMo语言模型可以获得文本更多的语义信息,同时ELMo是动态的,可以改善一词多义问题;SIF句向量模型根据词频对词向量进行平滑反频率加权,而非简单将词向量求平均,其能更好地捕捉句子的中心话题,更好地过滤通用词,能更好的表征句子含义,同时结合电商核心词库,能提高电商文本的关键词提取准确率;对比需要耗费大量人力的有监督型的关键词提取方法,本技术成本低。
附图说明
图1为本公开实施例文本关键词提取处理方法流程图;
图2为本公开实施例文本关键词提取处理系统示意图。
具体实施方式
以下结合说明书附图,对本发明作进一步说明,但本发明并不局限于以下实施例。
相对于现有技术,本发明技术方案创造性要点包括:
1.利用ELMo语言模型更好表征文本语义。
2.SIF句向量模型根据词频对词向量进行平滑反频率加权,使句向量能更好地捕捉句子的中心话题,并更好地过滤通用词。
3.通过实体命名识别算法得到的关键词,重要程度高。
4.利用领域的电商核心词,匹配文本得到的关键词准确性更高。
5.将候选关键词与文本句向量计算相似度,则可以将所有候选关键词进行排序,更好控制关键词数量和重要程度。
如图1-2所示为一种电商文本关键词提取处理方法及系统的具体实施例,本发明一种电商文本关键词提取处理方法,该方法包括如下步骤:
步骤S101:获取电商相关文本标题及正文;
示例性的,用户在社交媒体上发表的电商商品相关介绍的文本数据。
步骤S102:获取所述标题词向量与句向量计算相似度,相似度最高的词作为第一候选关键词;预设词向量是基于ELMo(Embeddings from Language Models嵌入式语言模型)模型预先训练获取到的,ELMo模型是基于大规模语料训练的语言模型;句向量是对标题中每个词的词向量利用SIF(smooth inverse frequency)加权平均句子每个词的词向量得到的;
示例性的,对电商文本标题分词,获取词向量以及句向量,计算标题中每个词的词向量与句向量的相似度,得到相似度最高的候选关键词。
步骤S103:将所述电商文本输入预训练的命名实体识别模型,预测得到多个第二候选关键词;预设的命名实体识别模型是利用ELMo模型预先基于电商文本样本数据训练得到的。
示例性的,可以预先收集不同的电商领域文本作为样本。基于样本对ELMo模型训练得到预设命名实体识别模型,可以提取电商相关的实体关键词作为多个第二候选关键词。ELMo模型预训练的预设命名实体识别模型如中文命名实体识别模型,其实体类别可以包括商品的产品名、商品类目、商品品牌等。关于ELMo模型具体训练过程可以参考现有技术理解,此处不再赘述,本实施例中仅是训练样本数据以及应用场景不同。
步骤S104:将所述电商文本与指定电商核心词库进行匹配,以得到多个第三候选关键词;所述电商领域核心词汇表中包括商品品类词、品牌词和产品词,对所述电商领域核心词汇表中的词汇进行整理和筛选,以得到高质量目标电商领域核心词汇表;
示例性的,指定主题词库可以是电商商品品类词、品牌词和产品词等。
步骤S105:获取电商文本各个词词性,提取多个名词短语作为第四候选关键词;
示例性的,对文本进行分词,根据词性挑选名词短语作为候选关键词,例如“手机”、“口罩”、“鸿星尔克”等。
步骤S106:对所述第一、二、三、四候选关键词进行重要程度排序,词的重要程度是通过计算文本的句向量和所诉候选关键词计算余弦相似度来衡量;将相似度满足预设条件的候选关键词,确定为所述最终关键词;所述预设条件是指相似度是否大于预设阈值,将大于预设阈值的候选关键词,确定为所述最终关键词。
示例性的,若候选关键词按相似度从高到低有“口罩”、“酒精”、“N95”、“感冒药”、“手机”等,若“手机”的相似度较低未达到预设阈值,那么“手机”这个候选关键词就不会选入最终关键词。
需要说明的是,尽管在附图1中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。另外,也易于理解的是,这些步骤可以是例如在多个模块/进程/线程中同步或异步执行。
优选的实施例方式,计算文本的句向量方法还包括:
1)将文档分为较短且完整的句子,通过并行计算句向量来提升计算效率;
2)将句子中每个词第一次出现的位置来生成权重1/(p+u),其中,p是出现的位置,u是超参数,竖直可以调节,优选设置为3.2;
如图2所示,本发明一种电商文本关键词提取处理系统,包括词向量模块201、相似计算模块202、实体识别模块203、词库匹配模块204、词性匹配模块205、排序模块206;
其中,词向量模块201用于获取电商文本标题及正文以及获取电商文本对应的词向量;
相似计算模块202将所述电商文本标题每个词的词向量与标题句向量计算相似度,获取相似度最高的词作为第一候选词;预设词向量是基于ELMo(Embeddings fromLanguage Models嵌入式语言模型)模型预先训练获取到的,所述ELMo模型是基于大规模语料训练的语言模型;所述句向量是对标题中每个词的词向量利用SIF(smooth inversefrequency)加权平均句子每个词的词向量得到的。
实体识别模块203用于将所述电商文本输入预训练的命名实体识别模型,预测得到多个第二候选关键词;预设词向量是基于ELMo(Embeddings from Language Models嵌入式语言模型)模型预先训练获取到的,所述ELMo模型是基于大规模语料训练的语言模型;所述句向量是对标题中每个词的词向量利用SIF(smooth inverse frequency)加权平均句子每个词的词向量得到的。
词库匹配模块204用于将所述电商文本与指定电商核心词库进行匹配,以得到多个第三候选关键词;电商领域核心词汇表中包括商品品类词、品牌词和产品词等,对所述电商领域核心词汇表中的词汇进行整理和筛选,以得到高质量目标电商领域核心词汇表;
词性匹配模块205获取电商文本各个词词性,提取多个名词短语作为第四候选关键词;
排序模块206用于第一、二、三、四候选关键词进行重要程度排序;词的重要程度是通过计算文本的句向量和所诉候选关键词计算余弦相似度来衡量的;将相似度满足预设条件的候选关键词,确定为所述最终关键词。
本发明一种计算机可读存储介质,存储有用于执行电商文本关键词提取处理方法的计算机程序。
该计算机可读存储介质,例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
本发明公开实施例提供的技术方案与现有技术相比具有如下优点:
本发明方案结合了ELMo语言模型以及SIF句向量,ELMo语言模型较TFIDF、TextRank等基于统计和图的具有更多的语义信息,SIF句向量算法根据词频对词向量进行平滑反频率加权,能更好地捕捉句子的中心话题的特点,实现了对句子更好的表示。实体命名识别模型方法,能更准确提取文本中实体数据,电商核心词库与电商文本进行匹配得到的关键词融合处理,考虑了除标注实体以外的电商领域内有意义的关键词,使得提取的电商本中的关键词的准确性提高。
最后,需要注意的是,本发明不限于以上实施例,还可以有很多变形。本领域的普通技术人员能从本发明公开的内容中直接导出或联想到的所有变形,均应认为是本发明的保护范围。

Claims (8)

1.一种电商文本关键词提取处理方法,其特征在于该方法包括如下步骤:
步骤S101:获取电商相关文本标题及正文;
步骤S102:获取所述标题词向量与句向量计算相似度,相似度最高的词作为第一候选关键词;
步骤S103:将所述电商文本输入预训练的命名实体识别模型,预测得到多个第二候选关键词;
步骤S104:将所述电商文本与指定电商核心词库进行匹配,以得到多个第三候选关键词;
步骤S105:获取电商文本各个词词性,提取多个名词短语作为第四候选关键词;
步骤S106:对所述第一、二、三、四候选关键词进行重要程度排序,将相似度满足预设条件的候选关键词,确定为所述最终关键词;所述预设条件是指相似度是否大于预设阈值,将大于预设阈值的候选关键词,确定为所述最终关键词。
2.根据权利要求1所述的一种电商文本关键词提取处理方法,其特征在于,步骤S102中预设词向量是基于ELMo模型预先训练获取到的,ELMo模型是基于大规模语料训练的语言模型;句向量是对标题中每个词的词向量利用SIF加权平均句子每个词的词向量得到的。
3.根据权利要求1所述的一种电商文本关键词提取处理方法,其特征在于,步骤S103中预设的命名实体识别模型是利用ELMo模型预先基于电商文本样本数据训练得到的。
4.根据权利要求1所述的一种电商文本关键词提取处理方法,其特征在于,步骤S104中所述电商领域核心词汇表中包括商品品类词、品牌词和产品词,对所述电商领域核心词汇表中的词汇进行整理和筛选,以得到高质量目标电商领域核心词汇表。
5.根据权利要求1所述的一种电商文本关键词提取处理方法,其特征在于,步骤S106中词的重要程度是通过计算文本的句向量和所诉候选关键词计算余弦相似度来衡量。
6.根据权利要求5所述的一种电商文本关键词提取处理方法,其特征在于,计算文本的句向量方法还包括:
1)将文档分为较短且完整的句子,通过并行计算句向量来提升计算效率;
2)将句子中每个词第一次出现的位置来生成权重1/(p+u),其中,p是出现的位置,u是超参数。
7.适用于如权利要求1-6任一项所述的一种电商文本关键词提取处理方法的系统,其特征在于,包括词向量模块(201)、相似计算模块(202)、实体识别模块(203)、词库匹配模块(204)、词性匹配模块(205)、排序模块(206);
其中,词向量模块(201)用于提取电商文本标题及正文以及获取电商文本对应的词向量;
相似计算模块(202)将所述电商文本标题每个词的词向量与标题句向量计算相似度,获取相似度最高的词作为第一候选关键词;
实体识别模块(203)用于将所述电商文本输入预训练的命名实体识别模型,预测得到多个第二候选关键词;
词库匹配模块(204)用于将所述电商文本与指定电商核心词库进行匹配,以得到多个第三候选关键词;
词性匹配模块(205)获取电商文本各个词词性,提取多个名词短语作为第四候选关键词;
排序模块(206)用于第一、二、三、四候选关键词进行重要程度排序。
8.一种计算机可读存储介质,其特征在于,存储有用于执行权利要求1-6中任一项所述的电商文本关键词提取处理方法的计算机程序。
CN202310674877.8A 2023-06-08 2023-06-08 一种电商文本关键词提取处理方法及系统 Pending CN116933782A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310674877.8A CN116933782A (zh) 2023-06-08 2023-06-08 一种电商文本关键词提取处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310674877.8A CN116933782A (zh) 2023-06-08 2023-06-08 一种电商文本关键词提取处理方法及系统

Publications (1)

Publication Number Publication Date
CN116933782A true CN116933782A (zh) 2023-10-24

Family

ID=88386936

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310674877.8A Pending CN116933782A (zh) 2023-06-08 2023-06-08 一种电商文本关键词提取处理方法及系统

Country Status (1)

Country Link
CN (1) CN116933782A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117725036A (zh) * 2024-02-07 2024-03-19 卓世科技(海南)有限公司 中文提示词压缩方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117725036A (zh) * 2024-02-07 2024-03-19 卓世科技(海南)有限公司 中文提示词压缩方法及装置
CN117725036B (zh) * 2024-02-07 2024-04-26 卓世科技(海南)有限公司 中文提示词压缩方法及装置

Similar Documents

Publication Publication Date Title
CN110298033B (zh) 关键词语料标注训练提取系统
Devika et al. Sentiment analysis: a comparative study on different approaches
CN107861939B (zh) 一种融合词向量和主题模型的领域实体消歧方法
CN109493977B (zh) 文本数据处理方法、装置、电子设备及计算机可读介质
CN108121700B (zh) 一种关键词提取方法、装置及电子设备
CN108628828B (zh) 一种基于自注意力的观点及其持有者的联合抽取方法
CN109960756B (zh) 新闻事件信息归纳方法
CN109086265B (zh) 一种语义训练方法、短文本中多语义词消歧方法
CN110489750A (zh) 基于双向lstm-crf的缅甸语分词及词性标注方法及装置
CN116911312B (zh) 一种任务型对话系统及其实现方法
CN112036177A (zh) 基于多模型融合的文本语义相似度信息处理方法及系统
CN112559684A (zh) 一种关键词提取及信息检索方法
CN108038099B (zh) 基于词聚类的低频关键词识别方法
US20220180317A1 (en) Linguistic analysis of seed documents and peer groups
CN110377695B (zh) 一种舆情主题数据聚类方法、装置及存储介质
CN112434164B (zh) 一种兼顾话题发现和情感分析的网络舆情分析方法及系统
US20210004602A1 (en) Method and apparatus for determining (raw) video materials for news
CN109446313B (zh) 一种基于自然语言分析的排序系统及方法
CN111027306A (zh) 一种基于关键词抽取和词移距离的知识产权匹配技术
CN115146629A (zh) 一种基于对比学习的新闻文本与评论相关性分析方法
CN111291168A (zh) 图书检索方法、装置及可读存储介质
CN115952292A (zh) 多标签分类方法、装置及计算机可读介质
CN116933782A (zh) 一种电商文本关键词提取处理方法及系统
CN115248839A (zh) 一种基于知识体系的长文本检索方法以及装置
CN112862569A (zh) 基于图像和文本多模态数据的产品外观风格评价方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication