CN113392637B - 基于tf-idf的主题词提取方法、装置、设备及存储介质 - Google Patents
基于tf-idf的主题词提取方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113392637B CN113392637B CN202110707228.4A CN202110707228A CN113392637B CN 113392637 B CN113392637 B CN 113392637B CN 202110707228 A CN202110707228 A CN 202110707228A CN 113392637 B CN113392637 B CN 113392637B
- Authority
- CN
- China
- Prior art keywords
- target
- weight
- word segmentation
- text
- target word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0623—Item investigation
- G06Q30/0625—Directed, with specific intent or strategy
- G06Q30/0627—Directed, with specific intent or strategy using item specifications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种基于TF‑IDF的主题词提取方法、装置、设备及存储介质,属于主题词提取领域。该方法包括:获取多个商品描述文本并进行分词处理;根据目标分词在目标文本中出现的频率以及目标分词的逆向文本频率得到目标分词的第一权值;根据目标分词的词性得到第二权值;根据目标分词在目标文本中的位置得到第三权值;根据目标分词在多个商品描述文本出现的次数得到第四权值;根据第一权值、第二权值、第三权值以及第四权值确定目标分词的目标权值,根据目标权值得到目标文本的主题词提取结果。本申请提高主题词的识别提取准确率,具备一定的实际应用价值。
Description
技术领域
本发明涉及主题词提取领域,特别涉及一种基于TF-IDF的主题词提取方法、装置、设备及存储介质。
背景技术
伴随B2O及电商平台的迅速发展,网上购物已然成为日常生活不可或缺的一部分。根据阿里巴巴公布的最新数据2021财年(2020年4月1日-2021年3月31日),淘宝新增活跃商家数创下2017年以来5个财年的最高值。目前淘宝上年销售额超过100万元的商家,比2017年增长了50%。数据显示,2017年以来,淘宝活跃商家数总体呈持续增长态势。据了解,2020年3月之后的几个月,淘宝每天平均新开店铺达到4万家。随着电商产业的迅速崛起,从事电商人员增多,高校也设立了电子商务专业培养相应人才。实训平台的建立可为初入电商的人员提供实训机会,为其积累经验,防止因经验不足造成经济损失。商品描述的攥写能力可直接影响商品的销量,平台可通过智能化算法对商品描述进行测评。通过算法查验商品描述与商品标题的匹配度来检测商品描述的质量可节省大量人力。
商品描述是一种特殊的短文本,这是一类简单的说明文。商品描述中包含着商品的重要信息,这是顾客除商品标题及商品品类外更近一步获取商品信息的方式。另外,电商的火爆程度已经达到一个前所未有的状态每时每刻都会有海量新品出现在平台之上。通过高效准确的主题词的提取算法的提取结果可以在一定程度上结合字符串匹配或者相似度计算等算法对产品标题与产品描述是否相对应进行判断,防止因粗心导致产品与产品描述搭配混乱带来的不必要损失。
现有方法通常是采用LDA主题提取模型、TextRank关键词提取算法或是LSI模型对商品描述文档集中文本进行主题词提取,然而现有方法在对短文本主题词提取时的提取效果并不理想。
发明内容
基于此,本申请实施例提供了一种基于TF-IDF的主题词提取方法及装置,可以提高短文本主题词的识别提取准确率。
第一方面,提供了一种基于TF-IDF的主题词提取方法,该方法包括:
获取多个商品描述文本,所述多个商品描述文本中包括一个目标文本;
将所述多个商品描述文本进行分词处理,所述目标文本中包括目标分词;
针对于同一目标分词,根据所述目标分词在所述目标文本中出现的频率以及所述目标分词的逆向文本频率得到所述目标分词的第一权值;
根据所述目标分词的词性,得到所述目标分词的第二权值;
根据所述目标分词在所述目标文本中的位置,得到所述目标分词的第三权值;
根据所述目标分词在所述多个商品描述文本出现的次数,得到所述目标分词的第四权值;
根据所述第一权值、所述第二权值、所述第三权值以及所述第四权值确定所述目标分词的目标权值,并根据所述目标文本中所有目标分词的目标权值得到所述目标文本的主题词提取结果。
在其中一个实施例中,所述根据所述目标分词在所述目标文本中出现的频率以及所述目标分词的逆向文本频率得到所述目标分词的第一权值,包括:
根据第一公式确定所述目标分词在所述目标文本中出现的频率,所述第一公式包括:
所述目标分词的逆向文本频率得到所述目标分词的第一权值,包括:
根据第二公式确定所述目标分词的逆向文本频率,所述第二公式包括:
其中,IDF表示所述目标分词的逆向文本频率,D表示所述多个商品描述文本的文本总数,|{j:ti∈dj}|表示包含所述目标分词的商品描述文本数目。
在其中一个实施例中,根据所述目标分词在所述目标文本中出现的频率以及所述目标分词的逆向文本频率得到所述目标分词的第一权值,包括:
根据第三公式确定所述目标分词第一权值,所述第三公式包括:
Ti=TFi×IDFi
其中,Ti表示第i个目标分词的第一权值,TFi表示第i个目标分词在所述目标文本中出现的频率,IDFi表示第i个目标分词的逆向文本频率。
在其中一个实施例中,所述根据所述目标分词的词性,得到所述目标分词的第二权值,包括:
确定不同的词性权重,根据所述不同的词性权重得到所述目标分词的第二权值。
在其中一个实施例中,所述根据所述目标分词在所述目标文本中的位置,得到所述目标分词的第三权值,包括:
根据第四公式确定所述目标分词的第三权值,所述第四公式包括:
其中,Posi表示目标分词在句子中的位置,Address_leni表示目标分词所在句子的长度,Weight_Posi表示所述目标分词第三权值。
在其中一个实施例中,所述根据所述目标分词在所述多个商品描述文本出现的次数,得到所述目标分词的第四权值,包括:
根据第五公式确定所述目标分词的第四权值,所述第五公式包括:
其中,Num_Wi表示所述目标分词Wordi出现在所述多个商品描述文本出现的总次数,Num_Di表示所述目标分词在所述多个商品描述文本出现的文本数,Freq(Wordi)表示所述目标分词的第四权值。
在其中一个实施例中,所述根据所述第一权值、所述第二权值、所述第三权值以及所述第四权值确定所述目标分词的目标权值,包括:
根据第六公式确定所述目标分词的目标权值,所述第六公式包括:
其中,Ni表示目标分词i的目标权值,Ti表示第一权值,Pi表示第二权值。
第二方面,提供了一种基于TF-IDF的主题词提取装置,该装置包括:
获取模块,用于获取多个商品描述文本,所述多个商品描述文本中包括一个目标文本,
分词模块,用于将所述多个商品描述文本进行分词处理,所述目标文本中包括目标分词;
第一计算模块,用于根据所述目标分词在所述目标文本中出现的频率以及所述目标分词的逆向文本频率得到所述目标分词的第一权值;
第二计算模块,用于根据所述目标分词的词性,得到所述目标分词的第二权值;
第三计算模块,用于根据所述目标分词在所述目标文本中的位置,得到所述目标分词的第三权值;
第四计算模块,用于根据所述目标分词在所述多个商品描述文本出现的次数,得到所述目标分词的第四权值;
确定模块,用于根据所述第一权值、所述第二权值、所述第三权值以及所述第四权值确定所述目标分词的目标权值,并根据所述目标文本中所有目标分词的目标权值得到所述目标文本的主题词提取结果。
第三方面,提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述第一方面任一所述的基于TF-IDF的主题词提取方法。
第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述第一方面任一所述的基于TF-IDF的主题词提取方法。
本申请实施例提供的技术方案带来的有益效果至少包括:
本申请实施例提供的技术方案中,结合词语在文中的位置、词语的词性等因素对现有技术进行了改进,将词频、逆向文本频率、词性、位置因子及数据字典通过多元素回归分析的方法对词语重新计算权值。与未改进之前相比,改进后的方法针对商品描述类短文本主题词提取的准确率提升超过十个百分点,具备一定的实际应用价值。
附图说明
图1为本申请实施例提供的一种基于TF-IDF的主题词提取方法的流程示意图;
图2为本申请实施例提供的一种基于TF-IDF的主题词提取方法的提取过程流程图;
图3为本申请实施例提供的方法与现有算法的提取数对比图;
图4为本申请实施例提供的方法与现有算法的提取准确率对比图;
图5为本申请实施例提供的方法与现有算法的召回率对比图;
图6为本申请实施例提供的方法与现有算法的F1值对比图;
图7为本申请实施例提供的一种基于TF-IDF的主题词提取装置的框图;
图8为本申请实施例提供的一种基于TF-IDF的主题词提取设备的示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
商品描述是一种特殊的短文本,这是一类简单的说明文。商品描述中包含着商品的重要信息,这是顾客除商品标题及商品品类外更近一步获取商品信息的方式。另外,电商的火爆程度已经达到一个前所未有的状态每时每刻都会有海量新品出现在平台之上。通过高效准确的主题词的提取算法的提取结果可以在一定程度上结合字符串匹配或者相似度计算等算法对产品标题与产品描述是否相对应进行判断,防止因粗心导致产品与产品描述搭配混乱带来的不必要损失。
有鉴于此,本申请实施例提供了一种基于TF-IDF的主题词提取方法及装置,可以提高短文本主题词的识别提取准确率。
请参考图1,其示出了本申请实施例提供的一种基于TF-IDF的主题词提取方法的流程图,该基于TF-IDF的主题词提取方法可以包括以下步骤:
步骤101,获取多个商品描述文本,多个商品描述文本中包括一个目标文本。
商品描述是一种特殊的短文本,这是一类简单的说明文。商品描述中包含着商品的重要信息,这是顾客除商品标题及商品品类外更近一步获取商品信息的方式。
在本申请实施例中,多个商品描述文本可以是由某几个商品描述文本所组成的文本集,目标文本可以是待提取出短文本主题词的商品描述文本,且该文本处于某几个商品描述文本所组成的文本集中。
步骤102,将多个商品描述文本进行分词处理,目标文本中包括目标分词。
其中,目标文本属于待提取主体词的文本,存在于多个商品描述文本中,当对多个商品描述文本进行分词处理时,目标文本中所提取出的分词即为目标分词,目标分词表征该词语属于目标文本中,且具有目标文本主题词的可能性。
在本申请实施例中,对多个商品描述文本进行分词处理,例如通过Jieba进行分词,在本申请可选的实施例中,文本将被分割为单字、二字或者多字的词语集合,一些动词-名词、名词-名词、形容词-名词的短语组合将被拆分,短语的表达力或者存储的信息远远超过单个的词语。期望的算法提取对象是商品的名称以及商品的各种属性及属性值,而同一修饰性的词语如果出现的频率过高将会在一定程度上影响对期望对象的提取,间接的影响提取效果。本申请实施例在前述主题词提取中,找出与提取结果位置相近的动词、名词、形容词等修饰性词语,将修饰性词语与分词结果拼接,重新构成短语。
步骤103,针对于同一目标分词,根据目标分词在目标文本中出现的频率以及目标分词的逆向文本频率得到目标分词的第一权值。
针对于待提取出短文本主题词的商品描述文本中的某一分词,即目标分词,根据目标分词在目标文本中出现的频率以及目标分词的逆向文本频率得到目标分词的第一权值。
在本申请实施例中,可以通过TF-IDF算法得到目标分词的第一权值。
具体地,TF-IDF算法用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词对于一个文本的重要性会随着它在此文中的出现频率TF的增加而增加,也会随着它在文档集合的其他文档种的出现频率IDF的增加而减少。TF-IDF算法的基本思想就是找到现文中出现频率较高但在其他文档中出现频率低的词语。在TF-IDF看来,这样的词语具有较高的代表性,可以用这样的词语去代表这篇文章。所以,基于此思想来实现这个算法很简单,甚至不需要对模型进行训练,它仅仅只需要对文章进行分词,然后去计算各个词的TF值与IDF值,实现简单,对长文有较好的提取效果。
其中,TF表示商品描述文本中一个词的出现频率。作为衡量一个词的重要程度的权值,TF的取值极大程度上决定了一个词被选取为主题词的概率,在本申请实施例中根据第一公式确定目标分词在目标文本中出现的频率,第一公式包括:
IDF为逆向文本频率,可以由商品描述总条数的数目除以包含该词语的商品描述的数目,再将得到的商取对数得到。如果包含分词的文档越少,IDF越大,则说明该分词具有很好的类别区分能力。
在本申请实施例中根据第二公式确定目标分词的逆向文本频率,所述第二公式包括:
其中,IDF表示目标分词的逆向文本频率,D表示多个商品描述文本的文本总数,|{j:ti∈dj}|表示包含目标分词的商品描述文本数目,其中为防止被除数为0,因此使用|{j:ti∈dj}|+1。
所以根据第三公式确定目标分词第一权值,第三公式包括:
Ti=TFi×IDFi (3)
其中,Ti表示目标分词i的第一权值,TFi表示目标分词i在目标文本中出现的频率,IDFi表示目标分词i的逆向文本频率。由于不同商品的描述不同,即文本的长短不一。需要对公式进行归一化处理,处理后的公式为:
其中,N表示多个商品描述文本的文本总数中的分词个数,|{j:ti∈dj}|表示包含目标分词的商品描述文本数目,TFi表示目标分词i在目标文本中出现的频率,IDFi表示目标分词i的逆向文本频率。
步骤104,根据目标分词的词性,得到目标分词的第二权值。
在本申请实施例中,根据目标分词的词性,得到目标分词的第二权值,具体的,商品描述的字数一般在百字以内,因为是对商品的描述介绍,所以描述主要围绕商品和商品的各种属性展开,如:材质、颜色、成分等属性名称。此类词语为我们的主要提取对象,暂称为一类提取对象。通过分词结果来看,一类词中名词的占比近百分之百。其次是产品的属性值,如:各种颜色、各种材料等等,此类词语暂称为二类词。二类词中多为名词与形容词(此处将颜色等修饰性词统称为形容词)。第三种是表达产品用途和使用方法的词语,暂称为三类词。三类词中含有名词与动词。可人为设定这三种词性的词语进行权值的再赋值,进行测试的一万条样本进行分词后的结果可得:在过滤掉停用词后,名词在剩余总词数中的占比达到近百分之八十,为体现这三类词的优先级且防止词性影响大于词频影响,可将三类词的词性加成设为0.8、0.5、0.3,目标分词的第二权值的数学表达式可以为:
其中,tf-idfi可以是目标分词i的根据传统TF-IDF算法所得到的参数,(在可选的实施例中也可以是第一权值),flag=n指的是当目标分词i属于一类词,flag=a指的是当目标分词i属于二类词,flag=v指的是当目标分词i属于三类词。
步骤105,根据目标分词在目标文本中的位置,得到目标分词的第三权值。
商品描述属于简单的说明文,文本一般为总分结构,即:开头首先总体介绍商品,大多数文本将会在首句提及商品的名称等关键信息。从爬取的数据中随机抽取一千条进行观察,其中高达百分之九十七的商品描述格式为两部分:1、总体介绍商品,或者商品制造商,一般会包含品牌以及商品名称。2、分句对商品的各个属性进行介绍,通常一句话介绍一条商品属性。根据商品详情介绍这种简单且有规律的文本,可以对文中词语的位置信息进行记录,利用位置信息对词语的权值进行加成,其位置因素的计算公式如下:
其中,Posi表示目标分词在句子中的位置,Address_leni表示目标分词i所在句子的长度,Weight_Posi表示目标分词i第三权值。
步骤106,根据目标分词在多个商品描述文本出现的次数,得到目标分词的第四权值。
传统TF-IDF不善于短文本的主题词提取,主要是因为TF-IDF算法所能提取到的特征仅仅只有词语的频率,而短文本词语重复度低,词量少,传统TF-IDF算法难以最大程度发挥作用。对于商品详情类的文本我们需要知道的是,无论商品详情的的写法如何多变,它最重要的一点就是对商品的介绍。商品的种类很多,但只要是相同类别的商品,其属性名(如:材质、用料等等)必然相同,而描述性的词语或者其属性值可能不同。同类商品的描述越多,分词过后其属性值出现的概率越高。基于此,可以用足够多的样本建立数据字典,计算各个分词的出现频率,以此强化文本特征的提取,根据下文中公式(7)确定目标分词的第四权值,第四权值用于表征目标分词出现的频率,包括:
其中,Num_Wi表示目标分词出现在所述多个商品描述文本出现的总次数,Num_Di表示目标分词在所述多个商品描述文本出现的文本数,Freq(Wordi)表示目标分词的第四权值。使用该方法有效解决TF-IDF在短文本中因为词量少、词频差距小而无法有效抓取文本特征的弊端。
步骤107,根据第一权值、第二权值、第三权值以及第四权值确定目标分词的目标权值,并根据目标文本中目标分词的目标权值得到目标文本的主题词提取结果。
在本申请实施例中,根据下文公式(8)确定所述目标分词的目标权值,包括:
其中,Ni表示目标分词i的目标权值,Ti表示第一权值,Pi表示第二权值,Wi表示所述第三权值,Fi表示所述第四权值。
当得到目标分词的目标权值后,遍历目标文本的所有分词,最终得到目标文本中各个目标分词的权重,并进行降序排列,最终根据需要提取的主题词个数,提取出主题词。
下面结合上述步骤给出一种可选的基于TF-IDF的主题词提取方法的实际提取过程,其中,所需文本数据均利用爬虫技术爬取亚马逊网站获得。如图2所示:
爬取实验数据,对实验数据进行预处理,数据清洗,格式符号的清除,分词,词性标注,停用词过滤。
建立数据字典(即将多个商品描述文本进行分词后所得到的所有分词),计算各个词语出现的文本数n及各个词语在此次建立数据字典所用的文本中出现的总次数N,以N/n作为各个词语在数据字典中的频率值,将所得数据依次存入Excel中。
搜集词语在商品描述文本中的具体位置信息,通过Jieba分词获取词语的词性,获取词语的频率-逆文本频率值,导入数据字典Excel,获得词语在数据字典中的值(即第一权值)。
结合所获得的特征信息(即第二、三和四权值)带入权值计算公式,计算词语权值,并以权值降序排列。
对标题进行分词处理,过滤停用词,将处理后的剩余词语个数作为要提取的主题词个数,提取主题词。
本次实验设定将商品标题的分词结果过滤后作为比对参照,对实验提取结果进行判定。在2000条实验数据中,共得到标题分词8928个,本方法提取到的总词数为18711,实验选用准确率P、召回率R、F1-Measure(F1)作为评价指标;准确率P是人工标注的关键词与计算机提取关键词的交集和计算机提取关键词的比率,是用于评价查找准确程度的指标;召回率是用设定的关键词与算法提取的关键词的交集和标题分词处理后的词语集合的比率,是用于评价查找完全程度的指标;F1因子是两者的综合指标,F1值越高,表示算法越有效。
表1各算法的准确率、召回率、F1值
算法名称 | 准确率 | 召回率 | F1值 |
本方法 | 66.05% | 31.51% | 0.4256 |
TF-IDF | 55.81% | 26.63% | 0.3605 |
LDA | 43.54% | 20.77% | 0.2812 |
LSI | 58.59% | 27.95% | 0.3785 |
TextRank | 48.59% | 23.19% | 0.3140 |
表2各算法的提取数
各项数据的对比结果如图3、图4、图5、图6所示,即利用本方法(即TF-IDF改进后)、TF-IDF改进前、LDA、LSI、textRank分别进行提取数对比、提取准确率对比、召回率对比以及F1值对比得出的实验数据图。
通过实验结果可以得出结论:改进后的TF-IDF算法在正确率及召回率等方面已有明显提升,针对商品描述类文本的主题词提取,改进后的TF-IDF算法在准确率、召回率、F1值方面相较于原算法及同类其他算法而言均有提升,具备一定的实际应用价值。
请参考图7,其示出了本申请实施例提供的一种基于TF-IDF的主题词提取装置700的框图,该装置可以包括:获取模块701、分词模块702、第一计算模块703、第二计算模块704、第三计算模块705、第四计算模块706、确定模块707。
获取模块701,用于获取多个商品描述文本,多个商品描述文本中包括一个目标文本;
分词模块702,用于将多个商品描述文本进行分词处理,目标文本中包括目标分词;
第一计算模块703,用于根据目标分词在目标文本中出现的频率以及目标分词的逆向文本频率得到目标分词的第一权值;
第二计算模块704,用于根据目标分词的词性,得到目标分词的第二权值;
第三计算模块705,用于根据目标分词在目标文本中的位置,得到目标分词的第三权值;
第四计算模块706,用于根据目标分词在多个商品描述文本出现的次数,得到目标分词的第四权值;
确定模块707,用于根据第一权值、第二权值、第三权值以及第四权值确定目标分词的目标权值,根据目标权值得到目标文本的主题词提取结果。
关于基于TF-IDF的主题词提取装置的具体限定可以参见上文中对于基于TF-IDF的主题词提取方法的限定,在此不再赘述。上述基于TF-IDF的主题词提取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种设备,该设备可以是计算机设备,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、显示屏和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储基于TF-IDF的主题词提取数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信,显示屏用于显示所提取出的主题词。该计算机程序被处理器执行时以实现一种基于TF-IDF的主题词提取方法。
本领域技术人员可以理解,如图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在本申请的一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述步骤。本实施例提供的计算机可读存储介质,其实现原理和技术效果与上述方法实施例类似,在此不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以M种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(SyMchliMk)DRAM(SLDRAM)、存储器总线(RaMbus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (4)
1.一种基于TF-IDF的主题词提取方法,其特征在于,所述方法包括:
获取多个商品描述文本,所述多个商品描述文本中包括一个目标文本;
将所述多个商品描述文本进行分词处理,所述目标文本包括目标分词;
针对于同一目标分词,根据所述目标分词在所述目标文本中出现的频率以及所述目标分词的逆向文本频率得到所述目标分词的第一权值;
根据所述目标分词的词性,得到所述目标分词的第二权值;
根据所述目标分词在所述目标文本中的位置,得到所述目标分词的第三权值;
根据所述目标分词在所述多个商品描述文本出现的次数,得到所述目标分词的第四权值;
根据所述第一权值、所述第二权值、所述第三权值以及所述第四权值确定所述目标分词的目标权值,并根据所述目标文本中所有目标分词的目标权值得到所述目标文本的主题词提取结果;
所述根据所述目标分词在所述目标文本中出现的频率以及所述目标分词的逆向文本频率得到所述目标分词的第一权值,包括:
根据第一公式确定所述目标分词在所述目标文本中出现的频率,所述第一公式包括:
其中,TF表示所述目标分词在所述目标文本中出现的频率,ni,j表示所述目标分词在所述目标文本中出现的次数,∑nk,j表示所述目标文本中的分词总数;
根据第二公式确定所述目标分词的逆向文本频率,所述第二公式包括:
其中,IDF表示所述目标分词的逆向文本频率,D表示所述多个商品描述文本的文本总数,|{j:ti∈dj}|表示包含所述目标分词的商品描述文本数目;
根据所述目标分词在所述目标文本中出现的频率以及所述目标分词的逆向文本频率得到所述目标分词的第一权值,包括:
根据第三公式确定所述目标分词第一权值,所述第三公式包括:
Ti=TFi×IDFi
其中,Ti表示第i个目标分词的第一权值,TFi表示第i个目标分词在所述目标文本中出现的频率,IDFi表示第i个目标分词的逆向文本频率;
所述根据所述目标分词的词性,得到所述目标分词的第二权值,包括:
确定不同的词性权重,根据所述不同的词性权重得到所述目标分词的第二权值;
所述根据所述目标分词在所述目标文本中的位置,得到所述目标分词的第三权值,包括:
根据第四公式确定所述目标分词的第三权值,所述第四公式包括:
其中,Posi表示目标分词在句子中的位置,Address_leni表示目标分词所在句子的长度,Weight_Posi表示所述目标分词第三权值;
所述根据所述目标分词在所述多个商品描述文本出现的次数,得到所述目标分词的第四权值,包括:
根据第五公式确定所述目标分词的第四权值,所述第五公式包括:
其中,Num_Wi表示所述目标分词Wordi出现在所述多个商品描述文本出现的总次数,Num_Di表示所述目标分词在所述多个商品描述文本出现的文本数,Freq(Wordi)表示所述目标分词的第四权值;
所述根据所述第一权值、所述第二权值、所述第三权值以及所述第四权值确定所述目标分词的目标权值,包括:
根据第六公式确定所述目标分词的目标权值,所述第六公式包括:
其中,Ni表示目标分词i的目标权值,Ti表示第一权值,Pi表示第二权值,Wi表示所述第三权值,Fi表示所述第四权值。
2.一种基于TF-IDF的主题词提取装置,其特征在于,所述装置包括:
获取模块,用于获取多个商品描述文本,所述多个商品描述文本中包括一个目标文本;
分词模块,用于将所述多个商品描述文本进行分词处理,所述目标文本中包括目标分词;
第一计算模块,用于根据所述目标分词在所述目标文本中出现的频率以及所述目标分词的逆向文本频率得到所述目标分词的第一权值;
第二计算模块,用于根据所述目标分词的词性,得到所述目标分词的第二权值;
第三计算模块,用于根据所述目标分词在所述目标文本中的位置,得到所述目标分词的第三权值;
第四计算模块,用于根据所述目标分词在所述多个商品描述文本出现的次数,得到所述目标分词的第四权值;
确定模块,用于根据所述第一权值、所述第二权值、所述第三权值以及所述第四权值确定所述目标分词的目标权值,并根据所述目标文本中所有目标分词的目标权值得到所述目标文本的主题词提取结果;
所述根据所述目标分词在所述目标文本中出现的频率以及所述目标分词的逆向文本频率得到所述目标分词的第一权值,包括:
根据第一公式确定所述目标分词在所述目标文本中出现的频率,所述第一公式包括:
其中,TF表示所述目标分词在所述目标文本中出现的频率,ni,j表示所述目标分词在所述目标文本中出现的次数,∑nk,j表示所述目标文本中的分词总数;
根据第二公式确定所述目标分词的逆向文本频率,所述第二公式包括:
其中,IDF表示所述目标分词的逆向文本频率,D表示所述多个商品描述文本的文本总数,|{j:ti∈dj}|表示包含所述目标分词的商品描述文本数目;
根据所述目标分词在所述目标文本中出现的频率以及所述目标分词的逆向文本频率得到所述目标分词的第一权值,包括:
根据第三公式确定所述目标分词第一权值,所述第三公式包括:
Ti=TFi×IDFi
其中,Ti表示第i个目标分词的第一权值,TFi表示第i个目标分词在所述目标文本中出现的频率,IDFi表示第i个目标分词的逆向文本频率;
所述根据所述目标分词的词性,得到所述目标分词的第二权值,包括:
确定不同的词性权重,根据所述不同的词性权重得到所述目标分词的第二权值;
所述根据所述目标分词在所述目标文本中的位置,得到所述目标分词的第三权值,包括:
根据第四公式确定所述目标分词的第三权值,所述第四公式包括:
其中,Posi表示目标分词在句子中的位置,Address_leni表示目标分词所在句子的长度,Weight_Posi表示所述目标分词第三权值;
所述根据所述目标分词在所述多个商品描述文本出现的次数,得到所述目标分词的第四权值,包括:
根据第五公式确定所述目标分词的第四权值,所述第五公式包括:
其中,Num_Wi表示所述目标分词Wordi出现在所述多个商品描述文本出现的总次数,Num_Di表示所述目标分词在所述多个商品描述文本出现的文本数,Freq(Wordi)表示所述目标分词的第四权值;
所述根据所述第一权值、所述第二权值、所述第三权值以及所述第四权值确定所述目标分词的目标权值,包括:
根据第六公式确定所述目标分词的目标权值,所述第六公式包括:
其中,Ni表示目标分词i的目标权值,Ti表示第一权值,Pi表示第二权值,Wi表示所述第三权值,Fi表示所述第四权值。
3.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1所述的基于TF-IDF的主题词提取方法。
4.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1所述的基于TF-IDF的主题词提取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110707228.4A CN113392637B (zh) | 2021-06-24 | 2021-06-24 | 基于tf-idf的主题词提取方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110707228.4A CN113392637B (zh) | 2021-06-24 | 2021-06-24 | 基于tf-idf的主题词提取方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113392637A CN113392637A (zh) | 2021-09-14 |
CN113392637B true CN113392637B (zh) | 2023-02-07 |
Family
ID=77623843
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110707228.4A Active CN113392637B (zh) | 2021-06-24 | 2021-06-24 | 基于tf-idf的主题词提取方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113392637B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114331766B (zh) * | 2022-01-05 | 2022-07-08 | 中国科学技术信息研究所 | 专利技术核心度的确定方法、装置、电子设备及存储介质 |
CN114154501B (zh) * | 2022-02-09 | 2022-04-26 | 南京擎天科技有限公司 | 一种基于无监督学习的中文地址分词方法及系统 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101315624A (zh) * | 2007-05-29 | 2008-12-03 | 阿里巴巴集团控股有限公司 | 一种文本主题推荐的方法和装置 |
CN103164471A (zh) * | 2011-12-15 | 2013-06-19 | 盛乐信息技术(上海)有限公司 | 视频文本标签的推荐方法及系统 |
CN107085581A (zh) * | 2016-02-16 | 2017-08-22 | 腾讯科技(深圳)有限公司 | 短文本分类方法和装置 |
CN108170666A (zh) * | 2017-11-29 | 2018-06-15 | 同济大学 | 一种基于tf-idf关键词提取的改进方法 |
CN108334533A (zh) * | 2017-10-20 | 2018-07-27 | 腾讯科技(深圳)有限公司 | 关键词提取方法和装置、存储介质及电子装置 |
CN108595425A (zh) * | 2018-04-20 | 2018-09-28 | 昆明理工大学 | 基于主题与语义的对话语料关键词抽取方法 |
WO2019218527A1 (zh) * | 2018-05-14 | 2019-11-21 | 平安科技(深圳)有限公司 | 多系统相结合的自然语言处理方法及装置 |
CN110826337A (zh) * | 2019-10-08 | 2020-02-21 | 西安建筑科技大学 | 一种短文本语义训练模型获取方法及相似度匹配算法 |
CN111046169A (zh) * | 2019-12-24 | 2020-04-21 | 东软集团股份有限公司 | 一种主题词的提取方法、装置、设备及存储介质 |
WO2021072850A1 (zh) * | 2019-10-15 | 2021-04-22 | 平安科技(深圳)有限公司 | 特征词提取方法、文本相似度计算方法、装置和设备 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105243121B (zh) * | 2015-09-29 | 2018-08-21 | 中国运载火箭技术研究院 | 一种基于数据挖掘的文本数据网络构建系统 |
CN106598940A (zh) * | 2016-11-01 | 2017-04-26 | 四川用联信息技术有限公司 | 基于全局优化关键词质量的文本相似度求解算法 |
CN110750708A (zh) * | 2018-07-23 | 2020-02-04 | 北京字节跳动网络技术有限公司 | 关键词推荐方法、装置和电子设备 |
CN110414004B (zh) * | 2019-07-31 | 2022-11-18 | 创新先进技术有限公司 | 一种核心信息提取的方法和系统 |
-
2021
- 2021-06-24 CN CN202110707228.4A patent/CN113392637B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101315624A (zh) * | 2007-05-29 | 2008-12-03 | 阿里巴巴集团控股有限公司 | 一种文本主题推荐的方法和装置 |
CN103164471A (zh) * | 2011-12-15 | 2013-06-19 | 盛乐信息技术(上海)有限公司 | 视频文本标签的推荐方法及系统 |
CN107085581A (zh) * | 2016-02-16 | 2017-08-22 | 腾讯科技(深圳)有限公司 | 短文本分类方法和装置 |
CN108334533A (zh) * | 2017-10-20 | 2018-07-27 | 腾讯科技(深圳)有限公司 | 关键词提取方法和装置、存储介质及电子装置 |
CN108170666A (zh) * | 2017-11-29 | 2018-06-15 | 同济大学 | 一种基于tf-idf关键词提取的改进方法 |
CN108595425A (zh) * | 2018-04-20 | 2018-09-28 | 昆明理工大学 | 基于主题与语义的对话语料关键词抽取方法 |
WO2019218527A1 (zh) * | 2018-05-14 | 2019-11-21 | 平安科技(深圳)有限公司 | 多系统相结合的自然语言处理方法及装置 |
CN110826337A (zh) * | 2019-10-08 | 2020-02-21 | 西安建筑科技大学 | 一种短文本语义训练模型获取方法及相似度匹配算法 |
WO2021072850A1 (zh) * | 2019-10-15 | 2021-04-22 | 平安科技(深圳)有限公司 | 特征词提取方法、文本相似度计算方法、装置和设备 |
CN111046169A (zh) * | 2019-12-24 | 2020-04-21 | 东软集团股份有限公司 | 一种主题词的提取方法、装置、设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
基于字同现频率的关键词自动抽取;都云程等;《北京信息科技大学学报》;20111226;全文 * |
融合多因素的TFIDF关键词提取算法研究;牛永洁,田成龙;《计算机技术与发展》;20190321;第0-4小节 * |
Also Published As
Publication number | Publication date |
---|---|
CN113392637A (zh) | 2021-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109101477B (zh) | 一种企业领域分类及企业关键词筛选方法 | |
CN108388660B (zh) | 一种改进的电商产品痛点分析方法 | |
CN113392637B (zh) | 基于tf-idf的主题词提取方法、装置、设备及存储介质 | |
CN107315738A (zh) | 一种文本信息的创新度评估方法 | |
CN112015721A (zh) | 一种基于大数据的电商平台存储数据库的优化方法 | |
CN110287409B (zh) | 一种网页类型识别方法及装置 | |
CN106815207A (zh) | 用于法律裁判文书的信息处理方法及装置 | |
CN104850617A (zh) | 短文本处理方法及装置 | |
Suryono et al. | P2P Lending sentiment analysis in Indonesian online news | |
CN106372640A (zh) | 一种字频文本分类方法 | |
CN110287493B (zh) | 风险短语识别方法、装置、电子设备及存储介质 | |
Jariwala | Optimal feature extraction based machine learning approach for sarcasm type detection in news headlines | |
Jaman et al. | Sentiment analysis of customers on utilizing online motorcycle taxi service at twitter with the support vector machine | |
CN111598454A (zh) | 一种生鲜冷链物流在线评论情感分析方法 | |
CN111241271B (zh) | 文本情感分类方法、装置及电子设备 | |
CN112395881B (zh) | 物料标签的构建方法、装置、可读存储介质及电子设备 | |
CN111598691B (zh) | 信用债发债主体违约风险评估方法、系统及装置 | |
CN112016294A (zh) | 一种基于文本的新闻重要性评估方法、装置及电子设备 | |
CN112434163A (zh) | 风险识别方法及模型构建方法、装置、电子设备和介质 | |
CN109344397B (zh) | 文本特征词语的提取方法及装置、存储介质及程序产品 | |
Saputri et al. | Sentiment analysis on shopee e-commerce using the naïve bayes classifier algorithm | |
CN112069388B (zh) | 实体推荐方法、系统、计算机设备和计算机可读存储介质 | |
CN114580398A (zh) | 文本信息提取模型生成方法、文本信息提取方法和装置 | |
US20180005300A1 (en) | Information presentation device, information presentation method, and computer program product | |
Özyirmidokuz | Mining unstructured Turkish economy news articles |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |