CN110134799A - 一种基于bm25算法的文本语料库的搭建和优化方法 - Google Patents

一种基于bm25算法的文本语料库的搭建和优化方法 Download PDF

Info

Publication number
CN110134799A
CN110134799A CN201910459141.2A CN201910459141A CN110134799A CN 110134799 A CN110134799 A CN 110134799A CN 201910459141 A CN201910459141 A CN 201910459141A CN 110134799 A CN110134799 A CN 110134799A
Authority
CN
China
Prior art keywords
corpus
text
data
algorithm
morpheme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910459141.2A
Other languages
English (en)
Other versions
CN110134799B (zh
Inventor
蒲文龙
彭媛媛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Changhong Electric Co Ltd
Original Assignee
Sichuan Changhong Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Changhong Electric Co Ltd filed Critical Sichuan Changhong Electric Co Ltd
Priority to CN201910459141.2A priority Critical patent/CN110134799B/zh
Publication of CN110134799A publication Critical patent/CN110134799A/zh
Application granted granted Critical
Publication of CN110134799B publication Critical patent/CN110134799B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于BM25算法的文本语料库的搭建和优化方法,包括步骤1:由人工进行建立训练语料库,语料库组成来源可以是自写语料或数据库现有资源处理提取;步骤2:获取一定时间内电商评论数据,进行数据预处理,整理出语料库基础文本;步骤3:使用BM25算法计算评论语料库基础文本内容与语料库相似度,步骤4:根据i分组相似数据与不关联或低关联数据,对不关联或低关联部分数据做频率统计用以观察数据为业务作支持、新增或删减已有语料;对相似数据使用均值聚类将不存在的语料增加到语料库,完成语料库的优化。

Description

一种基于BM25算法的文本语料库的搭建和优化方法
技术领域
本发明涉及计大数据技术领域,具体的说,是一种基于BM25算法的文本语料库的搭建和优化方法。
背景技术
互联网技术的发展带来传统消费的改变,消费者乐于在各种电商平台购买产品,网络言论自由使得消费者更乐于发表意见,由此产生了大量的文本数据,这类数据大致包括传播评价类和意见建议信息。目前有关文本表示的研究主要集中于文本表示模型的选择和特征词选择算法的选取上。在对文本处理文本挖掘带有明显的机器学习色彩,依赖于数据信息抽取、分类、聚类等基础算法和技术。这些内容在数据挖掘领域已大有建树,甚至已发展出不同的算法流派。由于电商评论数据本身具有海量、交叉缠绕、变密度和高维的特点,现阶段文本处理受到分词词典词条有限的影响,分词结果并不理想,加之数据量大无法检验分词的有效性,只能抽样检测,而文本聚类因文本数据维度多对使得技术本身聚类算法得到的维度也有限,无法得到足够的类,这是现阶段文本处理不可避免的问题。
在算法的选取上,多采用相似度评估判断文本处理前后的相关性,本发明涉及的BM25算法便是其中一种,BM25算法是一种用来评价搜索词和文档之间相关性的算法,是检索领域里最基本的一个技术,由词在文档中相关度、词在查询关键字中的相关度以及词的权重三个核心概念组成。根据算法公式知总文档数N和文档长度dl/avgdl直接影响相关性结果分数的高低,足量的包含该词的文档N和合理的文档长度是现阶段文本处理的一个关键影响因素。现阶段算法使用总文档是有现成的文档库的,数量可选,加上算法本身无法对所使用的文档中文档长度dl进行预估判断。导致计算出来的相关性分数是大概率不具备代表性的,因为改动文档数和文档长度都会对结果产生直接影响,故无法准确判断分词效果。因此,现有技术下针对电商评论文本处理和聚类过程中都存在不可逾越的瓶颈。
发明内容
本发明的目的在于提供一种基于BM25算法的文本语料库的搭建和优化方法,用于解决现有技术中针对电商评论文本处理和类聚过程导致的计算结果不具代表性,判断不够准确的问题。
本发明通过下述技术方案解决上述问题:
一种基于BM25算法的文本语料库的搭建和优化方法,所述方法包括如下步骤:
步骤1:由人工进行建立训练语料库,语料库组成来源可以是自写语料或数据库现有资源处理提取;
步骤2:获取一定时间内电商评论数据,进行数据预处理,整理出语料库基础文本;
步骤3:使用BM25算法计算评论语料库基础文本内容与语料库相似度,采用的算法公式为:
其中,Q表示Query,为断句前的文本;qi表示Q解析之后的一个语素,为断句后的文本;d表示一个搜索结果文档,dl为文档d的长度,avgdl为所有文档的平均长度;k1,b为调节因子,k1=2,b=0.75;fi为qi在d中的出现频率;
步骤4:根据i分组相似数据与不关联或低关联数据,对相似数据做频率统计用以观察数据为业务作支持、新增或删减已有语料;对不关联或低关联部分数据使用均值聚类将不存在的语料增加到语料库,完成语料库的优化。
本方法,结合BM25算法,获取相关系数值i,通过先建立有产品及其他维度标识的文本语料库,与处理后的文本数据进行匹配分析,基于相关系数计算得到与语料库关联高和关联低的两部分数据,对相似数据做频率统计用以观察数据为业务作支持、新增或删减已有语料;对不关联或低关联部分数据使用均值聚类将不存在的语料增加到语料库,完成语料库的优化,很好的解决了现有技术中针对电商评论文本处理和类聚过程导致的计算结果不具代表性,判断不够准确的问题。
进一步地,所述步骤3中算法公式由下述公式变换所得:
其中,Q表示Query,为断句前的文本;qi表示Q解析之后的一个语素,为断句后的文本;d表示一个搜索结果文档;Wi表示语素qi的权重;R(qi,d)表示语素qi与文档d的相关性得分。
进一步地,所述公式中R(qi,d)的计算方式如下:
其中,k1,k2,b为调节因子,k1=2,b=0.75;fi为qi在d中的出现频率,qfi为qi在Query中的出现频率;dl为文档d的长度,avgdl为所有文档的平均长度;qfi=1,因此公式可以简化为:
进一步地,所述公式中Wi表示语素qi的权重,其计算公式如下:
其中,N为索引中的全部文档数,n(qi)为包含了qi的文档数;当n(qi)超过一半的时,分子上的-n(qi)项不需要。
进一步地,当断句前的文本Q为中文时,把对Query的分词作为语素分析,每个词看成语素qi
本发明与现有技术相比,具有以下优点及有益效果:
(1)本发明结合BM25算法,获取相关系数值i,通过先建立有产品及其他维度标识的文本语料库,与处理后的文本数据进行匹配分析,基于相关系数计算得到与语料库关联高和关联低的两部分数据。对关联高的部分可选择性添加代表性语料外,还可直接应用于数据分析和支持活动,如可判断评论数据中用户最关注的是哪些维度内容,为后期产品优化和做针对性运营计划提供决策支撑。对关联度低的部分可用于丰富语料和挖掘新的用户关注点。实现了文本数据的有效分析利用并可对业务活动进行支撑,提供了文本数据分类后与业务结合分析的参考。
附图说明
图1为本发明语料库的搭建和优化的方法流程示意图;
图2为本发明的语料库结构示意图。
具体实施方式
下面结合实施例对本发明作进一步地详细说明,但本发明的实施方式不限于此。
实施例1:
结合附图1所示,一种基于BM25算法的文本语料库的搭建和优化方法,包括如下步骤:
第一步,由人工进行建立训练语料库x1,语料库组成来源可以是自写语料、数据库现有数据库文本资源处理提取等。语料库包含传播评价类T、意见建议信息S两方面,分别记为tag.t='传播评价类'、tag.s='意见建议类',其中传播评价类主要围绕产品及体验的评价信息进行预料标记,意见建议类主要围绕产品的各个角度的意见建议,如产品外观、质量等以及其他方面如价格、渠道、促销、售前、售后等各方面的建议,针对每个小类按维度进行类别标记,语料的要求是语句尽量是短文本、每类语料维度足够多、不同维度语料含义不交叉,语料内容形式及标记方式如图1示;
第二步,获取一定时间内电商评论数据,进行数据常规预处理,处理脏数据,无效数据等等,使用正则表达式根据标点符号对评论数据断句,常用标点为逗号、空格、叹号、句号、制表符、分号等。由此整理出语料库基础文本P1,含主键、文本内容共2列;
第三步,对语料库x1设定相似度阈值,本发明中设置默认阈值i=0.6(若输出相似度i>=0.6的数量低于总记录数*20%,则根据实际情况降低阈值),设基础文档总记录数为n,相似度i>=0.6的数量为s,即若s<0.2n,进行降低阈值操作;
第四步,使用技术方案中设计的BM25算法的相关性得分公式:
计算基础文本P1中各文本与语料库文档x1中各语料的相似度得分i;
第五步,根据相关新匹配得到P1主键、P1文本内容、P1各文本内容与语料库文档x1关联的语料问呗内容、语料标记(如∈意见建议类产品维度即tag.t.s1)、关联度系数i共4列数据,存于成数据表r;
第六步,基于语料库中相似度设定的阈值,将数据表r中关联度系数i<0.6和i>=0.6的记录分词两个部分r1和r2;
第七步,对r1部分,根据语料标记的tag分组统计评论数据在每种维度中出现的频数进行由高到低的排序,进行数据统计,选择性的添加已有维度中有代表性的文本评论数据或删除已有维度的训练语句;
第八步,对于r2部分,使用K-means及TF-IDF算法对文本聚类,基于R语言选择最优k个簇,得到r2部分聚类结果。根据聚类关键词将现语料库x1中不存在的维度加入到语料库x1中,并添加对应的语料语句,经过第七步和第八步形成新的语料库x2作为下一次使用的语料库。
尽管这里参照本发明的解释性实施例对本发明进行了描述,上述实施例仅为本发明较佳的实施方式,本发明的实施方式并不受上述实施例的限制,应该理解,本领域技术人员可以设计出很多其他的修改和实施方式,这些修改和实施方式将落在本申请公开的原则范围和精神之内。

Claims (5)

1.一种基于BM25算法的文本语料库的搭建和优化方法,其特征在于,所述方法包括如下步骤:
步骤1:由人工进行建立训练语料库,语料库组成来源可以是自写语料或数据库现有资源处理提取;
步骤2:获取一定时间内电商评论数据,进行数据预处理,整理出语料库基础文本;
步骤3:使用BM25算法计算评论语料库基础文本内容与语料库相似度,采用的算法公式为:
其中,Q表示Query,为断句前的文本;qi表示Q解析之后的一个语素,为断句后的文本;d表示一个搜索结果文档,dl为文档d的长度,avgdl为所有文档的平均长度;k1,b为调节因子,k1=2,b=0.75;fi为qi在d中的出现频率;
步骤4:根据i分组相似数据与不关联或低关联数据,对不关联或低关联部分数据做频率统计用以观察数据为业务作支持、新增或删减已有语料;对相似数据使用均值聚类将不存在的语料增加到语料库,完成语料库的优化。
2.根据权利要求1所述的基于BM25算法的文本语料库的搭建和优化方法,其特征在于,所述步骤3中算法公式由下述公式变换所得:
其中,Q表示Query,为断句前的文本;qi表示Q解析之后的一个语素,为断句后的文本;d表示一个搜索结果文档;Wi表示语素qi的权重;R(qi,d)表示语素qi与文档d的相关性得分。
3.根据权利要求2所述的基于BM25算法的文本语料库的搭建和优化方法,其特征在于,所述公式中R(qi,d)的计算方式如下:
其中,k1,k2,b为调节因子,k1=2,b=0.75;fi为qi在d中的出现频率,qfi为qi在Query中的出现频率;dl为文档d的长度,avgdl为所有文档的平均长度;qfi=1,因此公式可以简化为:
4.根据权利要求2所述的基于BM25算法的文本语料库的搭建和优化方法,其特征在于,所述公式中Wi表示语素qi的权重,其计算公式如下:
其中,N为索引中的全部文档数,n(qi)为包含了qi的文档数;当n(qi)超过一半的时,分子上的-n(qi)项不需要。
5.根据权利要求1所述的基于BM25算法的文本语料库的搭建和优化方法,其特征在于,当断句前的文本Q为中文时,把对Query的分词作为语素分析,每个词看成语素qi
CN201910459141.2A 2019-05-29 2019-05-29 一种基于bm25算法的文本语料库的搭建和优化方法 Active CN110134799B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910459141.2A CN110134799B (zh) 2019-05-29 2019-05-29 一种基于bm25算法的文本语料库的搭建和优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910459141.2A CN110134799B (zh) 2019-05-29 2019-05-29 一种基于bm25算法的文本语料库的搭建和优化方法

Publications (2)

Publication Number Publication Date
CN110134799A true CN110134799A (zh) 2019-08-16
CN110134799B CN110134799B (zh) 2022-03-01

Family

ID=67582916

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910459141.2A Active CN110134799B (zh) 2019-05-29 2019-05-29 一种基于bm25算法的文本语料库的搭建和优化方法

Country Status (1)

Country Link
CN (1) CN110134799B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110942765A (zh) * 2019-11-11 2020-03-31 珠海格力电器股份有限公司 一种构建语料库的方法、设备、服务器和存储介质
CN111414746A (zh) * 2020-04-10 2020-07-14 中国建设银行股份有限公司 一种匹配语句确定方法、装置、设备及存储介质
WO2021139317A1 (zh) * 2020-08-05 2021-07-15 平安科技(深圳)有限公司 语料数据的数据特征增强方法、装置、计算机设备及存储介质
CN113282712A (zh) * 2021-06-08 2021-08-20 平安国际智慧城市科技股份有限公司 一种文本筛选方法、装置、介质及设备
CN113486156A (zh) * 2021-07-30 2021-10-08 北京鼎普科技股份有限公司 一种基于es的关联文档检索方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060253274A1 (en) * 2005-05-05 2006-11-09 Bbn Technologies Corp. Methods and systems relating to information extraction
CN104035968A (zh) * 2014-05-20 2014-09-10 微梦创科网络科技(中国)有限公司 基于社交网络的训练语料集的构建方法和装置
CN104516903A (zh) * 2013-09-29 2015-04-15 北大方正集团有限公司 关键词扩展方法及系统、及分类语料标注方法及系统
US20150193682A1 (en) * 2014-01-06 2015-07-09 International Business Machines Corporation System and method for an expert question answer system from a dynamic corpus
CN107544962A (zh) * 2017-09-07 2018-01-05 电子科技大学 基于相似文本反馈的社交媒体文本查询扩展方法
CN108153895A (zh) * 2018-01-06 2018-06-12 国网福建省电力有限公司 一种基于开放数据的语料库构建方法和系统
CN108268470A (zh) * 2016-12-30 2018-07-10 广东精点数据科技股份有限公司 一种基于演化聚类的评论文本分类提取方法
CN108733766A (zh) * 2018-04-17 2018-11-02 腾讯科技(深圳)有限公司 一种数据查询方法、装置和可读介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060253274A1 (en) * 2005-05-05 2006-11-09 Bbn Technologies Corp. Methods and systems relating to information extraction
CN104516903A (zh) * 2013-09-29 2015-04-15 北大方正集团有限公司 关键词扩展方法及系统、及分类语料标注方法及系统
US20150193682A1 (en) * 2014-01-06 2015-07-09 International Business Machines Corporation System and method for an expert question answer system from a dynamic corpus
CN104035968A (zh) * 2014-05-20 2014-09-10 微梦创科网络科技(中国)有限公司 基于社交网络的训练语料集的构建方法和装置
CN108268470A (zh) * 2016-12-30 2018-07-10 广东精点数据科技股份有限公司 一种基于演化聚类的评论文本分类提取方法
CN107544962A (zh) * 2017-09-07 2018-01-05 电子科技大学 基于相似文本反馈的社交媒体文本查询扩展方法
CN108153895A (zh) * 2018-01-06 2018-06-12 国网福建省电力有限公司 一种基于开放数据的语料库构建方法和系统
CN108733766A (zh) * 2018-04-17 2018-11-02 腾讯科技(深圳)有限公司 一种数据查询方法、装置和可读介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
M. GIROLAMI 等: "The organisation and visualisation of document corpora: a probabilistic approach", 《PROCEEDINGS 11TH INTERNATIONAL WORKSHOP ON DATABASE AND EXPERT SYSTEMS APPLICATIONS》 *
刘亚玉: "限定性文本的语料库自动构建", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
张文文: "基于聚类的统计机器翻译领域自适应研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110942765A (zh) * 2019-11-11 2020-03-31 珠海格力电器股份有限公司 一种构建语料库的方法、设备、服务器和存储介质
CN111414746A (zh) * 2020-04-10 2020-07-14 中国建设银行股份有限公司 一种匹配语句确定方法、装置、设备及存储介质
CN111414746B (zh) * 2020-04-10 2023-11-07 建信金融科技有限责任公司 一种匹配语句确定方法、装置、设备及存储介质
WO2021139317A1 (zh) * 2020-08-05 2021-07-15 平安科技(深圳)有限公司 语料数据的数据特征增强方法、装置、计算机设备及存储介质
CN113282712A (zh) * 2021-06-08 2021-08-20 平安国际智慧城市科技股份有限公司 一种文本筛选方法、装置、介质及设备
CN113486156A (zh) * 2021-07-30 2021-10-08 北京鼎普科技股份有限公司 一种基于es的关联文档检索方法

Also Published As

Publication number Publication date
CN110134799B (zh) 2022-03-01

Similar Documents

Publication Publication Date Title
CN110134799A (zh) 一种基于bm25算法的文本语料库的搭建和优化方法
CN103678576B (zh) 基于动态语义分析的全文检索系统
US7599926B2 (en) Reputation information processing program, method, and apparatus
CN108255813B (zh) 一种基于词频-逆文档与crf的文本匹配方法
CN109299865B (zh) 基于语义分析的心理测评系统及方法、信息数据处理终端
CN105550269A (zh) 一种有监督学习的产品评论分析方法及系统
CN108388660B (zh) 一种改进的电商产品痛点分析方法
CN101667194A (zh) 基于用户评论文本特征的自动摘要方法及其自动摘要系统
CN106933800A (zh) 一种金融领域的事件句抽取方法
CN105630768A (zh) 一种基于层叠条件随机场的产品名识别方法及装置
CN106599054A (zh) 一种题目分类及推送的方法及系统
CN108073571B (zh) 一种多语言文本质量评估方法及系统、智能文本处理系统
CN111159342A (zh) 一种基于机器学习的公园文本评论情绪打分方法
CN101645083A (zh) 一种基于概念符号的文本领域的获取系统及方法
CN113312474A (zh) 一种基于深度学习的法律文书的相似案件智能检索系统
CN113360647B (zh) 一种基于聚类的5g移动业务投诉溯源分析方法
CN110134934A (zh) 文本情感分析方法和装置
CN116775874B (zh) 一种基于多重语义信息的资讯智能分类方法及系统
Liu et al. Opinion mining based on feature-level
CN107818173B (zh) 一种基于向量空间模型的中文虚假评论过滤方法
CN109298796B (zh) 一种词联想方法及装置
CN113641788B (zh) 一种基于无监督的长短影评细粒度观点挖掘方法
CN115564534A (zh) 文案处理方法、装置、电子设备、存储介质及程序产品
Munnes et al. Examining sentiment in complex texts. A comparison of different computational approaches
CN110069703B (zh) 一种基于特征增强的微博话题检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant