CN112015884A - 一种用户走访数据关键词提取方法、装置及存储介质 - Google Patents
一种用户走访数据关键词提取方法、装置及存储介质 Download PDFInfo
- Publication number
- CN112015884A CN112015884A CN202010885847.8A CN202010885847A CN112015884A CN 112015884 A CN112015884 A CN 112015884A CN 202010885847 A CN202010885847 A CN 202010885847A CN 112015884 A CN112015884 A CN 112015884A
- Authority
- CN
- China
- Prior art keywords
- keyword
- keywords
- text
- analyzed
- matching
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000000605 extraction Methods 0.000 claims abstract description 10
- 229910000831 Steel Inorganic materials 0.000 claims description 13
- 239000010959 steel Substances 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 6
- 238000012163 sequencing technique Methods 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- General Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Game Theory and Decision Science (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种用户走访数据关键词提取方法、装置及存储介质,其中所述法维护有一关键词数组,包括以下步骤:获取一系列用户走访记录;对各所述走访记录进行文本拼接,形成待分析文本;按词长顺序由大至小依次从所述关键词数组中调用关键词,将所调用的关键词与所述待分析文本进行比较匹配,依据匹配结果生成结果集,所述结果集包括匹配成功的关键词及该关键词在待分析文本中出现的次数。与现有技术相比,本发明具有能够提高用户走访数据关键词提取的效率与准确性等优点。
Description
技术领域
本发明涉及一种互联网钢材交易数据处理方法,尤其是涉及一种用户走访数据关键词提取方法、装置及存储介质。
背景技术
互联网钢材交易市场的推广是钢材销售人员日常的主要工作之一。一个公司通常会配多个营销人员,每个营销人员对口多个用户,日常会进行走访、回访工作。走访结束后,会形成一份走访日志,用于记录走访结果与走访过程中收集的用户问题,这些收集到的问题与记录,经过处理分析后,可以成为日后市场推广方向的一个风向标。因为走访数据量大,记录通常以口语化表达,格式随意,目前通过人工一条条的识别的方式,存在工作量大、容易出现错判、遗漏等问题。从海量的钢材交易相关用户走访记录中提炼出有用的、关键有效的信息,是目前行业中碰到的一个技术难题。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种快速、准确的用户走访数据关键词提取方法、装置及存储介质,应用于互联网钢材交易技术领域。
本发明的目的可以通过以下技术方案来实现:
一种用户走访数据关键词提取方法,该方法维护有一基于互联网钢材交易过程的关键词数组,包括以下步骤:
获取一系列用户走访记录;
对各所述走访记录进行文本拼接,形成待分析文本;
按词长顺序由大至小依次从所述关键词数组中调用关键词,将所调用的关键词与所述待分析文本进行比较匹配,依据匹配结果生成结果集,所述结果集包括匹配成功的关键词及该关键词在待分析文本中出现的次数。
进一步地,所述关键词数组基于预先存储的关键词词库获取,具体地:
计算所述关键词词库中的每个关键词的词长,基于所述词长对各关键词进行由大至小的排序,形成所述关键词数组。
进一步地,进行所述比较匹配时,若匹配到某一关键词,则在待分析文本删除该关键词后,进行一下关键词的比较匹配。
进一步地,该方法还包括:对所述结果集进行可视化显示。
进一步地,所述关键词词库为动态更新的数据库。
本发明还提供一种用户走访数据关键词提取装置,包括:
存储模块,用于生成并存储基于互联网钢材交易过程的关键词数组;
输入模块,用于获取一系列用户走访记录;
合并模块,用于对各所述走访记录进行文本拼接,形成待分析文本;
比较匹配模块,用于按词长顺序由大至小依次从所述关键词数组中调用关键词,将所调用的关键词与所述待分析文本进行比较匹配,依据匹配结果生成结果集,所述结果集包括匹配成功的关键词及该关键词在待分析文本中出现的次数。
进一步地,所述存储模块基于预先存储的关键词词库生成所述关键词数组,具体地:
计算所述关键词词库中的每个关键词的词长,基于所述词长对各关键词进行由大至小的排序,形成所述关键词数组。
进一步地,所述比较匹配模块中,若匹配到某一关键词,则在待分析文本删除该关键词后,进行一下关键词的比较匹配。
进一步地,该装置还包括:
显示模块,用于对所述结果集进行可视化显示。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上储存有计算机程序,所述计算机程序被处理器执行所述的用户走访数据关键词提取方法。
与现有技术相比,本发明具有如下有益效果:
1、本发明通过比较匹配方式对用户走访数据进行自动化的关键词提取,有效提高了信息提取效率,解决了海量文本信息的关键词快速提取问题。
2、本发明对走访记录进行拼接处理后再进行比较匹配,无需考虑各条记录的格式问题,适用范围广。
3、本发明在关键词数组的基础上进行比较匹配,并按词长由大至小的顺序实现,可有效减少产生无效结果的概率,提高了关键词提取的效率与准确性。
4、本发明采用局部剔除法,将已匹配到的文本从原始文本中剔除,进一步提高了关键词提取的效率与准确性。
5、本发明可对结果集进行可视化显示,直观性强,一目了然。
附图说明
图1为本发明方法的流程示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
实施例1
本实施例提供一种用户走访数据关键词提取方法,该方法维护有一基于互联网钢材交易过程的关键词数组,基于该关键词数组与走访数据的匹配关系进行关键词提取。
关键词数组基于预先存储的关键词词库获取,具体地:计算所述关键词词库中的每个关键词的词长,基于所述词长对各关键词进行由大至小的排序,形成所述关键词数组。所述关键词词库为动态更新的数据库,可根据不同关注点设置不同关键词并更新。
如图1所示,本实施例的关键词提取方法包括以下步骤:
获取一系列用户走访记录,本实施例以互联网钢材交易技术领域的钢材交易用户走访记录为例;
对各所述走访记录进行文本拼接,形成待分析文本;
按词长顺序由大至小依次从所述关键词数组中调用关键词,将所调用的关键词与所述待分析文本进行比较匹配,依据匹配结果生成结果集,所述结果集包括匹配成功的关键词及该关键词在待分析文本中出现的次数。在比较匹配过程中,若匹配到某一关键词,则在待分析文本删除该关键词后,进行一下关键词的比较匹配。
比较匹配的具体为:
1)从n=0开始,将关键字数组中的keyword[n]取出,通过比较函数将其与合并后的待分析文本进行比较;
2)如有命中结果,将此结果与此结果命中的数量放入结果集result=[{"keyword":"关键字","num":"命中数量"}]中,并从文本中剔除已匹配到的结果;
3)重复步骤1)与2),每次n+1,直到keyword[n]中的结果全部比对完毕。
在获得结果集后,该方法还可以对所述结果集进行可视化显示。
实施例2
本实施例提供一种用户走访数据关键词提取装置,包括存储模块、输入模块、合并模块和比较匹配模块,其中,存储模块用于生成并存储基于互联网钢材交易过程的关键词数组;输入模块用于获取一系列用户走访记录;合并模块用于对各所述走访记录进行文本拼接,形成待分析文本;比较匹配模块用于按词长顺序由大至小依次从所述关键词数组中调用关键词,将所调用的关键词与所述待分析文本进行比较匹配,依据匹配结果生成结果集,所述结果集包括匹配成功的关键词及该关键词在待分析文本中出现的次数。
在另一实施例中,该装置还包括有对所述结果集进行可视化显示的显示模块。
实施例3
本实施例提供一种计算机可读存储介质,所述计算机可读存储介质上储存有计算机程序,所述计算机程序被处理器执行所述的用户走访数据关键词提取方法。
本实施例中的存储介质可以是磁盘、光盘、计算机存储器、只读存储器、随机存取存储器、U盘、移动硬盘等介质。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
Claims (10)
1.一种用户走访数据关键词提取方法,其特征在于,该方法维护有一基于互联网钢材交易过程的关键词数组,包括以下步骤:
获取一系列用户走访记录;
对各所述走访记录进行文本拼接,形成待分析文本;
按词长顺序由大至小依次从所述关键词数组中调用关键词,将所调用的关键词与所述待分析文本进行比较匹配,依据匹配结果生成结果集,所述结果集包括匹配成功的关键词及该关键词在待分析文本中出现的次数。
2.根据权利要求1所述的用户走访数据关键词提取方法,其特征在于,所述关键词数组基于预先存储的关键词词库获取,具体地:
计算所述关键词词库中的每个关键词的词长,基于所述词长对各关键词进行由大至小的排序,形成所述关键词数组。
3.根据权利要求1所述的用户走访数据关键词提取方法,其特征在于,进行所述比较匹配时,若匹配到某一关键词,则在待分析文本删除该关键词后,进行一下关键词的比较匹配。
4.根据权利要求1所述的用户走访数据关键词提取方法,其特征在于,该方法还包括:对所述结果集进行可视化显示。
5.根据权利要求2所述的用户走访数据关键词提取方法,其特征在于,所述关键词词库为动态更新的数据库。
6.一种用户走访数据关键词提取装置,其特征在于,包括:
存储模块,用于生成并存储基于互联网钢材交易过程的关键词数组;
输入模块,用于获取一系列用户走访记录;
合并模块,用于对各所述走访记录进行文本拼接,形成待分析文本;
比较匹配模块,用于按词长顺序由大至小依次从所述关键词数组中调用关键词,将所调用的关键词与所述待分析文本进行比较匹配,依据匹配结果生成结果集,所述结果集包括匹配成功的关键词及该关键词在待分析文本中出现的次数。
7.根据权利要求6所述的用户走访数据关键词提取装置,其特征在于,所述存储模块基于预先存储的关键词词库生成所述关键词数组,具体地:
计算所述关键词词库中的每个关键词的词长,基于所述词长对各关键词进行由大至小的排序,形成所述关键词数组。
8.根据权利要求6所述的用户走访数据关键词提取装置,其特征在于,所述比较匹配模块中,若匹配到某一关键词,则在待分析文本删除该关键词后,进行一下关键词的比较匹配。
9.根据权利要求6所述的用户走访数据关键词提取装置,其特征在于,该装置还包括:
显示模块,用于对所述结果集进行可视化显示。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上储存有计算机程序,所述计算机程序被处理器执行如权利要求1-5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010885847.8A CN112015884A (zh) | 2020-08-28 | 2020-08-28 | 一种用户走访数据关键词提取方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010885847.8A CN112015884A (zh) | 2020-08-28 | 2020-08-28 | 一种用户走访数据关键词提取方法、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112015884A true CN112015884A (zh) | 2020-12-01 |
Family
ID=73502873
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010885847.8A Pending CN112015884A (zh) | 2020-08-28 | 2020-08-28 | 一种用户走访数据关键词提取方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112015884A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101923580A (zh) * | 2010-09-09 | 2010-12-22 | 北京开心人信息技术有限公司 | 一种基于多词表的关键词快速匹配的方法与系统 |
CN103049568A (zh) * | 2012-12-31 | 2013-04-17 | 武汉传神信息技术有限公司 | 对海量文档库的文档分类的方法 |
JP2015215681A (ja) * | 2014-05-08 | 2015-12-03 | 日本放送協会 | キーワード抽出装置およびプログラム |
WO2018153265A1 (zh) * | 2017-02-23 | 2018-08-30 | 腾讯科技(深圳)有限公司 | 关键词提取方法、计算机设备和存储介质 |
CN109510904A (zh) * | 2018-12-25 | 2019-03-22 | 携程旅游网络技术(上海)有限公司 | 呼叫中心外呼录音的检测方法及系统 |
CN109783607A (zh) * | 2018-12-19 | 2019-05-21 | 南京莱斯信息技术股份有限公司 | 一种在任意文本中匹配识别海量关键词的方法 |
WO2020082560A1 (zh) * | 2018-10-25 | 2020-04-30 | 平安科技(深圳)有限公司 | 文本关键词提取方法、装置、设备及计算机可读存储介质 |
-
2020
- 2020-08-28 CN CN202010885847.8A patent/CN112015884A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101923580A (zh) * | 2010-09-09 | 2010-12-22 | 北京开心人信息技术有限公司 | 一种基于多词表的关键词快速匹配的方法与系统 |
CN103049568A (zh) * | 2012-12-31 | 2013-04-17 | 武汉传神信息技术有限公司 | 对海量文档库的文档分类的方法 |
JP2015215681A (ja) * | 2014-05-08 | 2015-12-03 | 日本放送協会 | キーワード抽出装置およびプログラム |
WO2018153265A1 (zh) * | 2017-02-23 | 2018-08-30 | 腾讯科技(深圳)有限公司 | 关键词提取方法、计算机设备和存储介质 |
WO2020082560A1 (zh) * | 2018-10-25 | 2020-04-30 | 平安科技(深圳)有限公司 | 文本关键词提取方法、装置、设备及计算机可读存储介质 |
CN109783607A (zh) * | 2018-12-19 | 2019-05-21 | 南京莱斯信息技术股份有限公司 | 一种在任意文本中匹配识别海量关键词的方法 |
CN109510904A (zh) * | 2018-12-25 | 2019-03-22 | 携程旅游网络技术(上海)有限公司 | 呼叫中心外呼录音的检测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110727880B (zh) | 一种基于词库与词向量模型的敏感语料检测方法 | |
CN110297880B (zh) | 语料产品的推荐方法、装置、设备及存储介质 | |
CN112395881B (zh) | 物料标签的构建方法、装置、可读存储介质及电子设备 | |
CN111538903B (zh) | 搜索推荐词确定方法、装置、电子设备及计算机可读介质 | |
CN114266256A (zh) | 一种领域新词的提取方法及系统 | |
CN113282754A (zh) | 针对新闻事件的舆情检测方法、装置、设备和存储介质 | |
CN115098440A (zh) | 电子档案查询方法、装置、存储介质和设备 | |
CN111325019A (zh) | 词库的更新方法及装置、电子设备 | |
CN113127607A (zh) | 文本数据标注方法、装置、电子设备及可读存储介质 | |
CN113515587A (zh) | 一种标的物信息提取方法、装置、计算机设备及存储介质 | |
CN110705285B (zh) | 一种政务文本主题词库构建方法、装置、服务器及可读存储介质 | |
CN109684357B (zh) | 信息处理方法及装置、存储介质、终端 | |
CN112015884A (zh) | 一种用户走访数据关键词提取方法、装置及存储介质 | |
CN115906851A (zh) | 一种实体识别方法、装置、电子设备及存储介质 | |
CN111310452A (zh) | 一种分词方法和装置 | |
CN112115362B (zh) | 一种基于相似代码识别的编程信息推荐方法及装置 | |
CN111310442B (zh) | 形近字纠错语料挖掘方法、纠错方法、设备及存储介质 | |
CN114154480A (zh) | 信息提取方法、装置、设备和存储介质 | |
CN112559739A (zh) | 电力设备绝缘状态数据处理方法 | |
CN112818005A (zh) | 结构化数据的搜索方法、装置、设备及存储介质 | |
CN111538805A (zh) | 一种基于深度学习和规则引擎的文本信息抽取方法及系统 | |
KR100837334B1 (ko) | 검색로그의 악용을 방지하는 방법 및 그 장치 | |
CN111241240B (zh) | 行业关键词提取方法及装置 | |
US20230359826A1 (en) | Computer-implemented system and method to perform natural language processing entity research and resolution | |
CN112883727B (zh) | 一种确定人物间关联关系的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |