CN110390016B - 一种基于文本分类的健康商城商家入驻申请内容检查方法 - Google Patents

一种基于文本分类的健康商城商家入驻申请内容检查方法 Download PDF

Info

Publication number
CN110390016B
CN110390016B CN201910674638.6A CN201910674638A CN110390016B CN 110390016 B CN110390016 B CN 110390016B CN 201910674638 A CN201910674638 A CN 201910674638A CN 110390016 B CN110390016 B CN 110390016B
Authority
CN
China
Prior art keywords
content
inspection
classification
application
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910674638.6A
Other languages
English (en)
Other versions
CN110390016A (zh
Inventor
宗娜
吴玉雁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Langchao Intelligent Medical Technology Co ltd
Original Assignee
Shandong Langchao Intelligent Medical Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Langchao Intelligent Medical Technology Co ltd filed Critical Shandong Langchao Intelligent Medical Technology Co ltd
Priority to CN201910674638.6A priority Critical patent/CN110390016B/zh
Publication of CN110390016A publication Critical patent/CN110390016A/zh
Application granted granted Critical
Publication of CN110390016B publication Critical patent/CN110390016B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • Educational Administration (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Game Theory and Decision Science (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于文本分类的健康商城商家入驻申请内容检查方法,属于计算机应用技术领域,对申请内容进行外部内容检查,对违规内容、无意义内容给予修改意见。对申请内容进行内部内容检查,针对重复内容进行删除。对申请内容进行分类检查,为终端用户尽可能带来最优体验。

Description

一种基于文本分类的健康商城商家入驻申请内容检查方法
技术领域
本发明涉及计算机应用技术,尤其涉及一种基于文本分类的健康商城商家入驻申请内容检查方法。
背景技术
健康商城商家入驻需要商家提交申请,现实生活中,存在申请内容含有不规范、无意义等需驳回申请的内容,造成了延长申请周期等问题,因此对商家入驻申请内容检查是必要的。
目前,申请-审核制广泛应用于办公、电子商务等领域,用于处理内部办公和外部运营等。申请-审核制是由申请发起,经过多次审核(包括修改后再提交后的审核)的完整的运行过程。整个过程(包括修改后再提交直至申请通过或放弃申请)短则几分钟,长则按年计。
现实中,存在申请内容包含违规内容、无意义内容(如乱码)、错别字句、同一项内容有重复内容等会被驳回申请的内容。
对商家来说,申请被驳回,需要重新申请,需要继续等待审核,时间消耗比预计时间消耗多,而由于商家疏忽导致的驳回,完全可以在提交申请之前进行检查并修改,以减少甚至避免不必要的时间消耗;同时,部分恶意申请(如涉及违规内容的申请)间接加长了商家的等待审核时间。
对审核者来说,明显需要驳回或修改的申请内容,多次驳回-再审核加重了工作量。
对终端用户来说,一些商家对店铺的定位不准确或对类别层级不清晰,从而导致选择了错误分类,用户使用时无法准确定位到所需分类,用户体验不友好。
由以上三方面来说,出现对申请内容进行检查的需求,以实现申请效率的提升、提升用户体验等。
发明内容
为了解决以上技术问题,本发明提出了一种基于文本分类的健康商城商家入驻申请内容检查方法,通过文本分类方法检查申请内容以提高申请效率、辅助分类以提升用户体验。
本发明的技术方案是:
一种基于文本分类的健康商城商家入驻申请内容检查方法,
把申请内容通过三部分检查进行状态分类,即可提交状态和需修改状态;当三部分检查的结果均为可提交状态时才可提交申请。
进一步的,
申请内容检查包括以下三部分,即外部内容检查、内部内容检查、分类检查。
再进一步的,
所述外部内容检查
外部内容检查中,文本分类方法的工作原理是将检查内容与两种对比样本进行相似性对比,根据相似性对比结果进行状态分类,即可提交或需修改两种状态。
再进一步的,
两种对比样本一种是自定义的样本,包括违规内容样本、乱码检测规则、行业规范词组样本等,另一种对比样本是已驳回申请样本。
再进一步的,
第一种对比样本可以检测出违规内容、无意义内容以及错别字句,第二种对比样本可以通过相似性度量,得到高相似的样本的驳回理由。
再进一步的,
外部内容检查分类结果是两种对比样本分类状态的并集,即两种对比样本的分类状态均是可提交状态,外部内容检查分类结果才是可提交状态,若外部内容检查分类结果为需修改状态,就在提交申请之前进行针对性修改。
进一步的,
所述内部内容检查
内部内容检查中,文本分类方法的工作原理是将检查内容与自身进行对比分析,检查是否存在重复内容,若不存在,即可提交状态,若存在,将删除重复内容后为可提交状态。
进一步的,
所述分类检查
分类检查中,文本分类方法的工作原理是根据商家的主营项目、营业资质等内容与已通过申请的样本进行对比,采取kNN算法,得到分类结果,给出辅助提示,该部分均为可提交状态。
本发明的有益效果是
1)实现了申请内容的检查,对于不符合规范的申请可以给出修改建议,减少了商家疏忽导致驳回的申请,整体上节省了商家和审核者的时间,实现了时间收敛,提高了申请效率。
2)实现了申请内容的检查,减少甚至避免了恶意申请,整体上,减少了审核者的工作负担,间接节省了商家的等待时间,实现了时间收敛,提高了申请效率。
3)实现了分类检查,对于定位不清晰、不熟悉分类层级的商家给予提示,实现最大化正确分类,给予用户最优的使用体验。
附图说明
图1是本发明的申请内容检查流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明主要用于商家入驻申请内容的检查和由申请内容推导的辅助分类,采用的是文本分类方法。申请内容检查包括以下三部分,即外部内容检查、内部内容检查、分类检查,当三部分检查的结果均为可提交状态时才可提交申请。
a.外部内容检查
外部内容检查中,文本分类方法的工作原理是将检查内容与两种对比样本进行相似性对比,根据相似性对比结果进行状态分类,即可提交或需修改两种状态。
两种对比样本一种是自定义的样本,包括违规内容样本、乱码检测规则、行业规范词组样本等,另一种对比样本是已驳回申请样本。第一种对比样本可以检测出违规内容、无意义内容以及错别字句,第二种对比样本可以通过相似性度量,得到高相似的样本的驳回理由(若存在高相似的样本)。本发明的外部内容检查分类结果是两种对比样本分类状态的并集,即两种对比样本的分类状态均是可提交状态,外部内容检查分类结果才是可提交状态,若外部内容检查分类结果为需修改状态,可以在提交申请之前进行针对性修改。
b.内部内容检查
内部内容检查中,文本分类方法的工作原理是将检查内容与自身进行对比分析,检查是否存在重复内容,若不存在,即可提交状态,若存在,将删除重复内容后为可提交状态。
c.分类检查
分类检查中,文本分类方法的工作原理是根据商家的主营项目、营业资质等内容与已通过申请的样本进行对比,采取kNN算法,得到分类结果,给出辅助提示,该部分均为可提交状态。
以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (1)

1.一种基于文本分类的健康商城商家入驻申请内容检查方法,其特征在于,
把申请内容通过三部分检查进行状态分类,即可提交状态和需修改状态;当三部分检查的结果均为可提交状态时才可提交申请;
申请内容检查包括以下三部分,即外部内容检查、内部内容检查、分类检查;
所述外部内容检查
外部内容检查中,文本分类方法的工作原理是将检查内容与两种对比样本进行相似性对比,根据相似性对比结果进行状态分类,即可提交或需修改两种状态;
两种对比样本一种是自定义的样本,包括违规内容样本、乱码检测规则、行业规范词组样本,另一种对比样本是已驳回申请样本;
第一种对比样本检测出违规内容、无意义内容以及错别字句,第二种对比样本通过相似性度量,得到高相似的样本的驳回理由;
外部内容检查分类结果是两种对比样本分类状态的并集,即两种对比样本的分类状态均是可提交状态,外部内容检查分类结果才是可提交状态,若外部内容检查分类结果为需修改状态,就在提交申请之前进行针对性修改;
所述内部内容检查
内部内容检查中,文本分类方法的工作原理是将检查内容与自身进行对比分析,检查是否存在重复内容,若不存在,即可提交状态,若存在,将删除重复内容后为可提交状态;
所述分类检查
分类检查中,文本分类方法的工作原理是根据商家的主营项目、营业资质内容与已通过申请的样本进行对比,采取kNN算法,得到分类结果,给出辅助提示,该部分均为可提交状态。
CN201910674638.6A 2019-07-25 2019-07-25 一种基于文本分类的健康商城商家入驻申请内容检查方法 Active CN110390016B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910674638.6A CN110390016B (zh) 2019-07-25 2019-07-25 一种基于文本分类的健康商城商家入驻申请内容检查方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910674638.6A CN110390016B (zh) 2019-07-25 2019-07-25 一种基于文本分类的健康商城商家入驻申请内容检查方法

Publications (2)

Publication Number Publication Date
CN110390016A CN110390016A (zh) 2019-10-29
CN110390016B true CN110390016B (zh) 2023-07-18

Family

ID=68287185

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910674638.6A Active CN110390016B (zh) 2019-07-25 2019-07-25 一种基于文本分类的健康商城商家入驻申请内容检查方法

Country Status (1)

Country Link
CN (1) CN110390016B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108764194A (zh) * 2018-06-04 2018-11-06 科大讯飞股份有限公司 一种文本校验方法、装置、设备及可读存储介质
CN109543965A (zh) * 2018-11-07 2019-03-29 珠海市视微网络科技有限公司 一种商家店铺管理系统
CN109831697A (zh) * 2018-12-28 2019-05-31 广州华多网络科技有限公司 违规处理时长的检测方法及系统
CN109978747A (zh) * 2017-12-27 2019-07-05 北京京东尚科信息技术有限公司 用于审核图片的方法及装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8396870B2 (en) * 2009-06-25 2013-03-12 University Of Tennessee Research Foundation Method and apparatus for predicting object properties and events using similarity-based information retrieval and modeling
US20140067523A1 (en) * 2012-09-05 2014-03-06 Collective Bias, LLC System and method for online submission, collection, and distribution of product and shopping related information
US20180349796A1 (en) * 2017-06-02 2018-12-06 Facebook, Inc. Classification and quarantine of data through machine learning
CN107749025A (zh) * 2017-11-10 2018-03-02 浙江宇安消防装备有限公司 互联网交易平台同一注册用户多部门入驻的后台设计方法
CN108536472A (zh) * 2018-03-13 2018-09-14 中国银行股份有限公司 一种代码的规范性检查方法及装置
CN108647309B (zh) * 2018-05-09 2021-08-10 达而观信息科技(上海)有限公司 基于敏感词的聊天内容审核方法及系统
CN109583994A (zh) * 2018-11-06 2019-04-05 珠海市视微网络科技有限公司 一种入驻b2b2c商城系统的操作方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109978747A (zh) * 2017-12-27 2019-07-05 北京京东尚科信息技术有限公司 用于审核图片的方法及装置
CN108764194A (zh) * 2018-06-04 2018-11-06 科大讯飞股份有限公司 一种文本校验方法、装置、设备及可读存储介质
CN109543965A (zh) * 2018-11-07 2019-03-29 珠海市视微网络科技有限公司 一种商家店铺管理系统
CN109831697A (zh) * 2018-12-28 2019-05-31 广州华多网络科技有限公司 违规处理时长的检测方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于Logistic模型的P2P网络借贷个人信用评估研究;王茁宇;《中国优秀硕士学位论文全文数据库 经济与管理科学辑》(第02期);J157-525 *

Also Published As

Publication number Publication date
CN110390016A (zh) 2019-10-29

Similar Documents

Publication Publication Date Title
US8046372B1 (en) Duplicate entry detection system and method
Li et al. M-commerce adoption in SMEs of China: The effect of institutional pressures and the mediating role of top management
CN111639337B (zh) 一种面向海量Windows软件的未知恶意代码检测方法及系统
US20120215853A1 (en) Managing Unwanted Communications Using Template Generation And Fingerprint Comparison Features
MX9205458A (es) Metodo y sistema para analisis de imagen para identificar objetos en un fondo para generar una descripcion de un histograma o matriz de co-ocurrencia
CN107092829A (zh) 一种基于图像匹配的恶意代码检测方法
CN111143505B (zh) 文档处理方法、装置、介质及电子设备
CN111967503B (zh) 多类型异常网页分类模型的构建方法、异常网页检测方法
CN110866108A (zh) 一种敏感数据检测系统及其检测方法
Wu et al. Polynomial methods in statistical inference: theory and practice
CN109684834A (zh) 一种基于XGBoost的门级硬件木马识别方法
CN115146282A (zh) 基于ast的源代码异常检测方法及其装置
CN116150349A (zh) 一种数据产品安全合规性检查方法、装置及服务器
US20130339288A1 (en) Determining document classification probabilistically through classification rule analysis
CN113535813A (zh) 一种数据挖掘方法、装置、电子设备以及存储介质
CN110390016B (zh) 一种基于文本分类的健康商城商家入驻申请内容检查方法
CN110750297B (zh) 一种基于程序分析和文本分析的Python代码参考信息生成方法
CN115114587A (zh) 仿冒小程序的自动识别方法、系统、设备及存储介质
CN110929110A (zh) 一种电子文档检测方法、装置、设备及存储介质
CN115603926A (zh) 钓鱼邮件识别方法、系统、设备及存储介质
CN110097258B (zh) 一种用户关系网络建立方法、装置及计算机可读存储介质
CN113722238B (zh) 一种实现对源码文件快速开源成分检测的方法和系统
Cheng et al. A static detection model of malicious PDF documents based on naive Bayesian classifier technology
CN113191777A (zh) 风险识别方法和装置
Shmalko et al. Profiler: Distributed model to detect phishing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20230619

Address after: 250100 room 3108, 31 / F, building S02, Langchao Science Park, No. 1036 Langchao Road, Jinan area, China (Shandong) pilot Free Trade Zone, Jinan, Shandong

Applicant after: Shandong Langchao Intelligent Medical Technology Co.,Ltd.

Address before: Room 215, east block, Xiyuan building, intersection of Shun'an Road, Yantai Road, Huaiyin District, Jinan City, Shandong Province

Applicant before: SHANDONG HEALTH MEDICAL BIG DATA Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant