CN111311280A - 一种基于dfa算法和贝叶斯分类器的用户投诉平台 - Google Patents

一种基于dfa算法和贝叶斯分类器的用户投诉平台 Download PDF

Info

Publication number
CN111311280A
CN111311280A CN202010092650.9A CN202010092650A CN111311280A CN 111311280 A CN111311280 A CN 111311280A CN 202010092650 A CN202010092650 A CN 202010092650A CN 111311280 A CN111311280 A CN 111311280A
Authority
CN
China
Prior art keywords
bayesian classifier
service
platform
mode
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010092650.9A
Other languages
English (en)
Inventor
徐旭东
刘昶
李晓文
刘鑫
顾恭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202010092650.9A priority Critical patent/CN111311280A/zh
Publication of CN111311280A publication Critical patent/CN111311280A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/01Customer relationship services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/1658Data re-synchronization of a redundant component, or initial sync of replacement, additional or spare unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24552Database cache management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/505Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the load

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Accounting & Taxation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Finance (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于DFA算法和贝叶斯分类器的用户投诉平台,本平台设计的整体架构由负载均衡层、业务逻辑层和数据访问层组成。负载均衡层使用LVS在网络传输层进行请求转发,将请求转发到Nginx;业务逻辑层对用户投诉平台的基本功能进行实现。使用Dubbo进行服务化,各个模块之间通过Dubbo协议对外暴露服务和调用外部服务;使用Zookeeper作为Dubbo的注册中心,负责服务地址的注册与查找;使用消息队列RocketMQ对相关业务进行异步处理,减少高并发情况下对平台造成的影响。数据访问层使用本地缓存Guava Cache、分布式缓存Redis、关系型数据库Mysql相互配合的方式来减少高并发情况下对数据库的访问频率。

Description

一种基于DFA算法和贝叶斯分类器的用户投诉平台
技术领域
本发明属于互联网领域,具体涉及一种基于DFA算法和贝叶斯分类器的用户投诉平台。
背景技术
随着中国经济发展进入黄金时期,国民消费能力和需求的不断提升,消费者权益保障上暴露的问题也不断增多,成为影响国民生活品质、阻碍消费增长的原因之一。在生产及服务的压力下,部分商家通过对品质与服务打折扣,来实现企业的商业利润。消费者虽然可以通过协商和解、调解、申诉、仲裁和诉讼这几种途径来保护自己的权益,但是实践中往往是协商不欢而散、调解难见分晓、申诉久拖不决、仲裁没有依据、起诉筋疲力尽,最后弄得消费者懒得奉陪,自认倒霉;在举证方面,一些纠纷商品的检测费用往往超过商品本身的价值,这也使得消费者望而却步。
随着互联网时代的不断发展,如果存在专业的用户投诉平台,当消费者认为自己的一些消费隐私不是非常重要时,可以通过平台对自己受到侵害的权益进行投诉,对商家的侵权行为进行曝光。商家看到有消费者对他们进行投诉时,为了企业的声誉,避免不良影响,商家就会及时处理这些投诉,并从源头上减少和杜绝侵权行为的发生。
针对国内一些网站在面对高并发请求时可能出现服务器宕机、系统崩溃的情况,本平台需要一个合适的架构保证高可用性,并以此为基础进行快速迭代。针对普通用户和商家提交的非法内容和垃圾内容,本平台需要采取有效的方案进行识别,以维护平台环境,提高用户体验。
发明内容
本专利的目的是为人们日益提高的消费能力提供高可用的、具有良好用户体验的用户投诉平台。应用此平台的消费者可以及时投诉商家,对商家的侵权行为进行曝光;应用此平台的商家需要及时处理消费者的投诉,避免不良影响。
为了应对可能出现的用户高并发请求,本平台设计的整体架构由负载均衡层、业务逻辑层和数据访问层组成。
负载均衡层使用LVS在网络传输层进行请求转发,将请求转发到Nginx;使用Nginx作为网络应用层的负载均衡服务器,将请求转发到各个应用服务器;使用keepalived实现LVS双机热备,当主机发生故障时,及时切换到备机。应用服务器的响应结果直接通过Nginx响应给用户而不经过LVS。
业务逻辑层对用户投诉平台的基本功能进行实现。使用Dubbo进行服务化,各个模块之间通过Dubbo协议对外暴露服务和调用外部服务;使用Zookeeper作为Dubbo的注册中心,负责服务地址的注册与查找;使用消息队列RocketMQ对相关业务进行异步处理,减少高并发情况下对平台造成的影响。
数据访问层使用本地缓存Guava Cache、分布式缓存Redis、关系型数据库Mysql相互配合的方式来减少高并发情况下对数据库的访问频率。对于访问很频繁的请求,首先读取Guava Cache中的数据,如果Guava Cache命中数据,则直接返回数据;如果Guava Cache没有命中数据,读取Redis中的数据,如果Redis命中数据,先将数据写入Guava Cache,再返回数据;如果Redis也没有命中数据,从数据库中查询数据,获得数据后相继将数据写入Redis和Guava Cache中。对于访问不是很频繁的请求,不从Guava Cache中读取数据而直接从Redis中读取数据。其中,为避免单实例的Redis出现宕机而影响平台运行的情况,使用Redis集群的方式保证高可用性。
业务逻辑层的功能模块包括用户模块、投诉模块、后台管理模块、垃圾内容识别模块和搜索模块。
在本平台的垃圾内容识别模块使用多模式匹配算法和贝叶斯分类器相结合的识别方案。为了防止在中英文混合环境下对中英文混合模式串的匹配出现错匹配和漏匹配的情况,需要对经典的多模式匹配算法DFA算法进行改进:
步骤1:对所有模式串中的字符进行GBK编码,模式串中的英文被转换为一个0到255之间的字节,模式串中的中文被转换为两个0到255之间的字节;对编码后得到的数据构建Trie树。
步骤2:为根节点中0-255位置上所有等于NULL的指针分别创建新节点,并将这些指针指向对应的新节点,即在Trie树的第一层会有256个节点。对于这256个节点,将它们的失败指针全部指向根节点;此时,根节点不会发生失配的情况,根节点的失败指针无需赋值。
步骤3:对于根节点中128-255位置上所有指针指向的节点,如果节点中一个位置的指针等于NULL,则将这个指针指向根节点;如果节点中一个位置的指针不等于NULL,则将这个指针指向的节点的失败指针指向根节点。
步骤4:从根节点开始对Trie树进行层次遍历,依次求出各个节点的失败指针和各个节点中各个位置的指针,构建确定有穷自动机。
通过本算法构建的确定有穷自动机在中英文混合环境下对中英文混合模式串的匹配不会出现错匹配和漏匹配的情况。
在垃圾内容识别模块使用改进的DFA算法和贝叶斯分类器相结合的识别方案:
步骤1:对测试数据进行预处理,以标点符号、空格、换行符为分割符,将一条完整的投诉分割为若干个句子,并且标识各个句子的类型是正常内容还是垃圾内容。
步骤2:使用伯努利模型和“结巴”中文分词组件对预处理的数据进行建模,得到贝叶斯分类器,提取其中垃圾内容的特征值作为模式串,并将这些模式串的近义词添加到模式串和贝叶斯分类器的特征值中。
步骤3:使用改进的DFA算法对用户和商家发表的内容进行多模式匹配,根据一定的策略,获取成功匹配的模式串所属的完整句子或半完整句子,使用“结巴”中文分词组件和贝叶斯分类器分别计算出这个句子属于正常内容和垃圾内容的概率。
随着用户投诉和商家处理投诉的不断增多,定期对最新数据实施步骤1和步骤2,完善贝叶斯分类器,进一步提高垃圾内容识别的准确率。
附图说明
图1是用户投诉平台的业务逻辑层的功能模块图。
图2是改进的DFA算法的流程图。
图3是改进的DFA算法和贝叶斯分类器相结合的识别方案。
具体实施方式
如图1所示,用户投诉平台主要由用户模块、投诉模块、后台管理模块、垃圾内容识别模块和搜索模块组成。
用户模块实现普通用户的注册和登录、商家的注册和登录、用户权限校验。用户模块依赖用户数据库和缓存,在用户模块将普通用户和商家的注册信息插入到用户数据库中,将普通用户和商家的常用信息插入到缓存中;在查询数据时,通过方法调用用户数据库和缓存。
投诉模块实现普通用户投诉、分配投诉至商家、商家处理投诉。投诉模块依赖投诉数据库、缓存和垃圾内容识别模块,在投诉模块将普通用户投诉和商家处理投诉的内容插入到投诉数据库和缓存中;在查询数据时,通过方法调用投诉数据库和缓存。内容的垃圾识别工作由垃圾内容识别模块完成,投诉模块和垃圾内容识别模块之间通过消息队列RocketMQ进行通讯。投诉模块每收到一条内容,就向RocketMQ中进行发送,垃圾内容识别模块消费RocketMQ中的内容。一些其它模块需要获取一条投诉中普通用户和商家提交的全部内容,因此投诉模块向外暴露服务,使其它模块可以通过Dubbo协议调用投诉模块进行获取。
后台管理模块实现商家对投诉进行申述、管理员处理商家申述、管理员处理分配失败的投诉。后台管理模块依赖投诉模块和用户模块,通过Dubbo协议调用投诉模块获取一条投诉中普通用户和商家提交的全部内容、分配失败的投诉等,调用用户模块对管理员权限进行校验。
垃圾内容识别模块实现对普通用户和商家提交的内容的垃圾内容识别。垃圾内容识别模块依赖用户数据库和缓存,使用改进的DFA算法和贝叶斯分类器相结合的识别方案对内容进行识别后,根据内容的类型对投诉数据库和缓存进行更新。
搜索模块实现所有用户搜索商家和投诉内容。搜索模块依赖于用户数据库和投诉数据库,通过方法调用用户数据库和投诉数据库。

Claims (4)

1.一种基于DFA算法和贝叶斯分类器的用户投诉平台,其特征在于,平台的整体架构由负载均衡层、业务逻辑层和数据访问层组成:
负载均衡层使用LVS在网络传输层进行请求转发,将请求转发到Nginx;使用Nginx作为网络应用层的负载均衡服务器,将请求转发到各个应用服务器;使用keepalived实现LVS双机热备,当主机发生故障时,及时切换到备机;
业务逻辑层对用户投诉平台的基本功能进行实现;使用Dubbo进行服务化,各个模块之间通过Dubbo协议对外暴露服务和调用外部服务;使用Zookeeper作为Dubbo的注册中心,负责服务地址的注册与查找;使用消息队列RocketMQ对相关业务进行异步处理,减少高并发情况下对平台造成的影响;
数据访问层使用本地缓存Guava Cache、分布式缓存Redis、关系型数据库Mysql相互配合的方式来减少高并发情况下对数据库的访问频率,为避免单实例的Redis出现宕机而影响平台运行的情况,使用Redis集群的方式保证高可用性。
2.根据权利要求1所述的一种基于DFA算法和贝叶斯分类器的用户投诉平台,其特征在于,业务逻辑层的功能模块包括用户模块、投诉模块、后台管理模块、垃圾内容识别模块和搜索模块。
3.根据权利要求1所述的一种基于DFA算法和贝叶斯分类器的用户投诉平台,其特征在于,为了防止在中英文混合环境下对中英文混合模式串的匹配出现错匹配和漏匹配的情况,需要对经典的多模式匹配算法DFA算法进行改进,改进方法如下:
步骤1:对所有模式串中的字符进行GBK编码,模式串中的英文被转换为一个0到255之间的字节,模式串中的中文被转换为两个0到255之间的字节;对编码后得到的数据构建Trie树;
步骤2:为根节点中0-255位置上所有等于NULL的指针分别创建新节点,并将这些指针指向对应的新节点,即在Trie树的第一层会有256个节点;对于这256个节点,将它们的失败指针全部指向根节点;此时,根节点不会发生失配的情况,根节点的失败指针无需赋值;
步骤3:对于根节点中128-255位置上所有指针指向的节点,如果节点中一个位置的指针等于NULL,则将这个指针指向根节点;如果节点中一个位置的指针不等于NULL,则将这个指针指向的节点的失败指针指向根节点;
步骤4:从根节点开始对Trie树进行层次遍历,依次求出各个节点的失败指针和各个节点中各个位置的指针,构建确定有穷自动机;
通过构建的确定有穷自动机在中英文混合环境下对中英文混合模式串的匹配不会出现错匹配和漏匹配的情况。
4.根据权利要求2所述的一种基于DFA算法和贝叶斯分类器的用户投诉平台,其特征在于,在垃圾内容识别模块使用改进的DFA算法和贝叶斯分类器相结合的识别方案:
步骤1:对测试数据进行预处理,以标点符号、空格、换行符为分割符,将一条完整的投诉分割为若干个句子,并且标识各个句子的类型是正常内容还是垃圾内容;
步骤2:使用伯努利模型和“结巴”中文分词组件对预处理的数据进行建模,得到贝叶斯分类器,提取其中垃圾内容的特征值作为模式串,并将这些模式串的近义词添加到模式串和贝叶斯分类器的特征值中;
步骤3:使用改进的DFA算法对用户和商家发表的内容进行多模式匹配,根据一定的策略,获取成功匹配的模式串所属的完整句子或半完整句子,使用“结巴”中文分词组件和贝叶斯分类器分别计算出这个句子属于正常内容和垃圾内容的概率;
随着用户投诉和商家处理投诉的不断增多,定期对最新数据实施步骤1和步骤2,完善贝叶斯分类器,提高垃圾内容识别的准确率。
CN202010092650.9A 2020-02-14 2020-02-14 一种基于dfa算法和贝叶斯分类器的用户投诉平台 Withdrawn CN111311280A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010092650.9A CN111311280A (zh) 2020-02-14 2020-02-14 一种基于dfa算法和贝叶斯分类器的用户投诉平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010092650.9A CN111311280A (zh) 2020-02-14 2020-02-14 一种基于dfa算法和贝叶斯分类器的用户投诉平台

Publications (1)

Publication Number Publication Date
CN111311280A true CN111311280A (zh) 2020-06-19

Family

ID=71158269

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010092650.9A Withdrawn CN111311280A (zh) 2020-02-14 2020-02-14 一种基于dfa算法和贝叶斯分类器的用户投诉平台

Country Status (1)

Country Link
CN (1) CN111311280A (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140074727A1 (en) * 2012-09-10 2014-03-13 Lin Miao Platform for Resolving Complaints with Customers
CN107463365A (zh) * 2016-08-24 2017-12-12 上海幸福九号网络科技有限公司 一种soa解决方案系统及方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140074727A1 (en) * 2012-09-10 2014-03-13 Lin Miao Platform for Resolving Complaints with Customers
CN107463365A (zh) * 2016-08-24 2017-12-12 上海幸福九号网络科技有限公司 一种soa解决方案系统及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
丁川芸 等: ""基于AC 自动机和贝叶斯方法的垃圾内容识别"", 《黑龙江工业学院学报》 *
蒲晓阳: "基于Nginx和Redis高并发web服务负载均衡的研究", 《内江科技》 *

Similar Documents

Publication Publication Date Title
US11704169B2 (en) Data model generation using generative adversarial networks
US12095820B2 (en) User model-based data loss prevention
CN114930318B (zh) 使用来自多个分类模块的聚合信息对数据进行分类
US20210150060A1 (en) Automated data anonymization
EP3591586A1 (en) Data model generation using generative adversarial networks and fully automated machine learning system which generates and optimizes solutions given a dataset and a desired outcome
US20210099283A1 (en) Pruning entries in tamper-evident data stores
US8019756B2 (en) Computer apparatus, computer program and method, for calculating importance of electronic document on computer network, based on comments on electronic document included in another electronic document associated with former electronic document
US20090089279A1 (en) Method and Apparatus for Detecting Spam User Created Content
US20180181646A1 (en) System and method for determining identity relationships among enterprise data entities
US11194788B2 (en) Involved node availability
WO2021189975A1 (zh) 机器行为识别方法、装置、设备及计算机可读存储介质
WO2022105135A1 (zh) 信息审核方法、装置、电子设备及存储介质
JP2019220144A (ja) 詐欺検出を改善するためのデータ拡張の方法、デバイス、およびシステム
US11290325B1 (en) System and method for change reconciliation in information technology systems
US20230252140A1 (en) Methods and systems for identifying anomalous computer events to detect security incidents
Jain et al. Database-agnostic workload management
US11256881B2 (en) Data valuation via language-neutral content addressing
CN111311280A (zh) 一种基于dfa算法和贝叶斯分类器的用户投诉平台
CN110674383A (zh) 舆情查询方法、装置及设备
WO2018205460A1 (zh) 获取目标用户的方法、装置、电子设备及介质
US20090055365A1 (en) Auditing of curation information
CN114896955A (zh) 数据报表加工方法、装置、计算机设备及存储介质
CN113515705A (zh) 应答信息生成方法、装置、设备及计算机可读存储介质
CN113704616A (zh) 信息推送方法、装置、电子设备及可读存储介质
CN112910923A (zh) 一种智能金融大数据处理系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20200619

WW01 Invention patent application withdrawn after publication