CN115222431A - 一种直播保健品的智能打假技术与方法 - Google Patents

一种直播保健品的智能打假技术与方法 Download PDF

Info

Publication number
CN115222431A
CN115222431A CN202210924872.1A CN202210924872A CN115222431A CN 115222431 A CN115222431 A CN 115222431A CN 202210924872 A CN202210924872 A CN 202210924872A CN 115222431 A CN115222431 A CN 115222431A
Authority
CN
China
Prior art keywords
health
product
data
care product
live
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202210924872.1A
Other languages
English (en)
Inventor
罗颖
彭飞凌
刘玲玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Digital Effect Shenzhen Technology Co ltd
Original Assignee
Digital Effect Shenzhen Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Digital Effect Shenzhen Technology Co ltd filed Critical Digital Effect Shenzhen Technology Co ltd
Priority to CN202210924872.1A priority Critical patent/CN115222431A/zh
Publication of CN115222431A publication Critical patent/CN115222431A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/018Certifying business or products
    • G06Q30/0185Product, service or business identity fraud
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/635Overlay text, e.g. embedded captions in a TV program
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/2187Live feed
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Human Resources & Organizations (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Strategic Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Educational Administration (AREA)
  • Marketing (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Business, Economics & Management (AREA)
  • Computing Systems (AREA)
  • Accounting & Taxation (AREA)
  • Operations Research (AREA)
  • Game Theory and Decision Science (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Probability & Statistics with Applications (AREA)
  • Finance (AREA)
  • Mathematical Physics (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本申请提供一种直播保健品的智能打假技术与方法,包括:获取直播推荐者权威数据,提取第一权威度评价指标;基于直播者权威数据,提取第二权威度评价指标;基于直播视频保健品评论和保健品药效反馈数据,识别虚假保健品;基于直播视频保健品数据分析,构建保健品评价模型;根据直播视频保健品评价指标模型,预测虚假保健品;综合保健品直播视频数据,鉴定虚假保健品。

Description

一种直播保健品的智能打假技术与方法
技术领域
本发明涉及信息技术领域,尤其涉及一种直播保健品的智能打假技术与方法。
背景技术
在快速发展的直播带货形式中,对于新兴直播带货中虚假货物鉴别方式还未完善,针对新兴的保健品直播还没有完整的检测鉴定方法。某保健品直播推荐者推广保健品的直播间时,对于直播推荐者权威的评价方式和权威的准确性、权威的满意度、权威的影响力还没有确切智能的方式去识别和判定。主播在直播带货保健品时的权威评价没有一定的指标,很难分辨直播中出现的保健品描述的专业性、严谨性及表达熟练度。关于直播中主播对保健品的描述也是没有一定的规范,对直播中出现的保健品描述语关于保健品的夸大性、保健品的差异性、保健品的真实性还没有具体的鉴别和审核的方法,观看直播的人听信主播描述的保健品信息,形成较大的信息差,容易欺骗消费者。关于直播中出现的证明文件也没有明确的证明方式,只能看主播间出现的照片,无法准确的证明。
发明内容
本发明提供了一种直播保健品的智能打假技术与方法,主要包括:
获取直播推荐者权威数据,提取第一权威度评价指标;基于直播者权威数据,提取第二权威度评价指标;基于直播视频保健品评论和保健品药效反馈数据,识别虚假保健品;基于直播视频保健品数据分析,构建保健品评价模型;根据直播视频保健品评价指标模型,预测虚假保健品;综合保健品直播视频数据,鉴定虚假保健品;
进一步可选地,所述获取直播推荐者权威数据,提取第一权威度评价指标。包括:
直播推荐者权威数据包括直播推荐者的资格证书、荣誉称号及从医数据;采集的数据整理到表格文件中,利用python语言中的pandas库对直播推荐者权威数据进行预处理,所述预处理包括one-hot编码、数据去重、去除错误数据、缺失值填充、数值转化;建立权威判断模型,获取训练样本集,所述训练样本集包括多个训练样本,所述训练样本包括样本直播推荐者的称号、满意度和影响力、资格证书、称号及从医数据,所述训练样本的标签为所述样本直播推荐者是否具备权威性;所述权威判断模型使用随机森林算法基于所述训练样本集进行学习和参数调整,获取训练后的权威判断模型;将所述直播推荐者权威维度数据输入至所述训练后的权威判断模型,所述训练后的权威判断模型输出所述直播推荐者的第一权威度评价指标,其中,所述第一权威度评价指标用于表征所述直播推荐者是否具备权威性。
进一步可选地,所述基于直播者权威数据,提取第二权威度评价指标。包括:
直播者权威数据包括直播者保健品描述专业性术语数据、直播者保健品描述严谨性数据、直播者保健品描述熟练度数据;使用空间嵌入模块对直播视频的空间信息解码,通过transformer语言模块基于所述直播视频生成视频字幕,使用目标检测算法对视频字幕进行处理,获取直播者保健品描述文本数据,将直播者保健品描述文本数据保存到文本文件中;获取直播者保健品描述文本数据,利用NLP自然语言处理算法对直播者保健品描述文本数据进行分析,获取直播者保健品描述专业性术语数据、直播者保健品描述严谨性数据、直播者保健品描述熟练度数据;第二权威度评价模型根据保健品描述专业性术语数据、保健品描述严谨性数据、保健品描述熟练度数据,确定直播者保健品描述专业性评价指标、保健品描述严谨性评价指标、保健品描述熟练度评价指标;第二权威度评价模型输出的直播者保健品描述专业性评价指标、保健品描述严谨性评价指标、保健品描述熟练度评价指标中存在两个及以上满足评价指标,则具备第二权威度包括:直播者保健品描述文本数据获取;直播者保健品描述专业性术语数据分析;直播者保健品描述严谨性数据分析;直播者保健品描述熟练度数据分析;
所述直播者保健品描述文本数据获取,具体包括:
直播者保健品描述文本数据包括主播直播保健品视频中全部语言文本。将视频时序模块和深度学习模型结合,生成空间嵌入模型,所述空间嵌入模型用于提取直播视频的空间信息,使用双向门控循环模块和深度学习残差堆叠门控循环层进行直播视频的时空解码,结合Transformer语言模型对直播视频音频进行加强,使用解码器对视频时空特征进行识别生成视频字幕。通过目标检测算法对视频字幕处理,所述的处理操作包含文字检测、文字定位、文字增强、文字分割和文字识别,并使用MSER区域检测算法和Tesseract算法对视频字幕抽取,将视频字幕保存在直播者保健品描述文本。
所述直播者保健品描述专业性术语数据分析,具体包括:
获取直播者保健品描述文本数据,对直播者保健品描述文本数据预处理。所述对直播者保健品描述文本数据预处理,包括使用python语言的pycharm工具,对直播者保健品描述文本数据进行数据处理,使用jieba库对直播者保健品描述文本数据进行乱码文本删除、标点号提取、英文字符提取、语句分词、中文繁体分词。统计直播者保健品描述文本数据中保健品描述有关专业性文本,确定所述保健品描述有关专业性文本在直播者保健品描述文本数据中所占据的比例。建立专业性对照文本,所述的专业性对照文本包括直播者保健品描述的特定词语,所述特定词语包括相关保健品服用天数、保健品浓度成分、保健品溶解速度,结合专业性对照文本判断直播者保健品描述文本数据是否含有特定词语,判断直播者是否具备专业性。
所述直播者保健品描述严谨性数据分析,具体包括:
获取直播者保健品描述文本数据,对直播者保健品描述文本数据预处理。所述对直播者保健品描述文本数据预处理包括:使用SnowNLP模块将所述直播者保健品描述文本数据转化为unicode编码数据,进一步对语句分词、标点符号删除、字体转化、语句断句处理。将预处理后的直播者保健品描述文本数据输入至PMI模型,所述PMI模型用于提取所述预处理后的直播者保健品描述文本数据中的严谨性文本数据,其中,所述严谨性文本数据包括用于描述保健品组成成分、保健品重量和保健品副作用的文本。根据
获取直播者保健品描述文本数据,对直播者保健品描述文本数据预处理。所述对直播者保健品描述文本数据预处理包括:使用SnowNLP模块将所述直播者保健品描述文本数据转化为unicode编码数据,进一步对语句分词、标点符号删除、字体转化、语句断句处理。将预处理后的直播者保健品描述文本数据输入至PMI模型,所述PMI模型用于提取所述预处理后的直播者保健品描述文本数据中的严谨性文本数据,其中,所述严谨性文本数据包括用于描述保健品组成成分、保健品重量和保健品副作用的文本。根据
Figure 874700DEST_PATH_IMAGE001
两个共同出现的概率除以两个单词的频率乘积,并用倒排索引的方式存储计算,使用文档词语关联矩阵,判断严谨性文本数据中相邻词语之间的关联性和严谨性文本数据中词语之间的紧密程度。所述的PMI模型判别,根据直播者保健品描述文本数据中严谨性文本数据,结合严谨性文本数据中相邻词语之间的关联性和严谨性文本数据中词语之间的紧密程度,判断直播者是否具备严谨性。若检测出相关的严谨性文本数据中相邻词语之间的关联性和词语之间的紧密程度程度大于预设值,输出直播者保健品描述具备严谨性。
所述直播者保健品描述熟练度数据分析,具体包括:
获取直播者保健品描述文本数据,对直播者保健品描述文本数据预处理。所述对直播者保健品描述文本数据预处理,包括使用LTK库中的nltk.tokenize模块,对直播者保健品描述文本数据进行数据预处理,所述数据预处理包含语句断句、语句分词、语句分析、英文语句分段。建立表达熟练度评价模型,利用probability模块,对预处理后的直播者保健品描述文本数据进行语气助词词频统计,进一步使用matplotlib模块,对词频分布和语气助词可视化分析。根据设定的特定语气助词词频和词频分布断续间距,所述的词频分布断续间距为相邻词语中语气助词之间的距离,通过语气助词词频和词频分布断续间距对照分析,将熟练度等级分为熟练、一般、不熟练。输入直播者保健品描述文本数据至表达熟练度评价模型,表达熟练度评价模型输出熟练、一般、不熟练,判断直播者保健品描述表达是否具备达熟练。
进一步可选地,所述基于直播视频保健品评论和保健品药效反馈数据,识别虚假保健品。包括:
根据保健品直播视频中关于直播者保健品描述视频或音频,处理转化为直播者保健品描述文本数据;通过处理直播者保健品描述文本数据,提取直播视频中的保健品评论和保健品名称;通过社会和网络渠道获取从直播视频中提取保健品名称对应保健品评论和保健品药效反馈;通过调查问卷者的保健品药效反馈,获取公众渠道保健品药效反馈数据,所述的公众渠道保健品药效反馈数据包括保健品的使用时间及保健品使用效果数据;利用爬虫工具通过网络渠道,获取网络渠道保健品评论数据,所述的网络渠道保健品评论数据包括保健品相关的评论新闻、论坛、博客、话题、文章、问答数据;利用数据处理工具对公众渠道保健品药效反馈数据和网络渠道保健品评论数据进行处理和制表;构建保健品评论数据库,所述的保健品评论数据库包括公众保健品药效反馈数据库和网络保健品评论数据库,根据公众保健品药效反馈数据库存储的公众渠道保健品药效反馈数据确定第一评价指标,根据网络保健品评论数据库存储的网络渠道保健品评论数据确定第二评价指标;所述的第一评价指标和第二评价指标,分别根据公众保健品药效反馈数据的评分和网络渠道保健品评论数据的评分,判断根据公众保健品药效反馈数据的评分和网络渠道保健品评论数据的评分是否达到设定的评分指标,第一评价指标输出优秀和差的评价,第二评价指标输出优秀和差的评价;综合保健品评论数据库,所述的保健品评论数据库包括第一评价指标和第二评价指标,输入评论,输出两个评价指标中存在两个优秀则满足评价指标,判断直播者直播保健品是否真实包括:保健品直播视频评论数据和药效反馈数据获取;基于直播视频保健品评论和保健品药效反馈数据,判别虚假保健品真实性;
所述保健品直播视频评论数据和药效反馈数据获取,具体包括:
根据保健品直播视频中关于直播者保健品描述视频或音频,获取保健品直播视频中的保健品名称。使用抽样调查的方法,获取被调查人群对所述保健品名称对应的保健品的药效反馈,根据老年、中年、少年人群设置抽样比例为1:1:1,抽样人数为设定的阈值人数。根据所述抽样比例及所述设定的阈值人数投放问卷并获取问卷调查结果,将所述问卷调查结果保存在公众保健品药效反馈数据中。通过Scrapy爬虫框架对网络中该保健品名称评论数据进行爬取,通过引擎发送请求给调度器,调度器进行入队、出队,调度器调用下载器发送请求和报到发送给爬虫进行爬取,利用item对爬取的保健品评论数据进行爬取。使用爬虫分别爬取保健品使用效果、保健品临床效果、保健品药效,获取保健品评论的数据,将保健品评论的数据保存在网络保健品评论数据中。
所述基于直播视频保健品评论和保健品药效反馈数据,判别虚假保健品真实性。,具体包括:
调用保健品评论数据库中公众保健品药效反馈数据和网络保健品评论数据,对保健品评论数据进行筛选和清洗。获取公众保健品药效反馈评分统计模型,统计保健品评论数据库中公众保健品药效反馈数据的好坏数量。通过公众保健品药效反馈数据库存储的公众保健品药效反馈数据确定第一评价指标,实时输入保健品评论数据库中公众保健品药效反馈数据,输出第一评价指标的评分。获取网络保健品评论评分统计模型,统计保健品评论数据库中网络保健品评论数据的好坏数量。通过网络保健品评论数据库存储的网络保健品评论数据确定第二评价指标,实时输入保健品使用效果、保健品临床效果报告、保健品药效信息数据,输出第二评价指标的评分。获取网络保健品评论评判模型和公众保健品药效反馈评判模型,所述的网络保健品评论评判模型和公众保健品药效反馈评判模型中的评分达到设定的评分指标,分别输出优秀和差的评价指标。综合药物评论数据库,输出两个评价指标中存在两个优秀则满足评价指标,则直播者直播保健品是真实。
进一步可选地,所述基于直播视频保健品数据分析,构建保健品评价模型。包括:
将直播药物视频或者音频信息转化为直播者描述保健品的文本信息;利用直播者描述保健品的文本信息提取直播中保健品的名称;针对直播者视频中保健品名称从保健品的夸大性、保健品的差异性、保健品的可靠性,构建保健品评分模型;保健品评分模型基于保健品的有效期、保健品的组成成分、保健品的主治功能药效、保健品的注意事项、同类保健品药效时间、同类保健品的组成成份分析、同类保健品的主治功能、保健品的相关证明文件、批准文号、保健品的执行标准、保健品产地地址、保健品的经营证书分析保健品的夸大性、保健品的差异性、保健品的可靠性,判断直播中的保健品是否为虚假保健品;根据保健品的文本信息对保健品夸大性、差异性和可靠性进行模型指标评级,所述的模型指标评级具备夸大性、差异性、可靠性,输出直播视频为虚假保健品;设置保健品指标判断模型规则,所述保健品指标判断模型规则包括根据是否具备保健品的夸大性、差异性和可靠性,判定判断直播视频中是否为虚假保健品包括:基于直播视频保健品描述夸大效果数据,识别直播视频中虚假保健品夸大性;基于直播视频同类保健品功效对比数据,识别直播视频中虚假保健品差异性;基于直播视频保健品相关证明文件数据,识别直播视频中虚假保健品可靠性;
所述基于直播视频保健品描述夸大效果数据,识别直播视频中虚假保健品夸大性。,具体包括:
通过直播者保健品视频直播的保健品语言描述文本,提取视频中关于保健品的名称。根据保健品的名称,从直播的海报或者直播的广告中获取关于保健品有效期、保健品组成成份、保健品主治功能、保健品注意事项文本信息,保存在测试保健品文本文件中。使用newapaper爬虫从保健品说明书和保健品生产企业官网发布的关于保健品的信息中提取关于该保健品名称的相关信息,从保健品网站上查找关于该保健品信息,生成对照标准保健品文本文件。使用对照法对比保健品的有效期、保健品的组成成份、保健品的主治功效、保健品注意事项保健品内容中文本信息的区别和差异,通过测试保健品文本文件内容和对照标准保健品文本文件保健品信息对比。根据Q=(w1Xmax)/wX100%公式,w1为测试保健品文本文件,max为对照值文本参数为0.6,w为对照标准保健品文本文件,通过检测测试保健品文本内容和对照标准保健品文本内容对照,根据不同的文本占总文本的比例,输入描述文本信息,输出相同或者不同,即可判断直播视频中保健品是否具有夸大性。
所述基于直播视频同类保健品功效对比数据,识别直播视频中虚假保健品差异性。,具体包括:
通过直播者保健品视频直播的保健品语言描述文本,提取视频中关于保健品的名称。根据的保健品名称使用Portia爬虫,提取保健品的主治功效、保健品的组成成分、保健品的注意事项方面的信息。根据主治功效、保健品的组成成分、保健品的注意事项方面的信息,获取相似保健品文本信息。将相似保健品文本信息转化为数据参数,使用多重比较法中的LSD最小显著差数法处理k(k-1)/2个多重数据量,其中k代表处理同类保健品文本信息数据维度,利用方差齐性和正态分布等条件直观得出多种同类保健品中不同保健品效果的参数对比。根据正态分布图像,通过极端和非极端的正态分布图像,判断直播保健品和同类虚假保健品是否具备差异性。
所述基于直播视频保健品相关证明文件数据,识别直播视频中虚假保健品可靠性。,具体包括:
通过直播者保健品视频直播的保健品描述文本,提取视频中关于保健品的名称。根据获取的保健品名称,使用Crawley爬虫从保健品的相关证明文件、保健品的批准文号、保健品的执行标准、保健品的专利信息、保健品产地、保健品的营业证书方面提取标准证明文件数据。通过直播视频中保健品描述文本数据提取证明文件文本信息,根据标准证明文件数据对比证明文件文本数据,判断保健品的相关证明文件是否具备可靠性。
进一步可选地,所述根据直播视频保健品评价指标模型,预测虚假保健品。包括:
直播视频保健品评价指标模型,由保健品评论和保健品药效反馈数据分析和直播保健品数据分析组成;分别从直播视频中公众保健品药效反馈评论数据库、网络保健品评论数据库、直播保健品的夸大性、差异性和真实性方面,预测直播视频中虚假保健品;通过对数据处理清洗,将数据格式转换和统一数据格式为数据评分百分制的格式,将处理清洗后的数据用于保健品评论数据库和保健品评分模型;利用深度学习中RNN网络模型对新数据格式转化为不同维度维度的数据,建立评分机制,对不同药物评论维度的数据创建评分机制并设置一定的比例权重,对直播视频中保健品评分按权重比例的分数,将各个权重所有分数全部相加求和加,总分数为该直播视频中虚假保健品的置信度;根据置信度的高低,预测直播视频中的虚假保健品。
一种直播保健品的智能打假技术与方法其特征在于,所述系统包括:
根据保健品直播视频中的直播者、直播推荐者和保健品评论数据,综合鉴定保健品直播视频中虚假保健品;根据第一权威度评价指标中直播者推荐者权威性,分别对直播者权威的满意度、权威的准确度、权威的影响力进行判定,创建直播推荐者评价模型;根据第二权威度评价指标中直播者保健品描述的专业性数据、保健品描述的严谨性数据、保健品描述的表达熟练度数据创建直播者评价模型;建立直播者评价模型、直播推荐者评价模型和保健品评价模型,分别对直播者数据、直播推荐者数据、保健品数据,综合进行分析处理,使用神经网络中的resnet网络构建综合评价模型,利用metrics中的各种指标对模型进行调参和调优,达到最佳的综合评价指标;根据上述的综合评价,输入直播保健品的视频,通过模型评价,输出是否含有虚假保健品。
本发明实施例提供的技术方案可以包括以下有益效果:
[1] 本发明能够应对多种情况的保健品直播视频场景,利用不同技术手段,给于直播者、直播推荐者、直播者保健品描述不同方面,判断保健品直播视频中虚假保健品的方法,很好的提高了虚假保健品的识别准确率和效率。 [2] 本方法针对不同情况的保健品直播视频进行音频处理和视频生成字幕处理,快速生成直播者描述保健品的的文本文件进一步分析,再提供三种方式对保健品直播视频的鉴定。 [3] 针对直播推荐者权威的称号、权威的满意度和权威的影响力问题的识别和处理,对直播者保健品描述中的专业性、严谨性、表达熟练度问题进行识别和鉴定,对保健品直播视频中保健品数据进行获取,对保健品的夸大性、保健品的差异性、保健品的真实性问题识别和鉴定。 [4] 综合判定和预测直播视频中的虚假保健品。
附图说明
图1为本发明的一种直播保健品的智能打假技术与方法的流程图。
图2为本发明的一种直播保健品的智能打假技术与方法的示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
图1为本发明的一种直播保健品的智能打假技术与方法流程图。如图1所示,本实施例一种直播保健品的智能打假技术与方法具体可以包括:
步骤101,获取直播推荐者权威数据,提取第一权威度评价指标。。
直播推荐者权威数据包括直播推荐者的资格证书、荣誉称号及从医数据。采集的数据整理到表格文件中,利用python语言中的pandas库对直播推荐者权威数据进行预处理,所述预处理包括one-hot编码、数据去重、去除错误数据、缺失值填充、数值转化。建立权威判断模型,获取训练样本集,所述训练样本集包括多个训练样本,所述训练样本包括样本直播推荐者的称号、满意度和影响力、资格证书、称号及从医数据,所述训练样本的标签为所述样本直播推荐者是否具备权威性。所述权威判断模型使用随机森林算法基于所述训练样本集进行学习和参数调整,获取训练后的权威判断模型。将所述直播推荐者权威维度数据输入至所述训练后的权威判断模型,所述训练后的权威判断模型输出所述直播推荐者的第一权威度评价指标,其中,所述第一权威度评价指标用于表征所述直播推荐者是否具备权威性。例如:资格证书通过国家医药委员会官网证书查询,荣誉称号通过医学网查询,从医数据从中国医药信息查询平台查询。所述的第一权威度评价指标判别规则为具备专家称号,是否具备资格证书、是否具备十年以上从医经验。直播推荐者A具备专家称号、资格证书及具备十年以上从医经验,输出的结果为直播推荐者具备权威性。
步骤102,基于直播者权威数据,提取第二权威度评价指标。。
直播者权威数据包括直播者保健品描述专业性术语数据、直播者保健品描述严谨性数据、直播者保健品描述熟练度数据。使用空间嵌入模块对直播视频的空间信息解码,通过transformer语言模块基于所述直播视频生成视频字幕,使用目标检测算法对视频字幕进行处理,获取直播者保健品描述文本数据,将直播者保健品描述文本数据保存到文本文件中。获取直播者保健品描述文本数据,利用NLP自然语言处理算法对直播者保健品描述文本数据进行分析,获取直播者保健品描述专业性术语数据、直播者保健品描述严谨性数据、直播者保健品描述熟练度数据。第二权威度评价模型根据保健品描述专业性术语数据、保健品描述严谨性数据、保健品描述熟练度数据,确定直播者保健品描述专业性评价指标、保健品描述严谨性评价指标、保健品描述熟练度评价指标。第二权威度评价模型输出的直播者保健品描述专业性评价指标、保健品描述严谨性评价指标、保健品描述熟练度评价指标中存在两个及以上满足评价指标,则具备第二权威度。例如:若直播者保健品描述文本数据中出现相关保健品服用天数、保健品浓度成分、保健品溶解速度数据文本关于直播者保健品描述文本数据包含直播者的保健品描述专业性术语数据比例达到专业,保健品描述严谨性数据达到专业以上,保健品知识描述表达熟练以上,三者全部达到专业,则为具备权威。所述的保健品描述专业性术语数据在保健品描述文本的占比大于百分之六十,认为直播者保健品描述专业性评价指标满足评价指标,即输出专业和不专业。所述的保健品描述表达严谨性数据在保健品描述文本的紧密程度达到关联和紧密,则表达严谨性评价指标满足评价指标,即输出专业和不专业。所述的保健品描述表达熟练度数据在保健品描述文本的熟练度等级达到熟练,则表达熟练度评价指标满足评价指标,即输出专业和不专业。
直播者保健品描述文本数据获取。
直播者保健品描述文本数据包括主播直播保健品视频中全部语言文本。将视频时序模块和深度学习模型结合,生成空间嵌入模型,所述空间嵌入模型用于提取直播视频的空间信息,使用双向门控循环模块和深度学习残差堆叠门控循环层进行直播视频的时空解码,结合Transformer语言模型对直播视频音频进行加强,使用解码器对视频时空特征进行识别生成视频字幕。通过目标检测算法对视频字幕处理,所述的处理操作包含文字检测、文字定位、文字增强、文字分割和文字识别,并使用MSER区域检测算法和Tesseract算法对视频字幕抽取,将视频字幕保存在直播者保健品描述文本。例如:直播者直播保健品是以直播视频的方式呈现,在描述保健品数据信息时只有语言信息,没有相关的文本信息数据。输入一段直播者直播视频,将直播视频进行音频处理后生成视频字幕,对视频字幕提取文本。视频中音频为:保健品效果特别好,将音频转化直播者保健品描述文本数据“保健品效果特别好”并保存直播者保健品描述文本中。
直播者保健品描述专业性术语数据分析。
获取直播者保健品描述文本数据,对直播者保健品描述文本数据预处理。所述对直播者保健品描述文本数据预处理,包括使用python语言的pycharm工具,对直播者保健品描述文本数据进行数据处理,使用jieba库对直播者保健品描述文本数据进行乱码文本删除、标点号提取、英文字符提取、语句分词、中文繁体分词。统计直播者保健品描述文本数据中保健品描述有关专业性文本,确定所述保健品描述有关专业性文本在直播者保健品描述文本数据中所占据的比例。建立专业性对照文本,所述的专业性对照文本包括直播者保健品描述的特定词语,所述特定词语包括相关保健品服用天数、保健品浓度成分、保健品溶解速度,结合专业性对照文本判断直播者保健品描述文本数据是否含有特定词语,判断直播者是否具备专业性。例如:若直播者保健品描述文本数据中含有关于保健品服用天数一天、保健品浓度成分保健品含人参60%、保健品溶解速度为1小时,则检测出这些专业性文本,判定为直播者具备专业性。输入一段直播者保健品描述文本数据,医生说:保健品在体内的溶解速度为1小时,jieba库对文本分词保健品、在、体内、的、溶解、速度、为、1、小时。TF-IDF算法提取文本后,检测含有关于保健品溶解速度的文本,输出输出直播者具备专业性。
直播者保健品描述严谨性数据分析。
获取直播者保健品描述文本数据,对直播者保健品描述文本数据预处理。所述对直播者保健品描述文本数据预处理包括:使用SnowNLP模块将所述直播者保健品描述文本数据转化为unicode编码数据,进一步对语句分词、标点符号删除、字体转化、语句断句处理。将预处理后的直播者保健品描述文本数据输入至PMI模型,所述PMI模型用于提取所述预处理后的直播者保健品描述文本数据中的严谨性文本数据,其中,所述严谨性文本数据包括用于描述保健品组成成分、保健品重量和保健品副作用的文本。根据
获取直播者保健品描述文本数据,对直播者保健品描述文本数据预处理。所述对直播者保健品描述文本数据预处理包括:使用SnowNLP模块将所述直播者保健品描述文本数据转化为unicode编码数据,进一步对语句分词、标点符号删除、字体转化、语句断句处理。将预处理后的直播者保健品描述文本数据输入至PMI模型,所述PMI模型用于提取所述预处理后的直播者保健品描述文本数据中的严谨性文本数据,其中,所述严谨性文本数据包括用于描述保健品组成成分、保健品重量和保健品副作用的文本。根据{pic}2022-07-13004836.jpg{/pic},两个共同出现的概率除以两个单词的频率乘积,并用倒排索引的方式存储计算,使用文档词语关联矩阵,判断严谨性文本数据中相邻词语之间的关联性和严谨性文本数据中词语之间的紧密程度。所述的PMI模型判别,根据直播者保健品描述文本数据中严谨性文本数据,结合严谨性文本数据中相邻词语之间的关联性和严谨性文本数据中词语之间的紧密程度,判断直播者是否具备严谨性。若检测出相关的严谨性文本数据中相邻词语之间的关联性和词语之间的紧密程度程度大于预设值,输出直播者保健品描述具备严谨性。例如:输入一段直播者保健品描述文本数据:该保健品重量为5g。SnowNLP模块对文本处理:该、保健品、重量、为、5、g。PMI模型检测出保健品重量相邻词语之间相关的文本和保健品重量这样词语之间紧密度高的词语,说明直播者保健品描述表达具备严谨性。
直播者保健品描述熟练度数据分析。
获取直播者保健品描述文本数据,对直播者保健品描述文本数据预处理。所述对直播者保健品描述文本数据预处理,包括使用LTK库中的nltk.tokenize模块,对直播者保健品描述文本数据进行数据预处理,所述数据预处理包含语句断句、语句分词、语句分析、英文语句分段。建立表达熟练度评价模型,利用probability模块,对预处理后的直播者保健品描述文本数据进行语气助词词频统计,进一步使用matplotlib模块,对词频分布和语气助词可视化分析。根据设定的特定语气助词词频和词频分布断续间距,所述的词频分布断续间距为相邻词语中语气助词之间的距离,通过语气助词词频和词频分布断续间距对照分析,将熟练度等级分为熟练、一般、不熟练。输入直播者保健品描述文本数据至表达熟练度评价模型,表达熟练度评价模型输出熟练、一般、不熟练,判断直播者保健品描述表达是否具备达熟练。例如:语气助词词频占全文本的比例达到80%以上,分布断续词频间距为占全文本的比例的40%,设置为不熟练。语气助词词频占全文本的比例达到50%以上,分布断续词频间距为占全文本的比例的20%,设置为一般。语气助词词频占全文本的比例达到50%以下,分布断续词频间距为占全文本的比例的5%,设置为熟练。输入直播者保健品描述文本数据:这些保健品的功效、嗯、嗯、包含治疗咳嗽。输入直播者保健品描述文本数据,利用nltk.tokenize模块对直播者保健品描述文本数据处理,输出“这些、保健品、的、功效、嗯、嗯、包含、治疗、咳嗽”,根据设定的特定语气助词超过文本的80%,分布断续词频间距为占全文本的比例的40%,就会输出直播者保健品描述表达不熟练(占比越低越熟练)。
步骤103,基于直播视频保健品评论和保健品药效反馈数据,识别虚假保健品。。
根据保健品直播视频中关于直播者保健品描述视频或音频,处理转化为直播者保健品描述文本数据。通过处理直播者保健品描述文本数据,提取直播视频中的保健品评论和保健品名称。通过社会和网络渠道获取从直播视频中提取保健品名称对应保健品评论和保健品药效反馈。通过调查问卷者的保健品药效反馈,获取公众渠道保健品药效反馈数据,所述的公众渠道保健品药效反馈数据包括保健品的使用时间及保健品使用效果数据。利用爬虫工具通过网络渠道,获取网络渠道保健品评论数据,所述的网络渠道保健品评论数据包括保健品相关的评论新闻、论坛、博客、话题、文章、问答数据。利用数据处理工具对公众渠道保健品药效反馈数据和网络渠道保健品评论数据进行处理和制表。构建保健品评论数据库,所述的保健品评论数据库包括公众保健品药效反馈数据库和网络保健品评论数据库,根据公众保健品药效反馈数据库存储的公众渠道保健品药效反馈数据确定第一评价指标,根据网络保健品评论数据库存储的网络渠道保健品评论数据确定第二评价指标。所述的第一评价指标和第二评价指标,分别根据公众保健品药效反馈数据的评分和网络渠道保健品评论数据的评分,判断根据公众保健品药效反馈数据的评分和网络渠道保健品评论数据的评分是否达到设定的评分指标,第一评价指标输出优秀和差的评价,第二评价指标输出优秀和差的评价。综合保健品评论数据库,所述的保健品评论数据库包括第一评价指标和第二评价指标,输入评论,输出两个评价指标中存在两个优秀则满足评价指标,判断直播者直播保健品是否真实。例如:所述的保健品评分指标为公众保健品药效反馈数据的评分达到70分以上,输出优秀,否则输出差,网络渠道保健品评论数据的评分达到70分以上,输出优秀,否则输出差。建立公众保健品药效反馈数据库和网络保健品评论数据库,通过两种渠道获取数据,所述的两种渠道包括社会公众调查法利用调查方式和爬虫。
保健品直播视频评论数据和药效反馈数据获取。
根据保健品直播视频中关于直播者保健品描述视频或音频,获取保健品直播视频中的保健品名称。使用抽样调查的方法,获取被调查人群对所述保健品名称对应的保健品的药效反馈,根据老年、中年、少年人群设置抽样比例为1:1:1,抽样人数为设定的阈值人数。根据所述抽样比例及所述设定的阈值人数投放问卷并获取问卷调查结果,将所述问卷调查结果保存在公众保健品药效反馈数据中。通过Scrapy爬虫框架对网络中该保健品名称评论数据进行爬取,通过引擎发送请求给调度器,调度器进行入队、出队,调度器调用下载器发送请求和报到发送给爬虫进行爬取,利用item对爬取的保健品评论数据进行爬取。使用爬虫分别爬取保健品使用效果、保健品临床效果、保健品药效,获取保健品评论的数据,将保健品评论的数据保存在网络保健品评论数据中。例如:根据保健品名称创建调查问卷数据,通过Scrapy爬虫爬取不同网站上的保健品使用效果、保健品临床效果。
基于直播视频保健品评论和保健品药效反馈数据,判别虚假保健品真实性。。
调用保健品评论数据库中公众保健品药效反馈数据和网络保健品评论数据,对保健品评论数据进行筛选和清洗。获取公众保健品药效反馈评分统计模型,统计保健品评论数据库中公众保健品药效反馈数据的好坏数量。通过公众保健品药效反馈数据库存储的公众保健品药效反馈数据确定第一评价指标,实时输入保健品评论数据库中公众保健品药效反馈数据,输出第一评价指标的评分。获取网络保健品评论评分统计模型,统计保健品评论数据库中网络保健品评论数据的好坏数量。通过网络保健品评论数据库存储的网络保健品评论数据确定第二评价指标,实时输入保健品使用效果、保健品临床效果报告、保健品药效信息数据,输出第二评价指标的评分。获取网络保健品评论评判模型和公众保健品药效反馈评判模型,所述的网络保健品评论评判模型和公众保健品药效反馈评判模型中的评分达到设定的评分指标,分别输出优秀和差的评价指标。综合药物评论数据库,输出两个评价指标中存在两个优秀则满足评价指标,则直播者直播保健品是真实。例如:通过问卷星调查某公众人群,输入一段保健品药效反馈评论:该保健品效果很好,使用两天,已经药到病除。将评论保存在保健品评论模型中,自动生成公众保健品药效反馈评分,结果为优秀,通过公众保健品药效反馈评分统计模型,输出为优秀。
步骤104,基于直播视频保健品数据分析,构建保健品评价模型。。
将直播药物视频或者音频信息转化为直播者描述保健品的文本信息。利用直播者描述保健品的文本信息提取直播中保健品的名称。针对直播者视频中保健品名称从保健品的夸大性、保健品的差异性、保健品的可靠性,构建保健品评分模型。保健品评分模型基于保健品的有效期、保健品的组成成分、保健品的主治功能药效、保健品的注意事项、同类保健品药效时间、同类保健品的组成成份分析、同类保健品的主治功能、保健品的相关证明文件、批准文号、保健品的执行标准、保健品产地地址、保健品的经营证书分析保健品的夸大性、保健品的差异性、保健品的可靠性,判断直播中的保健品是否为虚假保健品。根据保健品的文本信息对保健品夸大性、差异性和可靠性进行模型指标评级,所述的模型指标评级具备夸大性、差异性、可靠性,输出直播视频为虚假保健品。设置保健品指标判断模型规则,所述保健品指标判断模型规则包括根据是否具备保健品的夸大性、差异性和可靠性,判定判断直播视频中是否为虚假保健品。例如:将主播关于保健品相关描述,从保健品的夸大性、差异性、可靠性三方面进行分析鉴定。输出各个评级鉴定的结果,判断直播视频中是否为虚假保健品。
基于直播视频保健品描述夸大效果数据,识别直播视频中虚假保健品夸大性。。
通过直播者保健品视频直播的保健品语言描述文本,提取视频中关于保健品的名称。根据保健品的名称,从直播的海报或者直播的广告中获取关于保健品有效期、保健品组成成份、保健品主治功能、保健品注意事项文本信息,保存在测试保健品文本文件中。使用newapaper爬虫从保健品说明书和保健品生产企业官网发布的关于保健品的信息中提取关于该保健品名称的相关信息,从保健品网站上查找关于该保健品信息,生成对照标准保健品文本文件。使用对照法对比保健品的有效期、保健品的组成成份、保健品的主治功效、保健品注意事项保健品内容中文本信息的区别和差异,通过测试保健品文本文件内容和对照标准保健品文本文件保健品信息对比。根据Q=(w1Xmax)/wX100%公式,w1为测试保健品文本文件,max为对照值文本参数为0.6,w为对照标准保健品文本文件,通过检测测试保健品文本内容和对照标准保健品文本内容对照,根据不同的文本占总文本的比例,输入描述文本信息,输出相同或者不同,即可判断直播视频中保健品是否具有夸大性。例如:测试保健品文本内容为:XX保健品可以治疗咳嗽、还可以治疗发烧、感冒等症状,对照标准药物文件中内容为:XX保健品可以治疗咳嗽。通过对照方法就可以判断,直播视频中该保健品具有夸大性。
基于直播视频同类保健品功效对比数据,识别直播视频中虚假保健品差异性。。
通过直播者保健品视频直播的保健品语言描述文本,提取视频中关于保健品的名称。根据的保健品名称使用Portia爬虫,提取保健品的主治功效、保健品的组成成分、保健品的注意事项方面的信息。根据主治功效、保健品的组成成分、保健品的注意事项方面的信息,获取相似保健品文本信息。将相似保健品文本信息转化为数据参数,使用多重比较法中的LSD最小显著差数法处理k(k-1)/2个多重数据量,其中k代表处理同类保健品文本信息数据维度,利用方差齐性和正态分布等条件直观得出多种同类保健品中不同保健品效果的参数对比。根据正态分布图像,通过极端和非极端的正态分布图像,判断直播保健品和同类虚假保健品是否具备差异性。例如:从中国医药信息网和世界知识产权IPDL数据库中查询该药物相关的保健品信息包括保健品时间、保健品的相互作用、保健品的主治功效保健品文本信息。同类虚假保健品的药效时间和相互作用为两天和不能与布洛芬共同使用,该虚假保健品的药效时间和相互作用为两个小时和无。通过设置的参数转化对比形成极端正态分布,判断直播视频保健品与同类保健品具有较大差异性。
基于直播视频保健品相关证明文件数据,识别直播视频中虚假保健品可靠性。。
通过直播者保健品视频直播的保健品描述文本,提取视频中关于保健品的名称。根据获取的保健品名称,使用Crawley爬虫从保健品的相关证明文件、保健品的批准文号、保健品的执行标准、保健品的专利信息、保健品产地、保健品的营业证书方面提取标准证明文件数据。通过直播视频中保健品描述文本数据提取证明文件文本信息,根据标准证明文件数据对比证明文件文本数据,判断保健品的相关证明文件是否具备可靠性。例如:从近期专业的核心期刊或者国家药典、药品标准、国家药物食品监督管理局、中华人民共和国卫生部、国家中医药管理局机构机关,获取标准证明文件数据。通过直播视频中保健品描述文本数据提取证明文件文本数据中地址位于:广东省佛山市顺德区,国家标准文件中记录的地址为:广东省广州市番禺区。通过保健品文本数据的地址差异,判断保健品相关证明文件不具备可靠性。
步骤105,根据直播视频保健品评价指标模型,预测虚假保健品。。
直播视频保健品评价指标模型,由保健品评论和保健品药效反馈数据分析和直播保健品数据分析组成。分别从直播视频中公众保健品药效反馈评论数据库、网络保健品评论数据库、直播保健品的夸大性、差异性和真实性方面,预测直播视频中虚假保健品。通过对数据处理清洗,将数据格式转换和统一数据格式为数据评分百分制的格式,将处理清洗后的数据用于保健品评论数据库和保健品评分模型。利用深度学习中RNN网络模型对新数据格式转化为不同维度维度的数据,建立评分机制,对不同药物评论维度的数据创建评分机制并设置一定的比例权重,对直播视频中保健品评分按权重比例的分数,将各个权重所有分数全部相加求和加,总分数为该直播视频中虚假保健品的置信度。根据置信度的高低,预测直播视频中的虚假保健品。例如:公众保健品药效反馈评论数据库中的反馈为差,网络保健品评论数据库中的评论为差,直播保健品分析的夸大性、真实性和差异性均具备。将差、不具备等数据转化为百分制的分数,根据公众保健品药效反馈评论数据库中的药效反馈、网络保健品评论数据库中的评论、直播保健品分析的夸大性、真实性和差异性转化比重为3:3:4的百分制评分,转换后的数据进入神经网络模型中,输出分数为10分,(分数越低越假)说明直播视频中为虚假保健品。
步骤106,综合保健品直播视频数据,鉴定虚假保健品。
根据保健品直播视频中的直播者、直播推荐者和保健品评论数据,综合鉴定保健品直播视频中虚假保健品。根据第一权威度评价指标中直播者推荐者权威性,分别对直播者权威的满意度、权威的准确度、权威的影响力进行判定,创建直播推荐者评价模型。根据第二权威度评价指标中直播者保健品描述的专业性数据、保健品描述的严谨性数据、保健品描述的表达熟练度数据创建直播者评价模型。建立直播者评价模型、直播推荐者评价模型和保健品评价模型,分别对直播者数据、直播推荐者数据、保健品数据,综合进行分析处理,使用神经网络中的resnet网络构建综合评价模型,利用metrics中的各种指标对模型进行调参和调优,达到最佳的综合评价指标。根据上述的综合评价,输入直播保健品的视频,通过模型评价,输出是否含有虚假保健品。例如:输入某直播虚假保健品视频评论视频,先将视频转化为文本信息,利用直播者评价模型、直播推荐者评价模型和保健品评价模型综合评价打分,输出某直播视频中含有虚假保健品。

Claims (7)

1.一种直播保健品的智能打假技术与方法,其特征在于,所述方法包括:
获取直播推荐者权威数据,提取第一权威度评价指标;基于直播者权威数据,提取第二权威度评价指标,所述基于直播者权威数据,提取第二权威度评价指标,具体包括:直播者保健品描述文本数据获取,直播者保健品描述专业性术语数据分析,直播者保健品描述严谨性数据分析,直播者保健品描述熟练度数据分析;基于直播视频保健品评论和保健品药效反馈数据,识别虚假保健品,所述基于直播视频保健品评论和保健品药效反馈数据,识别虚假保健品,具体包括:保健品直播视频评论数据和药效反馈数据获取,基于直播视频保健品评论和保健品药效反馈数据,判别虚假保健品真实性;基于直播视频保健品数据分析,构建保健品评价模型,所述基于直播视频保健品数据分析,构建保健品评价模型,具体包括:基于直播视频保健品描述夸大效果数据,识别直播视频中虚假保健品夸大性,基于直播视频同类保健品功效对比数据,识别直播视频中虚假保健品差异性,基于直播视频保健品相关证明文件数据,识别直播视频中虚假保健品可靠性;根据直播视频保健品评价指标模型,预测虚假保健品;综合保健品直播视频数据,鉴定虚假保健品。
2.根据权利要求1所述的方法,其中,所述获取直播推荐者权威数据,提取第一权威度评价指标,包括:
直播推荐者权威数据包括直播推荐者的资格证书、荣誉称号及从医数据;采集的数据整理到表格文件中,利用python语言中的pandas库对直播推荐者权威数据进行预处理,所述预处理包括one-hot编码、数据去重、去除错误数据、缺失值填充、数值转化;建立权威判断模型,获取训练样本集,所述训练样本集包括多个训练样本,所述训练样本包括样本直播推荐者的称号、满意度和影响力、资格证书、称号及从医数据,所述训练样本的标签为所述样本直播推荐者是否具备权威性;所述权威判断模型使用随机森林算法基于所述训练样本集进行学习和参数调整,获取训练后的权威判断模型;将所述直播推荐者权威维度数据输入至所述训练后的权威判断模型,所述训练后的权威判断模型输出所述直播推荐者的第一权威度评价指标,其中,所述第一权威度评价指标用于表征所述直播推荐者是否具备权威性。
3.根据权利要求1所述的方法,其中,所述基于直播者权威数据,提取第二权威度评价指标,包括:
直播者权威数据包括直播者保健品描述专业性术语数据、直播者保健品描述严谨性数据、直播者保健品描述熟练度数据;使用空间嵌入模块对直播视频的空间信息解码,通过transformer语言模块基于所述直播视频生成视频字幕,使用目标检测算法对视频字幕进行处理,获取直播者保健品描述文本数据,将直播者保健品描述文本数据保存到文本文件中;获取直播者保健品描述文本数据,利用NLP自然语言处理算法对直播者保健品描述文本数据进行分析,获取直播者保健品描述专业性术语数据、直播者保健品描述严谨性数据、直播者保健品描述熟练度数据;第二权威度评价模型根据保健品描述专业性术语数据、保健品描述严谨性数据、保健品描述熟练度数据,确定直播者保健品描述专业性评价指标、保健品描述严谨性评价指标、保健品描述熟练度评价指标;第二权威度评价模型输出的直播者保健品描述专业性评价指标、保健品描述严谨性评价指标、保健品描述熟练度评价指标中存在两个及以上满足评价指标,则具备第二权威度包括:直播者保健品描述文本数据获取;直播者保健品描述专业性术语数据分析;直播者保健品描述严谨性数据分析;直播者保健品描述熟练度数据分析;
所述直播者保健品描述文本数据获取,具体包括:
直播者保健品描述文本数据包括主播直播保健品视频中全部语言文本;将视频时序模块和深度学习模型结合,生成空间嵌入模型,所述空间嵌入模型用于提取直播视频的空间信息,使用双向门控循环模块和深度学习残差堆叠门控循环层进行直播视频的时空解码,结合Transformer语言模型对直播视频音频进行加强,使用解码器对视频时空特征进行识别生成视频字幕;通过目标检测算法对视频字幕处理,所述的处理操作包含文字检测、文字定位、文字增强、文字分割和文字识别,并使用MSER区域检测算法和Tesseract算法对视频字幕抽取,将视频字幕保存在直播者保健品描述文本;
所述直播者保健品描述专业性术语数据分析,具体包括:
获取直播者保健品描述文本数据,对直播者保健品描述文本数据预处理;所述对直播者保健品描述文本数据预处理,包括使用python语言的pycharm工具,对直播者保健品描述文本数据进行数据处理,使用jieba库对直播者保健品描述文本数据进行乱码文本删除、标点号提取、英文字符提取、语句分词、中文繁体分词;统计直播者保健品描述文本数据中保健品描述有关专业性文本,确定所述保健品描述有关专业性文本在直播者保健品描述文本数据中所占据的比例;建立专业性对照文本,所述的专业性对照文本包括直播者保健品描述的特定词语,所述特定词语包括相关保健品服用天数、保健品浓度成分、保健品溶解速度,结合专业性对照文本判断直播者保健品描述文本数据是否含有特定词语,判断直播者是否具备专业性;
所述直播者保健品描述严谨性数据分析,具体包括:
获取直播者保健品描述文本数据,对直播者保健品描述文本数据预处理;所述对直播者保健品描述文本数据预处理包括:使用SnowNLP模块将所述直播者保健品描述文本数据转化为unicode编码数据,进一步对语句分词、标点符号删除、字体转化、语句断句处理;将预处理后的直播者保健品描述文本数据输入至PMI模型,所述PMI模型用于提取所述预处理后的直播者保健品描述文本数据中的严谨性文本数据,其中,所述严谨性文本数据包括用于描述保健品组成成分、保健品重量和保健品副作用的文本;根据
获取直播者保健品描述文本数据,对直播者保健品描述文本数据预处理;所述对直播者保健品描述文本数据预处理包括:使用SnowNLP模块将所述直播者保健品描述文本数据转化为unicode编码数据,进一步对语句分词、标点符号删除、字体转化、语句断句处理;将预处理后的直播者保健品描述文本数据输入至PMI模型,所述PMI模型用于提取所述预处理后的直播者保健品描述文本数据中的严谨性文本数据,其中,所述严谨性文本数据包括用于描述保健品组成成分、保健品重量和保健品副作用的文本;根据{pic}2022-07-13004836.jpg{/pic},两个共同出现的概率除以两个单词的频率乘积,并用倒排索引的方式存储计算,使用文档词语关联矩阵,判断严谨性文本数据中相邻词语之间的关联性和严谨性文本数据中词语之间的紧密程度;所述的PMI模型判别,根据直播者保健品描述文本数据中严谨性文本数据,结合严谨性文本数据中相邻词语之间的关联性和严谨性文本数据中词语之间的紧密程度,判断直播者是否具备严谨性;若检测出相关的严谨性文本数据中相邻词语之间的关联性和词语之间的紧密程度程度大于预设值,输出直播者保健品描述具备严谨性;
所述直播者保健品描述熟练度数据分析,具体包括:
获取直播者保健品描述文本数据,对直播者保健品描述文本数据预处理;所述对直播者保健品描述文本数据预处理,包括使用LTK库中的nltk.tokenize模块,对直播者保健品描述文本数据进行数据预处理,所述数据预处理包含语句断句、语句分词、语句分析、英文语句分段;建立表达熟练度评价模型,利用probability模块,对预处理后的直播者保健品描述文本数据进行语气助词词频统计,进一步使用matplotlib模块,对词频分布和语气助词可视化分析;根据设定的特定语气助词词频和词频分布断续间距,所述的词频分布断续间距为相邻词语中语气助词之间的距离,通过语气助词词频和词频分布断续间距对照分析,将熟练度等级分为熟练、一般、不熟练;输入直播者保健品描述文本数据至表达熟练度评价模型,表达熟练度评价模型输出熟练、一般、不熟练,判断直播者保健品描述表达是否具备达熟练。
4.根据权利要求1所述的方法,其中,所述基于直播视频保健品评论和保健品药效反馈数据,识别虚假保健品,包括:
根据保健品直播视频中关于直播者保健品描述视频或音频,处理转化为直播者保健品描述文本数据;通过处理直播者保健品描述文本数据,提取直播视频中的保健品评论和保健品名称;通过社会和网络渠道获取从直播视频中提取保健品名称对应保健品评论和保健品药效反馈;通过调查问卷者的保健品药效反馈,获取公众渠道保健品药效反馈数据,所述的公众渠道保健品药效反馈数据包括保健品的使用时间及保健品使用效果数据;利用爬虫工具通过网络渠道,获取网络渠道保健品评论数据,所述的网络渠道保健品评论数据包括保健品相关的评论新闻、论坛、博客、话题、文章、问答数据;利用数据处理工具对公众渠道保健品药效反馈数据和网络渠道保健品评论数据进行处理和制表;构建保健品评论数据库,所述的保健品评论数据库包括公众保健品药效反馈数据库和网络保健品评论数据库,根据公众保健品药效反馈数据库存储的公众渠道保健品药效反馈数据确定第一评价指标,根据网络保健品评论数据库存储的网络渠道保健品评论数据确定第二评价指标;所述的第一评价指标和第二评价指标,分别根据公众保健品药效反馈数据的评分和网络渠道保健品评论数据的评分,判断根据公众保健品药效反馈数据的评分和网络渠道保健品评论数据的评分是否达到设定的评分指标,第一评价指标输出优秀和差的评价,第二评价指标输出优秀和差的评价;综合保健品评论数据库,所述的保健品评论数据库包括第一评价指标和第二评价指标,输入评论,输出两个评价指标中存在两个优秀则满足评价指标,判断直播者直播保健品是否真实包括:保健品直播视频评论数据和药效反馈数据获取;基于直播视频保健品评论和保健品药效反馈数据,判别虚假保健品真实性;
所述保健品直播视频评论数据和药效反馈数据获取,具体包括:
根据保健品直播视频中关于直播者保健品描述视频或音频,获取保健品直播视频中的保健品名称;使用抽样调查的方法,获取被调查人群对所述保健品名称对应的保健品的药效反馈,根据老年、中年、少年人群设置抽样比例为1:1:1,抽样人数为设定的阈值人数;根据所述抽样比例及所述设定的阈值人数投放问卷并获取问卷调查结果,将所述问卷调查结果保存在公众保健品药效反馈数据中;通过Scrapy爬虫框架对网络中该保健品名称评论数据进行爬取,通过引擎发送请求给调度器,调度器进行入队、出队,调度器调用下载器发送请求和报到发送给爬虫进行爬取,利用item对爬取的保健品评论数据进行爬取;使用爬虫分别爬取保健品使用效果、保健品临床效果、保健品药效,获取保健品评论的数据,将保健品评论的数据保存在网络保健品评论数据中;
所述基于直播视频保健品评论和保健品药效反馈数据,判别虚假保健品真实性,具体包括:
调用保健品评论数据库中公众保健品药效反馈数据和网络保健品评论数据,对保健品评论数据进行筛选和清洗;获取公众保健品药效反馈评分统计模型,统计保健品评论数据库中公众保健品药效反馈数据的好坏数量;通过公众保健品药效反馈数据库存储的公众保健品药效反馈数据确定第一评价指标,实时输入保健品评论数据库中公众保健品药效反馈数据,输出第一评价指标的评分;获取网络保健品评论评分统计模型,统计保健品评论数据库中网络保健品评论数据的好坏数量;通过网络保健品评论数据库存储的网络保健品评论数据确定第二评价指标,实时输入保健品使用效果、保健品临床效果报告、保健品药效信息数据,输出第二评价指标的评分;获取网络保健品评论评判模型和公众保健品药效反馈评判模型,所述的网络保健品评论评判模型和公众保健品药效反馈评判模型中的评分达到设定的评分指标,分别输出优秀和差的评价指标;综合药物评论数据库,输出两个评价指标中存在两个优秀则满足评价指标,则直播者直播保健品是真实。
5.根据权利要求1所述的方法,其中,所述基于直播视频保健品数据分析,构建保健品评价模型,包括:
将直播药物视频或者音频信息转化为直播者描述保健品的文本信息;利用直播者描述保健品的文本信息提取直播中保健品的名称;针对直播者视频中保健品名称从保健品的夸大性、保健品的差异性、保健品的可靠性,构建保健品评分模型;保健品评分模型基于保健品的有效期、保健品的组成成分、保健品的主治功能药效、保健品的注意事项、同类保健品药效时间、同类保健品的组成成份分析、同类保健品的主治功能、保健品的相关证明文件、批准文号、保健品的执行标准、保健品产地地址、保健品的经营证书分析保健品的夸大性、保健品的差异性、保健品的可靠性,判断直播中的保健品是否为虚假保健品;根据保健品的文本信息对保健品夸大性、差异性和可靠性进行模型指标评级,所述的模型指标评级具备夸大性、差异性、可靠性,输出直播视频为虚假保健品;设置保健品指标判断模型规则,所述保健品指标判断模型规则包括根据是否具备保健品的夸大性、差异性和可靠性,判定判断直播视频中是否为虚假保健品包括:基于直播视频保健品描述夸大效果数据,识别直播视频中虚假保健品夸大性;基于直播视频同类保健品功效对比数据,识别直播视频中虚假保健品差异性;基于直播视频保健品相关证明文件数据,识别直播视频中虚假保健品可靠性;
所述基于直播视频保健品描述夸大效果数据,识别直播视频中虚假保健品夸大性,具体包括:
通过直播者保健品视频直播的保健品语言描述文本,提取视频中关于保健品的名称;根据保健品的名称,从直播的海报或者直播的广告中获取关于保健品有效期、保健品组成成份、保健品主治功能、保健品注意事项文本信息,保存在测试保健品文本文件中;使用newapaper爬虫从保健品说明书和保健品生产企业官网发布的关于保健品的信息中提取关于该保健品名称的相关信息,从保健品网站上查找关于该保健品信息,生成对照标准保健品文本文件;使用对照法对比保健品的有效期、保健品的组成成份、保健品的主治功效、保健品注意事项保健品内容中文本信息的区别和差异,通过测试保健品文本文件内容和对照标准保健品文本文件保健品信息对比;根据Q=(w1Xmax)/wX100%公式,w1为测试保健品文本文件,max为对照值文本参数为0.6,w为对照标准保健品文本文件,通过检测测试保健品文本内容和对照标准保健品文本内容对照,根据不同的文本占总文本的比例,输入描述文本信息,输出相同或者不同,即可判断直播视频中保健品是否具有夸大性;
所述基于直播视频同类保健品功效对比数据,识别直播视频中虚假保健品差异性,具体包括:
通过直播者保健品视频直播的保健品语言描述文本,提取视频中关于保健品的名称;根据的保健品名称使用Portia爬虫,提取保健品的主治功效、保健品的组成成分、保健品的注意事项方面的信息;根据主治功效、保健品的组成成分、保健品的注意事项方面的信息,获取相似保健品文本信息;将相似保健品文本信息转化为数据参数,使用多重比较法中的LSD最小显著差数法处理k(k-1)/2个多重数据量,其中k代表处理同类保健品文本信息数据维度,利用方差齐性和正态分布等条件直观得出多种同类保健品中不同保健品效果的参数对比;根据正态分布图像,通过极端和非极端的正态分布图像,判断直播保健品和同类虚假保健品是否具备差异性;
所述基于直播视频保健品相关证明文件数据,识别直播视频中虚假保健品可靠性,具体包括:
通过直播者保健品视频直播的保健品描述文本,提取视频中关于保健品的名称;根据获取的保健品名称,使用Crawley爬虫从保健品的相关证明文件、保健品的批准文号、保健品的执行标准、保健品的专利信息、保健品产地、保健品的营业证书方面提取标准证明文件数据;通过直播视频中保健品描述文本数据提取证明文件文本信息,根据标准证明文件数据对比证明文件文本数据,判断保健品的相关证明文件是否具备可靠性。
6.根据权利要求1所述的方法,其中,所述根据直播视频保健品评价指标模型,预测虚假保健品,包括:
直播视频保健品评价指标模型,由保健品评论和保健品药效反馈数据分析和直播保健品数据分析组成;分别从直播视频中公众保健品药效反馈评论数据库、网络保健品评论数据库、直播保健品的夸大性、差异性和真实性方面,预测直播视频中虚假保健品;通过对数据处理清洗,将数据格式转换和统一数据格式为数据评分百分制的格式,将处理清洗后的数据用于保健品评论数据库和保健品评分模型;利用深度学习中RNN网络模型对新数据格式转化为不同维度维度的数据,建立评分机制,对不同药物评论维度的数据创建评分机制并设置一定的比例权重,对直播视频中保健品评分按权重比例的分数,将各个权重所有分数全部相加求和加,总分数为该直播视频中虚假保健品的置信度;根据置信度的高低,预测直播视频中的虚假保健品。
7.根据权利要求1所述的方法,其中,所述综合保健品直播视频数据,鉴定虚假保健品,包括:
根据保健品直播视频中的直播者、直播推荐者和保健品评论数据,综合鉴定保健品直播视频中虚假保健品;根据第一权威度评价指标中直播者推荐者权威性,分别对直播者权威的满意度、权威的准确度、权威的影响力进行判定,创建直播推荐者评价模型;根据第二权威度评价指标中直播者保健品描述的专业性数据、保健品描述的严谨性数据、保健品描述的表达熟练度数据创建直播者评价模型;建立直播者评价模型、直播推荐者评价模型和保健品评价模型,分别对直播者数据、直播推荐者数据、保健品数据,综合进行分析处理,使用神经网络中的resnet网络构建综合评价模型,利用metrics中的各种指标对模型进行调参和调优,达到最佳的综合评价指标;根据上述的综合评价,输入直播保健品的视频,通过模型评价,输出是否含有虚假保健品。
CN202210924872.1A 2022-08-03 2022-08-03 一种直播保健品的智能打假技术与方法 Withdrawn CN115222431A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210924872.1A CN115222431A (zh) 2022-08-03 2022-08-03 一种直播保健品的智能打假技术与方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210924872.1A CN115222431A (zh) 2022-08-03 2022-08-03 一种直播保健品的智能打假技术与方法

Publications (1)

Publication Number Publication Date
CN115222431A true CN115222431A (zh) 2022-10-21

Family

ID=83616116

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210924872.1A Withdrawn CN115222431A (zh) 2022-08-03 2022-08-03 一种直播保健品的智能打假技术与方法

Country Status (1)

Country Link
CN (1) CN115222431A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116401339A (zh) * 2023-06-07 2023-07-07 北京百度网讯科技有限公司 数据处理方法、装置、电子设备、介质以及程序产品

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116401339A (zh) * 2023-06-07 2023-07-07 北京百度网讯科技有限公司 数据处理方法、装置、电子设备、介质以及程序产品

Similar Documents

Publication Publication Date Title
Kramer An unobtrusive behavioral model of" gross national happiness"
US8442923B2 (en) Temporal document trainer and method
US20170213469A1 (en) Digital media content extraction and natural language processing system
Haque et al. Deep learning for suicide and depression identification with unsupervised label correction
Spinde et al. MBIC--A Media Bias Annotation Dataset Including Annotator Characteristics
CN104636408B (zh) 基于用户生成内容的新闻认证预警方法及系统
CN106547875B (zh) 一种基于情感分析和标签的微博在线突发事件检测方法
CN111309936A (zh) 一种电影用户画像的构建方法
Miani et al. LOCO: The 88-million-word language of conspiracy corpus
Cochrane et al. The automatic analysis of emotion in political speech based on transcripts
CN107077640A (zh) 经由经验归属来分析、资格化和摄取非结构化数据源的系统和处理
Chung et al. Text-mining open-ended survey responses using structural topic modeling: a practical demonstration to understand parents’ coping methods during the COVID-19 pandemic in Singapore
CN110704615B (zh) 互联网金融非显性广告识别方法及装置
CN115222431A (zh) 一种直播保健品的智能打假技术与方法
Trye et al. Harnessing Indigenous Tweets: The Reo Māori Twitter corpus
Wegrzyn-Wolska et al. Tweets mining for French presidential election
CN111274354B (zh) 一种裁判文书结构化方法及装置
CN116913549A (zh) 不良反应事件预警方法、装置、系统和电子设备
Li Detecting false information in medical and healthcare domains: a text mining approach
Grace et al. Artist ranking through analysis of on-line community comments
Shah et al. Twitters’ concerns and opinions about the COVID-19 booster shots: infoveillance study
Volkanovska et al. The insightsnet climate change corpus (iccc) compiling a multimodal corpus of discourses in a multi-disciplinary domain
Volkanovska et al. The InsightsNet Climate Change Corpus (ICCC)
JP2011043908A (ja) 番組検索装置および番組検索プログラム
CN114896522B (zh) 多平台信息疫情风险评估方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20221021