CN112581167A - 一种广告大数据感知识别存储终端 - Google Patents
一种广告大数据感知识别存储终端 Download PDFInfo
- Publication number
- CN112581167A CN112581167A CN202011456272.4A CN202011456272A CN112581167A CN 112581167 A CN112581167 A CN 112581167A CN 202011456272 A CN202011456272 A CN 202011456272A CN 112581167 A CN112581167 A CN 112581167A
- Authority
- CN
- China
- Prior art keywords
- module
- advertisement
- text
- big data
- content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008447 perception Effects 0.000 title claims abstract description 31
- 238000000034 method Methods 0.000 claims abstract description 32
- 230000003993 interaction Effects 0.000 claims abstract description 27
- 230000008569 process Effects 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 16
- 230000002452 interceptive effect Effects 0.000 claims description 10
- 230000000694 effects Effects 0.000 abstract description 18
- 238000012544 monitoring process Methods 0.000 abstract description 11
- 230000006399 behavior Effects 0.000 abstract description 6
- 238000004891 communication Methods 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 22
- 238000006243 chemical reaction Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000003252 repetitive effect Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0277—Online advertisement
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Finance (AREA)
- Artificial Intelligence (AREA)
- Strategic Management (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Health & Medical Sciences (AREA)
- Game Theory and Decision Science (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Economics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及广告大数据技术领域,具体涉及一种广告大数据感知识别存储终端,包括信息模块、识别模块、大数据模块和交互模块;由于在网络平台的多用户交流环境下,存有一些用户利用平台流量发送文字广告的行为,影响到网络平台规范的同时破坏了普通用户的使用体验;故此,本发明通过设置在网络平台中的信息模块对用户的发布的内容进行监测,运用对信息参数化感知的方法对用户的发言文本与设定的信息阈值进行比较筛选,增强了对用户发言内容的监测效率,并通过交互模块将感知识别的内容与大数据模块中存储的广告数据进行再次比对,确保对发布广告内容用户判定的准确率,从而提升了广告大数据感知识别存储终端的运行效果。
Description
技术领域
本发明涉及广告大数据技术领域,具体涉及一种广告大数据感知识别存储终端。
背景技术
广告,顾名思义,就是广而告之,向社会广大公众告知某件事物;其中非经济广告是指不以营利为目的的广告,如公告、启事和声明等,经济广告是指以营利为目的的广告,通常是商业广告,它是为推销商品或提供服务,以付费方式通过广告媒体向消费者或用户传播商品或服务信息的手段;随网络的发展,人们会接受到大量的信息,同时在网络平台的使用过程中,平台用户间文字交互的方式易受到广告的干扰。
在网络平台的多用户交流环境下,集聚有较高人气流量的同时,其中存有的一些用户利用平台流量发送文字广告的行为,且其广告常在短时间内发布大量重复性内容,影响到网络平台规范的同时破坏了普通用户的使用体验。
现有技术中也出现了一些关于广告大数据感知识别存储终端的技术方案,如申请号为2018100318718的一项中国专利公开了一种广告库建立方法、广告数据识别方法及存储介质,广告库建立方法包括以下步骤:接收语料,按照用户粒度存储第一数量的语料;计算存储的第一数量的语料的信息熵;以及在计算的信息熵的数值低于预定阈值时,将所述语料或所述语料的主干放入广告库中;该技术方案提供的方法采用熵模型对语料进行分类,能够从每个用户所发消息中抓取广告消息,不用人工对数据标记、筛选便可快速准确的对大量数据进行挖掘,筛选出需要的数据加入广告库;但是该技术方案中未解决广告语句在模糊化的谐音、插入字符及拆字处理后,改变其信息熵参数,进而摆脱了被识别的问题,限制了其广告库的运行效果。
鉴于此,为了克服上述技术问题,本发明据此提出了一种广告大数据感知识别存储终端,采用了特殊的广告大数据感知识别存储终端,解决了上述技术问题。
发明内容
为了弥补现有技术的不足,本发明提出了一种广告大数据感知识别存储终端,通过设置在网络平台中的信息模块对用户的发布的内容进行监测,运用对信息参数化感知的方法对用户的发言文本与设定的信息阈值进行比较筛选,进而减小了识别模块所需的运行量,增强了对用户发言内容的监测效率,并通过交互模块将感知识别的内容与大数据模块中存储的广告数据进行再次比对,确保对发布广告内容用户判定的准确率,从而提升了广告大数据感知识别存储终端的运行效果。
本发明所述的一种广告大数据感知识别存储终端,包括信息模块、识别模块、大数据模块和交互模块;所述信息模块用于对产生的文本内容进行记录,并将其传送至识别模块中,通过识别模块中的预设的广告库字词内容,对信息模块记录的文本进行识别,然后把对文本识别的结果上传至大数据模块中;所述大数据模块通过与大量文本的比对判断广告库字词在文本中起到的含义,避免对文本中涉及广告库字词的内容产生错误判断;所述交互模块将大数据模块中的广告库更新至终端的识别模块中,在识别模块的终端直接对文本内容进行判断;
其中,所述信息模块中设定有信息阈值参数P,用来记录单位时间内标记用户甲的发言数占总发言数的频率X,单位时间内标记用户甲的发言文本内容的重复率Y,单位时间内标记用户甲之外的其他用户间发言的相似率Z;所述信息模块根据设定的参数P值判断与XY的和值大小,再判断Y与Z值间的大小,将文本感知为广告并传输至识别模块中;
所述识别模块将收到的文本内容进行分析,读取其中的广告关键词,与大数据模块中的广告库内容进行比对,对广告文本进行分类,提高同类别下的文本识别率,并将其识别为广告用户;
工作时,在网络平台的多用户交流环境下,集聚有较高人气流量的同时,存有一些用户利用平台流量发送文字广告的行为,且其广告常在短时间内发布大量重复性内容,影响到网络平台规范的同时破坏了普通用户的使用体验;因此,本发明通过设置的信息模块监测用户的发言情况,并通过对标记的单个用户占所有用户发言数的频率X,X的取值在0-100%范围内,并对其发布的内容进行进一步的分析,判断其单位时间内发言内容文字的重复率Y,Y为多次发言中单个文字所占百分比的相似率,Y的取值在0-100%范围内,并将X与Y的值进行累加,用来与设定值P的大小进行判断,其中P值设置为0.5,并对标记用户之外其他用户的发言相似率Z进行记录,在Z大于30%后,将信息模块中的记录文本传输至识别模块中,通过识别模块将文本信息拆分位关键词形式的组合,并通过交互模块与大数据模块中存储的广告库字词数据进行比对,进而判定其文本为确认的广告数据,反馈至信息模块所处的终端中,对用户违规发布广告的行为进行屏蔽及处理;本发明利用了设置在网络平台中的信息模块对用户的发布的内容进行监测,运用对信息参数化感知的方法对用户的发言文本与设定的信息阈值进行比较筛选,进而减小了识别模块所需的运行量,增强了对用户发言内容的监测效率,并通过交互模块将感知识别的内容与大数据模块中存储的广告数据进行再次比对,确保对发布广告内容用户判定的准确率,从而提升了广告大数据感知识别存储终端的运行效果。
优选的,该终端的运行步骤如下:
S1、感知:信息模块对用户的发言文本进行监测,并记录其单位时间内发言的频次与相似程度,在满足所设定参数的阈值后,将其用户发言的文本信息传输至识别模块中;通过信息模块中设定的信息参数阈值,减少信息模块对正常用户的发言进行不必要的记录;
S2、识别:识别模块在接收到S1中信息模块的数据后,将其中的文本信息拆分成单字的格式,以分析单字在用户发言文本中的出现频次,并以单字的形式与大数据模块中广告库的字词内容相比较;通过拆字的方式确保发言文本中的字词与大数据模块中广告库字词的匹配程度,进而维持其终端运行的稳定性;
S3、判断;在S2中的比对过程中,进一步将S1中传输发言文本的用户与其同时间内其他用户发言的相似率作比较,判断其文本内容的广告性质;通过比对用户间发言文本的相似性,避免其在网络互动状态下产生统一互动内容的情况被误判为广告文本,从而增强了其终端运行的准确率;
S4、存储:将S3及S2中判断识别的广告文本内容与大数据模块中的广告库相比较,存储其中未路的文本内容,更新其广告库的字词;通过对广告库内容的更新,保持识别模块对广告内容的判定效率;
S5、交互:交互模块根据S1和S2中感知识别的高频广告文本,直接将S3和S4中大数据模块存储的广告库字词与不同用户发言间的比对文本的情况传输至信息模块中,以便于信息模块在后续运行过程中直接进行广告文本的判定;通过交互模块提升信息模块对感知到广告文本的判定的准确性,以确终端对感知到广告的处理效率。
优选的,所述识别模块将信息模块中的文本一转化为拼音标注格式的文本二,并把拼音格式文本二的内容返回至信息模块中进行感知;同时对文本二中拼音的韵母进行模糊化处理,降低其在统计频率中的权重;工作时,广告用户在针对监测作用的信息模块同样会产生策略升级,比如将广告内容的文字进行谐音化处理,以降低其发布文字内容的重复率,进而逃避终端的监测,并在广告文本谐音化转换的过程中,对其中起辅助发音的韵母进行替换,在不影响拼音读出时主要声音的同时,进一步降低被现有谐音化识别功能监测出的情况;本发明通过设置在识别模块中的文本拼音化转换功能,将广告文本内容的拼音化数据与大数据模块中广告库记录字词的拼音化标注进行比对,防止对广告文本内容的误判,并通过降低拼音标注中作辅助发音的韵母在统计中的频率占比,维持其中占字词的拼音标注所传达读音的实际状况,避免对拼音韵母化拟声词的替换,而躲避识别模块的判断作用,从而提升了广告大数据感知识别存储终端的运行效果。
优选的,所述识别模块还对信息模块中文本一含有的字符进行删减,将其转化为文本三与大数据模块中的广告库字词进行比对;工作时,发布的广告中还通过在文字间插入字符,来消除被识别模块与大数据模块中广告库字词所判定出来的情况,而字符与文字间的差异在被用户阅读时会进行省略,不影响广告自身发挥的效果;通过设置在识别模块中的字符删减功能,对文本中插入的字符进行识别并删除,将其转换为用户阅读过程中所获取的文本内容,并与大数据模块中的广告库字词进行识别,维持对广告文本判断的准确性,从而提升了广告大数据感知识别存储终端的运行效果。
优选的,所述识别模块还对文本内容进行象形化处理,将文本中涉及到偏旁部首的单个文字之间进行组合,判断其是否能形成新的文字,并对组合后的文本内容进行识别;工作时,针对文本中的文字及其读音进行的重复性检测,容易被发布的广告内容进行避免,将左右结构文字拆分为偏旁部首的方式,一方面改变了文本内容被识别的概率并脱离了在大数据模块中广告库的字词范围,另一方面能够保持偏旁部首所组合文字的阅读效果;通过设置在识别模块中的象形化组合功能,对文字中出现偏旁部首的字形进行标示,并通过其形状与相邻的文字进行组合,获得拆分前左右结构的文字,并与大数据模块中的广告库字词相比对,判定其文本内容是否属于广告性质,从而提升了广告大数据感知识别存储终端的运行效果。
优选的,所述交互模块将识别模块中进行处理文本信息的程序砖转移至大数据模块中,通过大数据模块对识别模块中的文本内容进行判定;工作时,针对广告监测方式中多种的音像化处理方法,在增强了终端对广告感知识别效率的同时,也极大的增加了终端识别模块中所需的识别方法,且在信息模块对用户发言内容进行记录感知的前提下,极大的增加了终端模块运行过程的负载,不利于其对广告识别功能的推广;通过设置的交互模块将识别模块运行时所需计算过程的数据传输至大数据模块中进行处理,降低了终端模块的负载压力,并减少了识别模块所需功能的运载压力,增强了交互模块的应用性,从而提升了广告大数据感知识别存储终端的运行效果。
本发明的有益效果如下:
1.本发明通过设置在网络平台中的信息模块对用户的发布的内容进行监测,运用对信息参数化感知的方法对用户的发言文本与设定的信息阈值进行比较筛选,增强了对用户发言内容的监测效率,并通过交互模块将感知识别的内容与大数据模块中存储的广告数据进行再次比对,确保对发布广告内容用户判定的准确率。
2.本发明通过设置在识别模块中的文本拼音化转换功能,将广告文本内容的拼音化数据与大数据模块中广告库记录字词的拼音化标注进行比对;对文本中插入的字符进行识别并删除,将其转换为用户阅读过程中所获取的文本内容;对文字中出现偏旁部首的字形进行标示,获得拆分前左右结构的文字,并与大数据模块中的广告库字词相比对,判定其文本内容是否属于广告性质。
附图说明
下面结合附图和实施方式对本发明进一步说明。
图1是本发明中广告大数据感知识别存储终端运行步骤的流程图;
具体实施方式
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本发明。
如图1所示,本发明所述的一种广告大数据感知识别存储终端,包括信息模块、识别模块、大数据模块和交互模块;所述信息模块用于对产生的文本内容进行记录,并将其传送至识别模块中,通过识别模块中的预设的广告库字词内容,对信息模块记录的文本进行识别,然后把对文本识别的结果上传至大数据模块中;所述大数据模块通过与大量文本的比对判断广告库字词在文本中起到的含义,避免对文本中涉及广告库字词的内容产生错误判断;所述交互模块将大数据模块中的广告库更新至终端的识别模块中,在识别模块的终端直接对文本内容进行判断;
其中,所述信息模块中设定有信息阈值参数P,用来记录单位时间内标记用户甲的发言数占总发言数的频率X,单位时间内标记用户甲的发言文本内容的重复率Y,单位时间内标记用户甲之外的其他用户间发言的相似率Z;所述信息模块根据设定的参数P值判断与XY的和值大小,再判断Y与Z值间的大小,将文本感知为广告并传输至识别模块中;
所述识别模块将收到的文本内容进行分析,读取其中的广告关键词,与大数据模块中的广告库内容进行比对,对广告文本进行分类,提高同类别下的文本识别率,并将其识别为广告用户;
工作时,在网络平台的多用户交流环境下,集聚有较高人气流量的同时,存有一些用户利用平台流量发送文字广告的行为,且其广告常在短时间内发布大量重复性内容,影响到网络平台规范的同时破坏了普通用户的使用体验;因此,本发明通过设置的信息模块监测用户的发言情况,并通过对标记的单个用户占所有用户发言数的频率X,X的取值在0-100%范围内,并对其发布的内容进行进一步的分析,判断其单位时间内发言内容文字的重复率Y,Y为多次发言中单个文字所占百分比的相似率,Y的取值在0-100%范围内,并将X与Y的值进行累加,用来与设定值P的大小进行判断,其中P值设置为0.5,并对标记用户之外其他用户的发言相似率Z进行记录,在Z大于30%后,将信息模块中的记录文本传输至识别模块中,通过识别模块将文本信息拆分位关键词形式的组合,并通过交互模块与大数据模块中存储的广告库字词数据进行比对,进而判定其文本为确认的广告数据,反馈至信息模块所处的终端中,对用户违规发布广告的行为进行屏蔽及处理;本发明利用了设置在网络平台中的信息模块对用户的发布的内容进行监测,运用对信息参数化感知的方法对用户的发言文本与设定的信息阈值进行比较筛选,进而减小了识别模块所需的运行量,增强了对用户发言内容的监测效率,并通过交互模块将感知识别的内容与大数据模块中存储的广告数据进行再次比对,确保对发布广告内容用户判定的准确率,从而提升了广告大数据感知识别存储终端的运行效果。
作为本发明的一种实施方式,该终端的运行步骤如下:
S1、感知:信息模块对用户的发言文本进行监测,并记录其单位时间内发言的频次与相似程度,在满足所设定参数的阈值后,将其用户发言的文本信息传输至识别模块中;通过信息模块中设定的信息参数阈值,减少信息模块对正常用户的发言进行不必要的记录;
S2、识别:识别模块在接收到S1中信息模块的数据后,将其中的文本信息拆分成单字的格式,以分析单字在用户发言文本中的出现频次,并以单字的形式与大数据模块中广告库的字词内容相比较;通过拆字的方式确保发言文本中的字词与大数据模块中广告库字词的匹配程度,进而维持其终端运行的稳定性;
S3、判断;在S2中的比对过程中,进一步将S1中传输发言文本的用户与其同时间内其他用户发言的相似率作比较,判断其文本内容的广告性质;通过比对用户间发言文本的相似性,避免其在网络互动状态下产生统一互动内容的情况被误判为广告文本,从而增强了其终端运行的准确率;
S4、存储:将S3及S2中判断识别的广告文本内容与大数据模块中的广告库相比较,存储其中未路的文本内容,更新其广告库的字词;通过对广告库内容的更新,保持识别模块对广告内容的判定效率;
S5、交互:交互模块根据S1和S2中感知识别的高频广告文本,直接将S3和S4中大数据模块存储的广告库字词与不同用户发言间的比对文本的情况传输至信息模块中,以便于信息模块在后续运行过程中直接进行广告文本的判定;通过交互模块提升信息模块对感知到广告文本的判定的准确性,以确终端对感知到广告的处理效率。
作为本发明的一种实施方式,所述识别模块将信息模块中的文本一转化为拼音标注格式的文本二,并把拼音格式文本二的内容返回至信息模块中进行感知;同时对文本二中拼音的韵母进行模糊化处理,降低其在统计频率中的权重;工作时,广告用户在针对监测作用的信息模块同样会产生策略升级,比如将广告内容的文字进行谐音化处理,以降低其发布文字内容的重复率,进而逃避终端的监测,并在广告文本谐音化转换的过程中,对其中起辅助发音的韵母进行替换,在不影响拼音读出时主要声音的同时,进一步降低被现有谐音化识别功能监测出的情况;本发明通过设置在识别模块中的文本拼音化转换功能,将广告文本内容的拼音化数据与大数据模块中广告库记录字词的拼音化标注进行比对,防止对广告文本内容的误判,并通过降低拼音标注中作辅助发音的韵母在统计中的频率占比,维持其中占字词的拼音标注所传达读音的实际状况,避免对拼音韵母化拟声词的替换,而躲避识别模块的判断作用,从而提升了广告大数据感知识别存储终端的运行效果。
作为本发明的一种实施方式,所述识别模块还对信息模块中文本一含有的字符进行删减,将其转化为文本三与大数据模块中的广告库字词进行比对;工作时,发布的广告中还通过在文字间插入字符,来消除被识别模块与大数据模块中广告库字词所判定出来的情况,而字符与文字间的差异在被用户阅读时会进行省略,不影响广告自身发挥的效果;通过设置在识别模块中的字符删减功能,对文本中插入的字符进行识别并删除,将其转换为用户阅读过程中所获取的文本内容,并与大数据模块中的广告库字词进行识别,维持对广告文本判断的准确性,从而提升了广告大数据感知识别存储终端的运行效果。
作为本发明的一种实施方式,所述识别模块还对文本内容进行象形化处理,将文本中涉及到偏旁部首的单个文字之间进行组合,判断其是否能形成新的文字,并对组合后的文本内容进行识别;工作时,针对文本中的文字及其读音进行的重复性检测,容易被发布的广告内容进行避免,将左右结构文字拆分为偏旁部首的方式,一方面改变了文本内容被识别的概率并脱离了在大数据模块中广告库的字词范围,另一方面能够保持偏旁部首所组合文字的阅读效果;通过设置在识别模块中的象形化组合功能,对文字中出现偏旁部首的字形进行标示,并通过其形状与相邻的文字进行组合,获得拆分前左右结构的文字,并与大数据模块中的广告库字词相比对,判定其文本内容是否属于广告性质,从而提升了广告大数据感知识别存储终端的运行效果。
作为本发明的一种实施方式,所述交互模块将识别模块中进行处理文本信息的程序砖转移至大数据模块中,通过大数据模块对识别模块中的文本内容进行判定;工作时,针对广告监测方式中多种的音像化处理方法,在增强了终端对广告感知识别效率的同时,也极大的增加了终端识别模块中所需的识别方法,且在信息模块对用户发言内容进行记录感知的前提下,极大的增加了终端模块运行过程的负载,不利于其对广告识别功能的推广;通过设置的交互模块将识别模块运行时所需计算过程的数据传输至大数据模块中进行处理,降低了终端模块的负载压力,并减少了识别模块所需功能的运载压力,增强了交互模块的应用性,从而提升了广告大数据感知识别存储终端的运行效果。
工作时,通过设置的信息模块监测用户的发言情况,并通过对标记的单个用户占所有用户发言数的频率X,X的取值在0-100%范围内,并对其发布的内容进行进一步的分析,判断其单位时间内发言内容文字的重复率Y,Y为多次发言中单个文字所占百分比的相似率,Y的取值在0-100%范围内,并将X与Y的值进行累加,用来与设定值P的大小进行判断,其中P值设置为0.5,并对标记用户之外其他用户的发言相似率Z进行记录,在Z大于30%后,将信息模块中的记录文本传输至识别模块中,通过识别模块将文本信息拆分位关键词形式的组合,并通过交互模块与大数据模块中存储的广告库字词数据进行比对,进而判定其文本为确认的广告数据,反馈至信息模块所处的终端中,对用户违规发布广告的行为进行屏蔽及处理;设置在识别模块中的文本拼音化转换功能,将广告文本内容的拼音化数据与大数据模块中广告库记录字词的拼音化标注进行比对,防止对广告文本内容的误判,并通过降低拼音标注中作辅助发音的韵母在统计中的频率占比,维持其中占字词的拼音标注所传达读音的实际状况,避免对拼音韵母化拟声词的替换,而躲避识别模块的判断作用;设置在识别模块中的字符删减功能,对文本中插入的字符进行识别并删除,将其转换为用户阅读过程中所获取的文本内容,并与大数据模块中的广告库字词进行识别,维持对广告文本判断的准确性;设置在识别模块中的象形化组合功能,对文字中出现偏旁部首的字形进行标示,并通过其形状与相邻的文字进行组合,获得拆分前左右结构的文字,并与大数据模块中的广告库字词相比对,判定其文本内容是否属于广告性质;设置的交互模块将识别模块运行时所需计算过程的数据传输至大数据模块中进行处理,降低了终端模块的负载压力,并减少了识别模块所需功能的运载压力,增强了交互模块的应用性。
以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (6)
1.一种广告大数据感知识别存储终端,其特征在于:包括信息模块、识别模块、大数据模块和交互模块;所述信息模块用于对产生的文本内容进行记录,并将其传送至识别模块中,通过识别模块中的预设的广告库字词内容,对信息模块记录的文本进行识别,然后把对文本识别的结果上传至大数据模块中;所述大数据模块通过与大量文本的比对判断广告库字词在文本中起到的含义,避免对文本中涉及广告库字词的内容产生错误判断;所述交互模块将大数据模块中的广告库更新至终端的识别模块中,在识别模块的终端直接对文本内容进行判断;
其中,所述信息模块中设定有信息阈值参数P,用来记录单位时间内标记用户甲的发言数占总发言数的频率X,单位时间内标记用户甲的发言文本内容的重复率Y,单位时间内标记用户甲之外的其他用户间发言的相似率Z;所述信息模块根据设定的参数P值判断与XY的和值大小,再判断Y与Z值间的大小,将文本感知为广告并传输至识别模块中;
所述识别模块将收到的文本内容进行分析,读取其中的广告关键词,与大数据模块中的广告库内容进行比对,对广告文本进行分类,提高同类别下的文本识别率,并将其识别为广告用户。
2.根据权利要求1所述的一种广告大数据感知识别存储终端,其特征在于:该终端的运行步骤如下:
S1、感知:信息模块对用户的发言文本进行监测,并记录其单位时间内发言的频次与相似程度,在满足所设定参数的阈值后,将其用户发言的文本信息传输至识别模块中;
S2、识别:识别模块在接收到S1中信息模块的数据后,将其中的文本信息拆分成单字的格式,以分析单字在用户发言文本中的出现频次,并以单字的形式与大数据模块中广告库的字词内容相比较;
S3、判断;在S2中的比对过程中,进一步将S1中传输发言文本的用户与其同时间内其他用户发言的相似率作比较,判断其文本内容的广告性质;
S4、存储:将S3及S2中判断识别的广告文本内容与大数据模块中的广告库相比较,存储其中未路的文本内容,更新其广告库的字词;
S5、交互:交互模块根据S1和S2中感知识别的高频广告文本,直接将S3和S4中大数据模块存储的广告库字词与不同用户发言间的比对文本的情况传输至信息模块中,以便于信息模块在后续运行过程中直接进行广告文本的判定。
3.根据权利要求1所述的一种广告大数据感知识别存储终端,其特征在于:所述识别模块将信息模块中的文本一转化为拼音标注格式的文本二,并把拼音格式文本二的内容返回至信息模块中进行感知;同时对文本二中拼音的韵母进行模糊化处理,降低其在统计频率中的权重。
4.根据权利要求3所述的一种广告大数据感知识别存储终端,其特征在于:所述识别模块还对信息模块中文本一含有的字符进行删减,将其转化为文本三与大数据模块中的广告库字词进行比对。
5.根据权利要求4所述的一种广告大数据感知识别存储终端,其特征在于:所述识别模块还对文本内容进行象形化处理,将文本中涉及到偏旁部首的单个文字之间进行组合,判断其是否能形成新的文字,并对组合后的文本内容进行识别。
6.根据权利要求5所述的一种广告大数据感知识别存储终端,其特征在于:所述交互模块将识别模块中进行处理文本信息的程序砖转移至大数据模块中,通过大数据模块对识别模块中的文本内容进行判定。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011456272.4A CN112581167A (zh) | 2020-12-11 | 2020-12-11 | 一种广告大数据感知识别存储终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011456272.4A CN112581167A (zh) | 2020-12-11 | 2020-12-11 | 一种广告大数据感知识别存储终端 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112581167A true CN112581167A (zh) | 2021-03-30 |
Family
ID=75131484
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011456272.4A Pending CN112581167A (zh) | 2020-12-11 | 2020-12-11 | 一种广告大数据感知识别存储终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112581167A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113239304A (zh) * | 2021-04-30 | 2021-08-10 | 西安交通大学 | 一种广告处理方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102591983A (zh) * | 2012-01-10 | 2012-07-18 | 凤凰在线(北京)信息技术有限公司 | 一种广告过滤系统及其过滤方法 |
CN106847287A (zh) * | 2017-01-22 | 2017-06-13 | 陈海峰 | 文字阅读识别方法、用户端以及文字阅读识别系统 |
CN107657286A (zh) * | 2017-10-19 | 2018-02-02 | 北京深极智能科技有限公司 | 一种广告识别方法及计算机可读存储介质 |
CN110457597A (zh) * | 2019-08-08 | 2019-11-15 | 中科鼎富(北京)科技发展有限公司 | 一种广告识别方法及装置 |
-
2020
- 2020-12-11 CN CN202011456272.4A patent/CN112581167A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102591983A (zh) * | 2012-01-10 | 2012-07-18 | 凤凰在线(北京)信息技术有限公司 | 一种广告过滤系统及其过滤方法 |
CN106847287A (zh) * | 2017-01-22 | 2017-06-13 | 陈海峰 | 文字阅读识别方法、用户端以及文字阅读识别系统 |
CN107657286A (zh) * | 2017-10-19 | 2018-02-02 | 北京深极智能科技有限公司 | 一种广告识别方法及计算机可读存储介质 |
CN110457597A (zh) * | 2019-08-08 | 2019-11-15 | 中科鼎富(北京)科技发展有限公司 | 一种广告识别方法及装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113239304A (zh) * | 2021-04-30 | 2021-08-10 | 西安交通大学 | 一种广告处理方法 |
CN113239304B (zh) * | 2021-04-30 | 2023-03-28 | 西安交通大学 | 一种广告处理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1345394B1 (en) | Voice message processing system and method | |
EP1076329B1 (en) | Personality data mining method using a speech based dialog | |
CN101447185B (zh) | 一种基于内容的音频快速分类方法 | |
CN103700370A (zh) | 一种广播电视语音识别系统方法及系统 | |
CN109192194A (zh) | 语音数据标注方法、装置、计算机设备及存储介质 | |
CN103003876A (zh) | 修改经由声音通道的对话中的语音质量 | |
CN101154220A (zh) | 机器翻译装置和方法 | |
CN111899740A (zh) | 一种基于测试需求的语音识别系统众包测试用例生成方法 | |
CN113129866B (zh) | 语音处理方法、装置、存储介质及计算机设备 | |
CN110798578A (zh) | 一种来电事务管理方法、装置以及相关设备 | |
CN115186654B (zh) | 一种公文文本摘要生成方法 | |
CN109947934A (zh) | 针对短文本的数据挖掘方法及系统 | |
CN114418327A (zh) | 一种客服系统自动录单和智能派单方法 | |
CN112581167A (zh) | 一种广告大数据感知识别存储终端 | |
CN105957517A (zh) | 基于开源api的语音数据结构化转换方法及其系统 | |
CN116911869A (zh) | 一种基于人工智能的智能客服系统及其方法 | |
CN114722191A (zh) | 一种基于语义理解处理的通话自动聚类方法及系统 | |
CN117198338B (zh) | 一种基于人工智能的对讲机声纹识别方法及系统 | |
CN112364212A (zh) | 一种基于近似音识别的语音人名识别方法 | |
CN114564165A (zh) | 基于公共交通的文本、音频自适应方法、显示终端、系统 | |
CN115063155A (zh) | 一种数据标注方法、装置、计算机设备及存储介质 | |
CN114328907A (zh) | 用于预警风险升级事件的自然语言处理方法 | |
CN114255751A (zh) | 音频信息提取的方法、装置、电子设备及可读存储介质 | |
CN113094471A (zh) | 交互数据处理方法和装置 | |
CN113569153A (zh) | 图文内容的分类方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |