CN111507097A - 一种标题文本处理方法、装置、电子设备及存储介质 - Google Patents
一种标题文本处理方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN111507097A CN111507097A CN202010298474.4A CN202010298474A CN111507097A CN 111507097 A CN111507097 A CN 111507097A CN 202010298474 A CN202010298474 A CN 202010298474A CN 111507097 A CN111507097 A CN 111507097A
- Authority
- CN
- China
- Prior art keywords
- text
- character
- title
- vector
- title text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003860 storage Methods 0.000 title claims abstract description 26
- 238000003672 processing method Methods 0.000 title abstract description 20
- 239000013598 vector Substances 0.000 claims abstract description 206
- 238000013441 quality evaluation Methods 0.000 claims abstract description 137
- 238000012545 processing Methods 0.000 claims abstract description 83
- 230000011218 segmentation Effects 0.000 claims abstract description 71
- 230000004927 fusion Effects 0.000 claims abstract description 70
- 238000000034 method Methods 0.000 claims abstract description 69
- 238000011217 control strategy Methods 0.000 claims abstract description 10
- 238000011156 evaluation Methods 0.000 claims description 55
- 238000012549 training Methods 0.000 claims description 44
- 238000000605 extraction Methods 0.000 claims description 36
- 230000015654 memory Effects 0.000 claims description 17
- 238000012935 Averaging Methods 0.000 claims description 12
- 238000010606 normalization Methods 0.000 claims description 9
- 238000007499 fusion processing Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 description 28
- 238000010586 diagram Methods 0.000 description 20
- 238000004519 manufacturing process Methods 0.000 description 15
- 238000001914 filtration Methods 0.000 description 14
- 238000013527 convolutional neural network Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 10
- 238000012552 review Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 8
- 238000003062 neural network model Methods 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000012550 audit Methods 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 5
- 238000009826 distribution Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 230000035945 sensitivity Effects 0.000 description 3
- 208000001613 Gambling Diseases 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 239000002574 poison Substances 0.000 description 2
- 231100000614 poison Toxicity 0.000 description 2
- 241000218993 Begonia Species 0.000 description 1
- 241000218691 Cupressaceae Species 0.000 description 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000035939 shock Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及互联网技术领域,尤其涉及一种标题文本处理方法、装置、电子设备及存储介质,用以提高标题审核的效率。本申请实施例分别以不同的字符个数为分词单位,对待检测标题文本进行分词处理得到待检测标题文本对应的一组分词;针对每个分词,获得各分词中每个字符对应的字向量、文本向量以及位置向量,并确定每个字符对应的融合向量;根据各分词中每个字符对应的融合向量,获得待检测标题文本对应的标题文本质量评价信息;根据标题文本质量评价信息,对待检测标题文本执行相应的控制策略。由于本申请实施例提供的标题文本方法,可以通过机器自动执行标题文本质量的审核,提高审核效率,降低审核成本。
Description
技术领域
本申请涉及互联网技术领域,尤其涉及一种标题文本处理方法、装置、电子设备及存储介质。
背景技术
许多用户可以通过在自媒体应用上发布图文内容或者视频内容进行网络社交活动,自媒体应用将这些图文内容或者视频内容以信息流(feeds)的形式进行推送。
为了保证推送的图文内容或者视频内容的安全性,例如是否政治敏感、是否涉及黄赌毒等,从用户上传图文内容或者视频内容到自媒体应用推送图文内容或者视频内容的过程中,需要自媒体应用后台对用户上传的图文内容或者视频内容进行审核,通常对发布的内容从标题、封面、图文或视频的具体内容多个方面进行审核。其中,标题质量的审核是审核过程中至关重要的一环。
随着互联网的快速发展,图文内容以及视频内容的上传量大幅增长,但是目前上传内容的标题通常都是由人工进行审核,导致审核效率较低。
发明内容
本申请提供一种标题文本处理方法、装置、电子设备及存储介质,用以提高标题审核的效率。
第一方面,本申请提供了一种标题文本处理方法,包括:
分别以不同的字符个数为分词单位,对待检测标题文本进行分词处理得到待检测标题文本对应的一组分词,每个分词包括至少一个字符;
针对每个分词,获得各分词中每个字符对应的字向量、文本向量以及位置向量,并确定每个字符对应的融合向量;其中,字符的字向量用于表示字符的标识信息,字符的文本向量用于表示字符在所在分词中的语义信息,字符的位置向量用于表示字符在待检测文本和所在分词中的位置信息,字符的融合向量是对字符对应的字向量、文本向量以及位置向量进行融合处理得到的;
根据各分词中每个字符对应的融合向量,获得待检测标题文本对应的标题文本质量评价信息;
根据标题文本质量评价信息,对待检测标题文本执行相应的控制策略。
第二方面,本申请实施例提供一种标题文本处理装置,包括:
分词模块,用于分别以不同的字符个数为分词单位,对待检测标题文本进行分词处理得到待检测标题文本对应的一组分词,每个分词包括至少一个字符;
确定模块,用于针对每个分词,获得各分词中每个字符对应的字向量、文本向量以及位置向量,并确定每个字符对应的融合向量;其中,字符的字向量用于表示字符的标识信息,字符的文本向量用于表示字符在所在分词中的语义信息,字符的位置向量用于表示字符在待检测文本和所在分词中的位置信息,字符的融合向量是对字符对应的字向量、文本向量以及位置向量进行融合处理得到的;
获取模块,用于根据各分词中每个字符对应的融合向量,获得待检测标题文本对应的标题文本质量评价信息;
控制模块,用于根据标题文本质量评价信息,对待检测标题文本执行相应的控制策略。
第三方面,本申请实施例提供一种电子设备,包括:
至少一个处理器;以及
与至少一个处理器通信连接的存储器;其中,
存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本申请提供的标题文本处理方法。
第四方面,本申请实施例提供一种计算机可读介质,存储有计算机可执行指令,计算机可执行指令用于执行本申请提供的标题文本处理方法。
本申请实施例提供的技术方案至少带来以下有益效果:
基于本申请实施例的提供的标题文本方法,可以通过机器自动执行标题文本质量的审核,提高审核效率,降低审核成本;以及,本申请实施例中获取标题文本质量评价信息的过程中,通过待检测标题文本对应的各分词中每个字符对应的字向量、文本向量以及位置向量确定每个字符对应的融合向量,融合向量可以表示待检测标题文本中各分词中每个字符的语义特征信息,由于融合向量是根据字向量、文本向量以及位置向量确定的,所以本申请实施例中融合向量所包含的语义信息更丰富;此外,可以通过机器学习实现本申请实施例中获取标题文本质量评价信息的方法,使用正负标题文本样本训练后的神经网络模型具有获取标题文本样本的标题文本质量评价信息的能力,使用训练后的神经网络模型获取待检测标题文本对应的标题文本质量评价信息,准确度更高,效率更高。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理,并不构成对本申请的不当限定。
图1为本申请实施例提供的一种标题文本处理方法的应用场景示意图;
图2为本申请实施例提供的一种标题文本处理方法的流程图;
图3为本申请实施例提供的一种BERT网络获取各分词中每个字符对应的融合向量的示意图;
图4为本申请实施例提供的一种Fasttext模型获取待检测标题文本对应的标题文本质量评价信息的结构示意图;
图5为本申请实施例提供的一种标题文本处理方法的完整流程图;
图6为本申请实施例提供的一种标题文本处理系统框架图;
图7为本申请实施例提供的一种标题文本处理装置的结构示意图;
图8为本申请实施例提供的另一种标题文本处理装置的结构示意图;
图9为本申请实施例提供的一种电子设备的结构示意图;
图10为本申请实施例提供的一种计算装置的结构示意图。
具体实施方式
为了使本领域技术人员更好地理解本申请的技术方案,下面将结合附图,对本申请实施例中的技术方案进行清除、完整的描述。
需要说明的是,以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
以下,对本申请实施例中的部分用语进行解释说明,以便于本领域技术人员理解。
1、终端设备:为可以安装各类应用程序,并且能够将已安装的应用程序中提供的对象进行显示的设备,该终端设备可以是移动的,也可以是固定的。例如,手机、平板电脑、各类可穿戴设备、车载设备、个人数字助理(personal digital assistant,PDA)、销售终端(point of sales,POS)或其它能够实现上述功能的终端设备等。
2、用户:是指所有接受某一项产品服务的客体,不单指某一类人,泛指所有享受服务的客观事物,本申请实施例中用户可以指使用终端设备的人。
3、专业生产内容(Professional Generated Content,PGC):互联网术语,用来泛指个性化、视角多元化、传播民主化、社会关系虚拟化的内容。也称为PPC(Professionally-produced Content)。
4、用户生产内容(User Generate Content,UGC):互联网术语,包含专业生产内容以及非专业生产内容。
5、多渠道网络(Multi-Channel Network,MCN):是一种多频道网络的产品形态,将PGC内容联合起来,在资本的有力支持下,保障内容的持续输出,从而最终实现商业的稳定变现。
6、服务端:部署在多组服务器上、专门为终端应用程序提供远程网络服务的服务器程序。
7、Feeds:消息来源,又译为源料、馈送、资讯提供、供稿、摘要、源、新闻订阅、网源(web feed、news feed、syndicated feed)是一种资料格式,网站透过它将最新资讯传播给用户,通常以时间轴方式排列,时间线(Timeline)是Feed最原始最直觉也最基本的展示形式。用户能够订阅网站的先决条件是,网站提供了消息来源。将feed汇流于一处称为聚合(aggregation),而用于聚合的软体称为聚合器(aggregator)。对最终用户而言,聚合器是专门用来订阅网站的软件,一般亦称为RSS阅读器、feed阅读器、新闻阅读器等。
8、机器学习(Machine Learning,ML):是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
9、Transformer的双向编码器表示算法(Bidirectional EncoderRepresentationTransformers,BERT)模型:其通过联合调节所有层中的上下文来预先训练深度双向表示,在大量的句子级任务上实现了最先进的性能,强于许多面向特定任务体系架构的系统。
10、语义:语言所蕴含的信息就是语义。符号是语言的载体,符号本身没有意义,只有被赋予含义的符号才能够被使用,这时候语言被转化为信息,而语言的含义就是语义(Semantic)。
11、自然语言处理(NLP):是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。
12、短视频:即短片视频,是一种互联网内容传播方式,一般是在互联网新媒体上传播的时长在5分钟以内的视频传播内容。
13、循环神经网络(Recurrent Neural Network,RNN):是一类以序列(sequence)数据为输入,在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络(recursive neural network)。
长短期记忆网络(Long Short-Term Memory,LSTM):是一种时间循环神经网络,是为了解决一般的RNN存在的长期依赖问题而专门设计出来的。由于独特的设计结构,LSTM适合于处理和预测时间序列中间隔和延迟非常长的重要事件。
14、卷积神经网络(Convolutional Neural Networks,CNN),是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks),是深度学习的代表算法之一,具有表征学习(representation learning)能力,能够按其阶层结构对输入信息进行平移不变分类(shift-invariant classification)。
随着互联网技术的快速发展,内容(包括图文内容、视频内容)生产的门槛降低,内容上传量快速增长,这些内容包括各种内容创作机构生产的内容,比如PGC,UGC等。为了保证推送内容的安全性,需要在短时间内完成对内容的审核,比如内容是否涉及黄赌毒,是否涉及政治敏感性问题以及对内容的质量和安全性进行识别和处理。其中,可以从内容的标题、封面、图文或视频的具体内容多个维度进行审核。
用户在上传图文内容或者视频内容时,标题的选取至关重要。例如,针对视频内容,在将视频内容以Feeds流的形式推送给用户时,用户首先浏览到的是视频内容的标题、封面以及发布视频内容的账号,其中,标题是选择性阅读的抓手,是用户选择否观看该视频的重要因素。实际应用中,标题有如下作用:
1、画龙点睛,总结题旨:标题是内容的总结,可以让用户简明扼要的了解图文或者视频的内容;
2、增加点击率:标题的选取可以吸引用户的浏览兴趣,高质量的标题可以吸引用户的点击;
3、可以根据标题预测图文内容或者视频内容的受众用户,将图文内容或者视频内容推送给受众用户等。
随着内容上传量的增长,危言耸听或者夸大事实的标题越来越多,“标题党”产生了诸多不良影响,因此在对内容进行审核的过程中,标题的审核至关重要。本申请人对现有技术进行分析后发现,目前对内容审核的主要途径是通过人工进行审核,没有一个对标题高效审核的方法。但是,随着内容的上传量大幅增长,人工审核所需的人工成本增加,并且人工审核的效率较低。如果无法在短时间内完成对内容的审核,可能导致热门内容无法及时推送。
因此,本申请人考虑到提供一种标题文本处理方法,可通过机器自动执行,对图文内容或者视频内容的标题进行审核,提高审核效率,降低审核成本;此外,还可以在用户上传内容的过程中对用户创作内容的标题进行审核,若标题不符合要求,对发布低质量标题内容的作者进行引导,提示用户进行修改,提高用户上传内容的质量;同时在内容审核过程当中,将低质量标题的内容排序到审核队列末尾,在内容上传高峰时期能够确保高质量标题的内容先被调度和审核,对大量内容的发布能够提升审核的效率。
需要说明的是,本申请实施例提供的标题文本处理方法可以应用于对图文内容的标题、视频内容的标题、文本内容的标题、图集内容的标题等多种场景下的标题进行审核。
基于上述分析,本申请实施例提供一种标题文本处理方法,通过对待检测标题文本进行分词处理得到一组分词,再根据各分词中每个字符对应的字向量、文本向量以及位置向量确定每个字符对应的融合向量,并根据各分词中每个字符对应的融合向量,获得待检测标题文本对应的标题文本质量评价信息,根据标题文本质量评价信息对标题文本执行相应的控制策略。其中,本申请实施例中控制策略可以是在标题文本质量评价信息不符合规定时,提示标题文本对应的上传者修改标题文本;或者,本申请实施例中控制策略也可以是在标题文本质量评价信息符合规定时,将标题文本对应的图文内容或者视频内容以Feed流的形式推荐给用户等。
本申请实施例中确定待检测标题文本对应的标题文本质量评价信息的方法可以基于机器学习实现,通过内容标题审核过程中采集到的负标题文本样本以及正标题文本样本作为训练样本,对神经网络模型进行训练,使训练后的神经网络模型具有审核标题文本的能力。其中,本申请实施例中负标题文本样本为内容标题审核过程中采集到的需要打击和避免的细粒度低质量标题;正标题文本样本为内容标题审核过程中采集到的推荐反馈效果较好的高质量标题。
在介绍完本申请实施例的设计思想之后,下面对本申请实施例的技术方案能够适用的应用场景做一些简单介绍,需要说明的是,以下介绍的应用场景仅用于说明本申请实施例而非限定。在具体实施过程中,可以根据实际需要灵活地应用本申请实施例提供的技术方案。
图1为本申请实施例提供的一种标题文本处理方法的应用场景。包括用户10、终端设备11、服务器12。
终端设备11上安装有自媒体应用,用户10在通过终端设备11上安装的自媒体应用上传内容时,服务器12获取到用户10上传的内容的标题文本,对待检测标题文本进行分词处理得到一组分词,再根据各分词中每个字符对应的字向量、文本向量以及位置向量确定每个字符对应的融合向量,并根据各分词中每个字符对应的融合向量,获得待检测标题文本对应的标题文本质量评价信息。
服务器12在确定出待检测标题文本对应的标题文本质量评价信息后,一种可选的实施方式为,服务器12将待检测标题文本对应的标题文本质量评价信息返回给终端设备11上的自媒体应用,自媒体应用可以将待检测标题文本对应的标题文本质量评价信息呈现给用户。或者,服务器12在确定出待检测标题文本对应的标题文本质量评价信息后,另一种可选的实施方式为,服务器12根据标题文本质量评价信息对标题文本执行相应的控制策略;例如,在标题文本质量评价信息不符合规定时,生成提示用户10修改标题文本的提示页面参数,并将提示页面参数发送给终端设备11上的自媒体应用,服务器12在确定出待检测标题文本对应的标题文本质量评价信息后,一种可选的实施方式为,根据提示页面参数生成提示页面,提示用户10进行标题文本的修改。基于本申请实施例的提供的标题文本方法,可以通过机器自动执行标题文本质量的审核,提高审核效率,降低审核成本;以及,本申请实施例中获取标题文本质量评价信息的过程中,通过待检测标题文本对应的各分词中每个字符对应的字向量、文本向量以及位置向量确定每个字符对应的融合向量,融合向量可以表示待检测标题文本中各分词中每个字符的语义特征信息,由于融合向量是根据字向量、文本向量以及位置向量确定的,所以本申请实施例中融合向量所包含的语义信息更丰富;此外,可以通过机器学习实现本申请实施例中获取标题文本质量评价信息的方法,使用正负标题文本样本训练后的神经网络模型具有获取标题文本样本的标题文本质量评价信息的能力,使用训练后的神经网络模型获取待检测标题文本对应的标题文本质量评价信息,准确度更高,效率更高。
需要说明的是,终端设备11与服务器12之间通过网络进行通信连接,该网络可以为局域网、广域网等。终端设备11可以为便携设备(例如:手机、平板、笔记本电脑等),也可以为个人电脑(PC,Personal Computer),服务器12可以为任何能够提供互联网服务的设备。
下面对本申请实施例的技术方案进行进一步的介绍。需要说明的是,以下介绍的技术方案只是示例性的。
图2为本申请实施例提供的一种标题文本处理方法的流程图,该方法的具体实施流程如下:
在步骤S201中、分别以不同的字符个数为分词单位,对待检测标题文本进行分词处理得到待检测标题文本对应的一组分词;
其中,每个分词包括至少一个字符;
在步骤S202中、针对每个分词,获得各分词中每个字符对应的字向量、文本向量以及位置向量,并确定每个字符对应的融合向量;
其中,字符的字向量用于表示字符的标识信息,字符的文本向量用于表示字符在所在分词中的语义信息,字符的位置向量用于表示字符在待检测文本和所在分词中的位置信息,字符的融合向量是对字符对应的字向量、文本向量以及位置向量进行融合处理得到的;
在步骤S203中、根据各分词中每个字符对应的融合向量,获得待检测标题文本对应的标题文本质量评价信息;
在步骤S204中、根据标题文本质量评价信息,对待检测标题文本执行相应的控制策略。
本申请实施例提供的标题文本处理方法,在对待检测标题文本进行分词处理之前,还可以通过规则模型对待检测标题文本进行过滤处理,一种可选的实施方式为,将待检测标题文本与预设的过滤规则进行比较,判断待检测标题文本是否满足预设的过滤规则。
具体的,本申请实施例中提供的规则模型中所包含的预设的过滤规则可以是低质量标题文本符合规则,通过规则模型对待检测的标题文本进行过滤,若标题文本符合规则模型中的过滤规则,则可以直接将标题文本过滤,在自媒体应用显示界面上生成审核不通过的展示界面,提示待检测标题文本对应的内容的上传者进行标题的修改;若标题文本不符合规则模型中的过滤规则,则将标题文本作为待检测标题文本,通过机器学习的方式确定待检测标题文本对应的标题文本质量评价信息。
例如,规则模型中可以包含如下规则:敏感词/关键词检测(夸张,悬念,强迫式标题)、社交信息检测、错别字检测、标题语言、标题字数、标题格式形态检测。例如,某些业务需要标题文本字符数必须大于10,在对标题文本进行分词处理之前,通过该过滤规则对标题文本进行检测和过滤,若标题文本的字符数不大于10,则直接将该标题文本过滤掉,确定该标题文本不符合规则;若标题文本的字符数大于10,则将该标题文本作为待检测标题文本进行本申请实施例提供的标题文本处理方法。
本申请实施例规则模型中可以包含多个预设关键词,例如,“震惊”“惊爆”“传疯”“吓掉半条命”等预设关键词,将标题文本与预设关键词进行对比,若标题文本中不包含预设关键词,则将标题文本作为待检测标题文本进行本申请实施例提供的标题文本处理方法;本申请实施例规则模型中还可以包含多条预设的服务规则;例如,标题文本中没有特殊符号等,对标题进行服务规则检测,若标题文本不符合预设的服务规则,则将标题文本作为待检测标题文本进行本申请实施例提供的标题文本处理方法。
本申请实施例提供的标题文本处理方法中,在对待检测标题文本进行分词处理时,可以分别以不同的字符个数为分词单位,对待检测标题进行分词处理,将待检测标题文本处理为不同字符个数的分词,得到待检测标题文本对应的一组分词。其中,标题文本中的字符可以包括汉字字符、数字字符、英文字符等。
实施中,分词单位可以是任意字符个数;例如,待检测标题文本为“过年好”,可以分别以一个字符、两个字符、三个字符为分词单位,对待检测标题文本进行分词处理,得到的一组分词为“过、年、好、过年、年好、过年好”。
需要说明的是,在对待检测标题文本进行分词处理时,分词处理所使用的最大分词单位可以为本领域技术人员根据实际需求预先设定的数值。例如,针对“我爱北京天安门”这一待检测标题文本,可以预先设定最大分词单位为2,则对待检测标题文本进行分词处理,得到的一组分词为“我、爱、北、京、天、安、门、我爱、爱北、北京、京天、天安、安门”。
本申请实施例中,每个分词包括至少一个字符,也就是说,本申请实施例中最小分词单位为一个字符。
得到待检测标题文本对应的分词后,将待检测标题文本对应的分词输入神经网络模型中,通过神经网络模型得到待检测标题文本对应的标题文本质量评价信息。可选的,本申请实施例可以通过快速文本分类Fasttext模型得到待检测标题文本对应的标题文本质量评价信息,本申请实施例中Fasttext包括特征提取网络和文本评价网络。通过特征提取网络获取待检测标题文本对应的各分词中每个字符对应融合向量;通过文本评价网络获取待检测标题文本对应的标题文本质量评价信息。
一种可选的实施方式为,将待检测标题文本对应的一组分词输入至已训练的特征提取网络,通过已训练的特征提取网络获得各分词中每个字符对应的字向量、文本向量以及位置向量,针对各分词中的每个字符,对字符对应的字向量、文本向量以及位置向量进行融合处理得到字符对应的融合向量。
其中,特征提取网络可以为BERT网络。
实施中,将待检测文本对应的一组分词输入至已训练的BERT网络,已训练的BERT网络可以获取各分词中每个字符对应的字向量、文本向量以及位置向量,以及对每个字符对应的字向量、文本向量以及位置向量进行融合处理得到字符对应的融合向量。
其中,字向量用于表示字符的标识信息,不同的字符对应不同的字向量;例如,“过”对应的字向量与“年”对应的字向量不同,不同的字符通过不同的字向量唯一标识;文本向量用于表示字符在所在分词中的语义信息,语义越接近的字符对应的文本向量距离越近;位置向量用于表示字符在待检测文本和所在分词中的位置信息,同一字符在待检测文本中的不同位置以及在分词中的不同位置会有不同的语义差别。
在对每个字符对应的字向量、文本向量以及位置向量进行融合处理的过程中,首先对每个字符对应的字向量、文本向量以及位置向量进行求和处理,得到每个字符对应的和向量,再根据每个字符对应的和向量进行融合处理得到融合向量,其中融合向量表示每个字符对应的语义信息。图3为本申请实施例提供的一种BERT网络获取各分词中每个字符对应的融合向量的示意图。
本申请实施例中,由于对待检测标题文本进行了分词处理,BERT网络的输入维度更高,通过BERT网络得到的表示语义信息的融合向量所包含的语义信息更丰富,例如,可以包含时态、主语、词序敏感性、主谓一致等语义信息。
通过BERT网络得到待检测标题文本对应的各分词中每个字符对应的融合向量之后,将待检测标题文本对应的各分词中每个字符对应的融合向量输入文本评价网络,通过文本评价网络获取待检测标题文本对应的标题文本质量评价信息。
一种可选的实施方式为,将各分词中每个字符对应的融合向量输入至已训练的文本评价网络,通过已训练的文本评价网络对每个字符对应的融合向量进行均值化处理,得到待检测标题文本对应的标题文本质量评价向量,并对待检测标题文本对应的标题文本质量评价向量进行归一化处理,得到待检测标题文本对应的标题文本质量评价信息。
其中,文本评价网络包含均值化处理层(SUM层)和评价信息获取层(LABEL层)。
实施中,将各分词中每个字符对应的融合向量输入至已训练的文本评价网络的均值化处理层,已训练的文本评价网络的均值化处理层对每个字符对应的融合向量进行均值化处理,得到待检测标题文本对应的标题文本质量评价向量;并将得到的标题文本质量评价向量输入至已训练的文本评价网络的评价信息获取层,已训练的文本评价网络的评价信息获取层对标题文本质量评价向量进行归一化处理,得到待检测标题文本对应的标题文本质量评价信息。
例如,待检测标题文本为“过年好”,对待检测标题文本进行分词处理,得到的一组分词为“过、年、好、过年、年好、过年好”;
假设将这组分词输入至已训练的BERT网络,得到的各分词中每个字符对应的融合向量为“w1、w2、w3、w4、w5、w6、w7、w8、w9、w10”;
将各分词中每个字符对应的融合向量输入至已训练的文本评价网络,已训练的文本评价网络的均值化处理层对每个字符对应的融合向量进行均值化处理,均值化处理的过程如公式(1)所示:
其中,h表示待检测标题文本对应的标题文本质量评价向量;i表示待检测标题文本对应的一组分词中第i个字符;n表示待检测标题文本对应的一组分词共包含n个字符;wi表示待检测标题文本对应的一组分词中第i个字符对应的融合向量。
则待检测标题文本“过年好”对应的标题文本质量评价向量h为:h=(w1+w2+w3+w4+w5+w6+w7+w8+w9+w10)/10。
将待检测标题文本对应的标题文本质量评价向量输入至已训练的文本评价网络的评价信息获取层,已训练的文本评价网络的评价信息获取层对标题文本质量评价向量进行归一化处理,本申请实施例中归一化处理可以采用softmax函数,则归一化处理的过程如公式(2)所示:
y′=softmax(woh)————公式(2)
其中,y′表示待检测标题文本对应的标题文本质量评价信息;h表示待检测标题文本对应的标题文本质量评价向量;wo表示从均值化处理层到评价信息获取层的权重。
将待检测标题文本对应的标题文本质量评价向量进行归一化处理后得到的标题文本质量评价信息可以为0到1之间的数值,通过数值的大小表示待检测标题文本的标题质量。例如,待检测标题文本A对应的标题文本质量评价信息为0.9,待检测标题文本B对应的标题文本质量评价信息为0.5,则待检测标题文本A的标题质量高于待检测标题文本B的标题质量。
图4为本申请实施例提供的一种Fasttext模型获取待检测标题文本对应的标题文本质量评价信息的结构示意图。Fasttext模型包含BERT网络以及文本评价网络,文本评价网络包含SUM层以及LABEL层;本申请实施例中通过Fasttext模型获取待检测标题文本对应的标题文本质量评价信息时,首先对待检测标题文本进行分词处理,得到待检测标题文本对应的一组分词;将待检测标题文本对应的一组分词输入至Fasttext模型的BERT网络,Fasttext模型的BERT网络输出待检测标题文本对应的各分词中每个字符对应的融合向量;并将待检测标题文本对应的各分词中每个字符对应的融合向量输入至Fasttext模型的SUM层,Fasttext模型的SUM层输出待检测标题文本对应的标题文本质量评价向量;并将待检测标题文本对应的标题文本质量评价向量输入至Fasttext模型的LABEL层,Fasttext模型的SUM层输出待检测标题文本对应的标题文本质量评价信息。
本申请实施例在得到待检测标题文本的标题文本质量评价信息后,根据标题文本质量评价信息对待检测标题文本执行相应的控制策略;例如,控制策略可以是,当待检测标题文本的标题文本质量评价信息不大于预设阈值时,在自媒体应用显示界面上生成审核不通过的展示界面,提示待检测标题文本对应的内容的上传者进行标题的修改。
图5为本申请实施例提供的一种标题文本处理方法的完整流程图,该方法的具体实施流程如下:
在步骤S501中、通过规则模型对标题文本进行过滤处理,将通过过滤处理的标题文本作为待检测标题文本;
在步骤S502中、分别以不同的字符个数为分词单位,对待检测标题文本进行分词处理得到待检测标题文本对应的一组分词;
在步骤S503中、将待检测标题文本对应的一组分词输入已训练的Fasttext模型的BERT网络,获取各分词中每个字符对应融合向量;
其中,每个字符对应融合向量是根据BERT网络提取出的字符对应的字向量、文本向量、位置向量确定的;
在步骤S504中、将各分词中每个字符对应融合向量输入已训练的Fasttext模型的SUM层,获取待检测标题文本对应的标题文本质量评价向量;
在步骤S505中、将待检测标题文本对应的标题文本质量评价向量输入已训练的Fasttext模型的LABEL层,获取待检测标题文本对应的标题文本质量评价信息;
在步骤S506中、根据标题文本质量评价信息,对待检测标题文本执行相应的控制策略。
在一种可选的实施方式中,通过下列方式对特征提取网络和文本评价网络进行训练:
从训练样本数据集中选取训练样本;其中,训练样本中包含标题文本样本、以及预先标注的标题文本样本对应的文本质量评价信息;
具体的,训练样本数据集中包含大量训练样本,训练样本中包含标题文本样本以及预先标注的标题文本样本对应的文本质量评价信息,例如,训练样本数据集中包含的训练样本如表1所示:
表1
在训练样本数据集中,预先标注的文本质量评价信息的数值大于第一阈值的标题文本样本可以为高质量标题文本样本;预先标注的文本质量评价信息的数值不大于第二阈值的标题文本样本可以为低质量标题文本样本。例如,第一阈值为0.7,则文本质量评价信息的数值大于0.7的标题文本样本为高质量标题文本样本,如标题文本样本“左宗棠西政时仅有6万人,为何能在一年半内击败阿古柏20万精锐”为高质量标题文本样本。
从训练样本数据集中选取训练样本之后,分别以不同的字符个数为分词单位,对训练样本中包含的标题文本样本进行分词处理得到标题文本样本对应的一组分词样本;
将标题文本样本对应的一组分词样本,以及训练样本中包含的预先标注的标题文本样本对应的标题文本质量评价信息参数输入初始特征提取网络,并将初始特征提取网络输出的各个字符的融合向量输入初始文本评价网络;获得初始文本评价网络输出的标题文本样本对应的标题文本质量评价信息;
根据预先标注的标题文本样本对应的标题文本质量评价信息,以及初始文本评价网络输出的标题文本样本对应的标题文本质量评价信息确定损失值,并根据损失值对特征提取网络和文本评价网络的模型参数进行调整,直到确定出的损失值在预设范围内,得到训练后的特征提取网络和文本评价网络。
具体的,本申请实施例中初始Fasttext模型包含特征提取网络以及文本评价网络,将标题文本样本进行分词处理后,将标题文本样本对应的分词以及预先标注的标题文本样本对应的标题文本质量评价信息参数输入初始Fasttext模型中,获取Fasttext模型输出的标题文本质量评价信息,根据预先标注的标题文本质量评价信息与Fasttext模型输出的标题文本质量评价信息确定损失值,对Fasttext模型的参数进行调整,直到确定出的损失值在预设范围内,得到训练后的Fasttext模型。
例如,训练样本中包含的标题文本样本为“谈判与口才系列更多精彩QQ153555286”,预先标注的标题文本质量评价信息为0.01;对标题文本样本进行分词处理,得到标题文本样本对应的一组分词,并将标题文本样本对应的分词以及标题文本质量评价信息为0.01输入Fasttext模型,获取Fasttext模型输出的标题文本质量评价信息,假设Fasttext模型输出的标题文本质量评价信息为0.3,则根据预先标注的标题文本质量评价信息为0.01与Fasttext模型输出的标题文本质量评价信息为0.3确定损失值,对Fasttext模型的参数进行调整,直到确定出的损失值在预设范围内,得到训练后的Fasttext模型。
需要说明的是,上述训练过程仅以一个训练样本为例,说明本申请实施例的训练过程,实施中,需要通过将大量的训练样本对Fasttext模型进行训练。
可选的,损失函数的定义如公式(3)所示:
其中,y表示预先标注的标题文本质量评价信息,y′表示Fasttext模型输出的标题文本质量评价信息。
通过反向传播算法,就可以同时对特征提取网络以及文本评价网络的参数进行调整,直到完成模型的训练。
实施中,可以将本申请实施例中提供的标题文本处理方法中使用的Fasttext模型服务化,应用于在内容质量审核系统中,用于对图文内容或者视频内容的标题进行审核,提高审核效率,降低审核成本;实现在内容上传过程中对标题文本进行质量评价,对发布低质量标题内容的作者进行引导,提示用户进行修改;或者实现在内容审核过程当中,将低质量标题的内容排序到审核队列末尾,在内容上传高峰时期能够确保高质量标题的内容先被调度和审核,对大量内容的发布能够提升审核的效率。
图6为本申请实施例提供的一种标题文本处理系统框架图,包括:内容生产端和内容消费端、上下行内容接口服务器、内容数据库、调度中心服务、人工审核系统、标题质量服务、内容存储服务、内容分发服务、统计接口和分析服务、排重服务。下面对应用系统中的各个模块的功能进行介绍:
1、内容生产端和内容消费端
PGC或者UGC为MCN内容生产者,通过移动终端或者后端接口API系统,上传图文内容或者视频内容,是推荐分发内容的主要内容来源;
其中,内容生产端通过和上下行内容接口服务的通讯,上传图文内容或者视频内容,图文内容来源通常是轻量级发布端和编辑内容入口,视频内容发布通常是图像采集设备,拍摄过程当中本地视频内容可以选择搭配的音乐,滤镜模板和视频的美化功能等;
内容消费端通过和上下行内容接口服务器通讯,获取推荐内容的索引信息,索引信息以Feeds流的方式展示;当内容消费端发送具体的图文内容或者视频内容请求消息时,内容消费端与内容存储服务器通讯,获取索引信息中对应的图文内容或者视频内容;
此外,内容生产端和内容消费端将上传和下载过程当中用户播放的行为数据上报给统计接口和分析服务用于统计分析,例如,卡顿,加载时间,播放点击等。
2、上下行内容接口服务器
上下行内容接口服务器与内容生产端直接通讯,将内容生产端提交的内容的元信息存入内容数据库,内容的元信息通常包括内容的标题,发布者,摘要,封面图,发布时间,文件大小等,并将内容的源文件存入内容存储服务;
此外,通过上下行内容接口服务器将内容生产端提交的内容同步给调度中心服务器,进行后续的内容处理和流转。
3、内容数据库
内容数据库,保存内容生产端产生的内容的元信息,元信息通常包括内容的标题,发布者,摘要,封面图,发布时间,文件大小,封面图链接,码率,文件格式,是否原创的标记或者首发,以及人工审核过程中对内容的分类等。人工审核过程中对内容的分类包括一,二,三级别分类和标签信息,比如一篇讲解华为手机的文章,一级分科是科技,二级分类是智能手机,三级分类是国内手机,标签信息是华为,mate30;审核过程当中从内容数据库中读取内容元信息,并将审核的结果和状态回传进入内容数据库。
4、调度中心服务
调度中心负责内容流转的整个调度过程,控制上下行内容接口服务器接收上传的内容,以及从内容数据库中获取内容的元信息;此外,调度中心服务对人工审核系统和标题质量服务进行控制,调度审核的顺序和优先级。
5、人工审核系统
人工审核系统是人工服务能力的载体,主要用于审核过滤政治敏感,色情,法律不允许等机器无法确定判断的内容,同时还对进行内容的标签标注和二次确认;
通过人工审核进行人工审核的过程中,还可以确定人工确定的标题文本质量评价信息,并将人工确定的标题文本质量评价信息作为内容的元信息存储至内容数据库中;
6、标题质量服务
通过将本申请实施例提供的Fasttext模型服务化,通过调度中心调用标题质量服务对内容的标题文本进行质量评价,获得标题文本的标题文本质量评价信息;对于标题质量服务审核得到的标题文本质量评价信息较低的内容,可以直接丢弃过滤,也可以放在人工审核队列的末尾进行人工审核,在内容上传高峰时期能够确保高质量标题的内容先被调度和审核,对大量内容的发布能够提升审核的效率。
本申请实施例中标题质量服务中还包括标题样本数据库,存储有训练样本数据集,包含人工审核标记的标题文本样本对应的标题文本质量评价信息,以及标题质量服务输出的标题文本样本对应的标题文本质量评价信息。
7、内容存储服务
内容存储服务中存储有内容实体,比如视频内容源文件,图片内容源文件等。内容存储服务是一组分布范围很广,离用户侧较近的就近接入存储服务器,通常外围还有内容分发网络CDN加速服务器进行分布式缓存加速,通过上下行内容接口服务器将内容生产者上传的内容源文件保存起来;
内容消费端在获取内容索引信息后,在内容存储服务中下载对应的内容源文件;通过排重服务,将内容存储服务中存储的重复的内容源文件删除,保证完全一样的数据在内容存储服务中只保存一份,删除重复数据,节省存储空间;
8、内容分发服务
内容分发服务(通常是推荐引擎或者搜索引擎或者运营)将展示页面提供给内容消费端,展示页面通常是内容的索引信息。
9、统计接口和分析服务
接受内容消费端以及人工审核系统在内容消费过程当中和内容审核过程中上报的统计数据,同时对上报的统计数据进行量化的分析,获取不同标题文本质量评价信息的内容的分布;以及接受内容消费端举报和反馈的低质量标题内容,并将低质量标题内容存储到样本数据库中,作为后续机器学习的样本。
10、排重服务
通过内容本身的指纹特征进行比较,重复相似的内容只保留一份存储至内容存储服务,减少不必要的重复文件,具体的排重方法本申请实施例中不作赘述。
结合本申请实施例提供的标题文本处理系统,一种具体的应用场景为:用户通过内容生产端上传需要发布的图文内容或者视频内容,上下行内容接口服务器获取内容生产端上传的需要发布的图文内容或者视频内容的元信息,具体的,可以获取内容的标题文本;将内容标题文本经过规则模型的过滤后,若不符合预设的服务规则,则将标题文本发送至标题质量服务;获取标题质量服务的Fasttext模型输出的标题文本质量评价信息,并将标题文本质量评价信息返回至上下行内容接口服务器;若标题文本质量评价信息低于预设阈值,通过上下行接口服务器生成提示用户进行标题修改的展示页面参数并发送给内容生产端;内容生产端根据展示页面参数生成展示页面,提示用户进行标题的修改。
需要说明的是,上述应用场景仅是示例的,并不构成对本申请保护范围的限定。
此外,本申请实施例还提供一种标题文本处理方法,可以通过RNN+CNN模型以及带有注意力机制的BI-LSTM模型,获取待检测标题文本对应的标题文本质量评价信息。
实施中,首先通过规则模型中预设的过滤规则对标题文本进行过滤处理,一种可选的实施方式为,将待检测标题文本与预设的过滤规则进行比较,判断待检测标题文本是否满足预设的过滤规则。若标题文本符合规则模型中的过滤规则,则可以直接将标题文本过滤;若标题文本不符合规则模型中的过滤规则,则将标题文本作为待检测标题文本,通过RNN+CNN模型以及带有注意力机制的BI-LSTM模型确定待检测标题文本对应的标题文本质量评价信息。
将待检测标题文本进行分词处理,得到待检测标题文本对应的一组分词;将待检测标题文本对应的一组分词输入至训练后的RNN+CNN模型,获取训练后的RNN+CNN模型输出的第一标题文本质量评价信息,以及将待检测标题文本对应的一组分词输入至训练后的带有注意力机制的BI-LSTM模型,获取训练后的带有注意力机制的BI-LSTM模型输出的第二标题文本质量评价信息;将得到的第一标题文本质量评价信息与第二标题文本质量评价信息进行加权平均处理,获取待检测标题文本对应的标题文本质量评价信息。根据标题文本质量评价信息,对待检测标题文本执行相应的控制策略。
其中,在进行加权平均处理时,第一标题文本质量评价信息对应的第一权重与第二标题文本质量评价信息对应的权重可以是任意的,本申请实施例中不做具体限定。
本申请实施例提供的第二种标题文本处理方法,通过能够捕获上下文信息的RNN+CNN模型和带有注意力机制的BI-LSTM模型进行多模型融合,快速准确的确定待检测标题文本对应的标题文本质量评价信息。
在训练RNN+CNN模型和带有注意力机制的BI-LSTM模型时训练样本数据集的选取,可以与训练Fasttext模型时选取的训练样本数据集相同。
基于同一发明构思,本申请实施例中还提供了一种标题文本处理装置,由于该装置解决问题的原理与上述标题文本处理方法相似,因此该装置的实施可以参见方法的实施,重复之处不再赘述。
如图7所示,为本申请实施例提供的一种标题文本处理装置的结构示意图,包括:
分词模块701,用于分别以不同的字符个数为分词单位,对待检测标题文本进行分词处理得到待检测标题文本对应的一组分词,每个分词包括至少一个字符;
确定模块702,用于针对每个分词,获得各分词中每个字符对应的字向量、文本向量以及位置向量,并确定每个字符对应的融合向量;其中,字符的字向量用于表示字符的标识信息,字符的文本向量用于表示字符在所在分词中的语义信息,字符的位置向量用于表示字符在待检测文本和所在分词中的位置信息,字符的融合向量是对字符对应的字向量、文本向量以及位置向量进行融合处理得到的;
获取模块703,用于根据各分词中每个字符对应的融合向量,获得待检测标题文本对应的标题文本质量评价信息;
控制模块704,用于根据标题文本质量评价信息,对待检测标题文本执行相应的控制策略。
一种可选的实施方式为,确定模块702具体用于:
将待检测标题文本对应的一组分词输入至已训练的特征提取网络,通过已训练的特征提取网络获得各分词中每个字符对应的字向量、文本向量以及位置向量,针对各分词中的每个字符,对字符对应的字向量、文本向量以及位置向量进行融合处理得到字符对应的融合向量。
一种可选的实施方式为,获取模块703具体用于:
将各分词中每个字符对应的融合向量输入至已训练的文本评价网络,通过已训练的文本评价网络对每个字符对应的融合向量进行均值化处理,得到待检测标题文本对应的标题文本质量评价向量,并对待检测标题文本对应的标题文本质量评价向量进行归一化处理,得到待检测标题文本对应的标题文本质量评价信息。
如图8所示,为本申请实施例提供的另一种标题文本处理装置的结构示意图,该装置还包括训练模块705;
训练模块705,用于根据下列方式对特征提取网络和文本评价网络进行训练:
从训练样本数据集中选取训练样本;其中,训练样本中包含标题文本样本、以及预先标注的标题文本样本对应的文本质量评价信息;
分别以不同的字符个数为分词单位,对训练样本中包含的标题文本样本进行分词处理得到标题文本样本对应的一组分词样本;
将标题文本样本对应的一组分词样本,以及训练样本中包含的预先标注的标题文本样本对应的标题文本质量评价信息参数输入初始特征提取网络,并将初始特征提取网络输出的各个字符的融合向量输入初始文本评价网络;
获得初始文本评价网络输出的标题文本样本对应的标题文本质量评价信息;
根据预先标注的标题文本样本对应的标题文本质量评价信息,以及初始文本评价网络输出的标题文本样本对应的标题文本质量评价信息确定损失值,并根据损失值对特征提取网络和文本评价网络的模型参数进行调整,直到确定出的损失值在预设范围内,得到训练后的特征提取网络和文本评价网络。
一种可选的实施方式为,特征提取网络为BERT网络。
为了描述的方便,以上各部分按照功能划分为各模块(或单元)分别描述。当然,在实施本申请时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。
另外,本申请实施例还提供一种电子设备900,如图9所示,包括:至少一个处理器901;以及与至少一个处理器通信连接的存储器902;其中,
存储器902存储有可被至少一个处理器901执行的指令,指令被至少一个处理器901执行,以使至少一个处理器901能够执行上述标题文本处理方法。
在介绍了本申请示例性实施方式的标题文本处理方法和装置之后,接下来,介绍根据本申请的另一示例性实施方式的计算装置。
所属技术领域的技术人员能够理解,本申请的各个方面可以实现为系统、方法或程序产品。因此,本申请的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
在一些可能的实施方式中,根据本申请的计算装置可以至少包括至少一个处理单元、以及至少一个存储单元。其中,存储单元存储有程序代码,当程序代码被处理单元执行时,使得处理单元执行本说明书上述描述的根据本申请各种示例性实施方式的测试数据处理方法中的步骤。例如,处理单元可以执行如图2或图5所示的标题文本处理方法的流程。
下面参照图10来描述根据本申请的这种实施方式的计算装置100。图10显示的计算装置100仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图10所示,计算装置100以通用计算设备的形式表现。计算装置100的组件可以包括但不限于:上述至少一个处理单元101、上述至少一个存储单元102、连接不同系统组件(包括存储单元102和处理单元101)的总线103。
总线103表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。
存储单元102可以包括易失性存储器形式的可读介质,例如随机存取存储器(RAM)1021和/或高速缓存存储器1022,还可以进一步包括只读存储器(ROM)1023。
存储单元102还可以包括具有一组(至少一个)程序模块1024的程序/实用工具1025,这样的程序模块1024包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
计算装置100也可以与一个或多个外部设备104(例如键盘、指向设备等)通信,还可与一个或者多个使得用户能与计算装置100交互的设备通信,和/或与使得该计算装置100能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口105进行。并且,计算装置100还可以通过网络适配器106与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器106通过总线103与用于计算装置100的其它模块通信。应当理解,尽管图中未示出,可以结合计算装置100使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
本申请实施例还提供一种计算机可存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述标题文本处理方法的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (12)
1.一种标题文本处理方法,其特征在于,该方法包括:
分别以不同的字符个数为分词单位,对待检测标题文本进行分词处理得到所述待检测标题文本对应的一组分词,每个分词包括至少一个字符;
针对每个分词,获得各分词中每个字符对应的字向量、文本向量以及位置向量,并确定每个字符对应的融合向量;其中,字符的字向量用于表示字符的标识信息,字符的文本向量用于表示字符在所在分词中的语义信息,字符的位置向量用于表示字符在所述待检测文本和所在分词中的位置信息,字符的融合向量是对字符对应的字向量、文本向量以及位置向量进行融合处理得到的;
根据各分词中每个字符对应的融合向量,获得所述待检测标题文本对应的标题文本质量评价信息;
根据所述标题文本质量评价信息,对所述待检测标题文本执行相应的控制策略。
2.如权利要求1所述的方法,其特征在于,所述获得各分词中每个字符对应的字向量、文本向量以及位置向量,并确定每个字符对应的融合向量,具体包括:
将所述待检测标题文本对应的一组分词输入至已训练的特征提取网络,通过所述已训练的特征提取网络获得各分词中每个字符对应的字向量、文本向量以及位置向量,针对各分词中的每个字符,对所述字符对应的字向量、文本向量以及位置向量进行融合处理得到所述字符对应的融合向量。
3.如权利要求2所述的方法,其特征在于,所述根据各分词中每个字符对应的融合向量,获得所述待检测标题文本对应的标题文本质量评价信息,具体包括:
将各分词中每个字符对应的融合向量输入至已训练的文本评价网络,通过所述已训练的文本评价网络对每个字符对应的融合向量进行均值化处理,得到所述待检测标题文本对应的标题文本质量评价向量,并对所述待检测标题文本对应的标题文本质量评价向量进行归一化处理,得到所述待检测标题文本对应的标题文本质量评价信息。
4.如权利要求3所述的方法,其特征在于,根据下列方式对所述特征提取网络和所述文本评价网络进行训练:
从训练样本数据集中选取训练样本;其中,所述训练样本中包含标题文本样本、以及预先标注的所述标题文本样本对应的标题文本质量评价信息;
分别以不同的字符个数为分词单位,对训练样本中包含的标题文本样本进行分词处理得到所述标题文本样本对应的一组分词样本;
将所述标题文本样本对应的一组分词样本,以及所述训练样本中包含的预先标注的所述标题文本样本对应的标题文本质量评价信息参数输入初始特征提取网络,并将所述初始特征提取网络输出的各个字符的融合向量输入初始文本评价网络;
获得所述初始文本评价网络输出的所述标题文本样本对应的标题文本质量评价信息;
根据预先标注的所述标题文本样本对应的标题文本质量评价信息,以及所述初始文本评价网络输出的所述标题文本样本对应的标题文本质量评价信息确定损失值,并根据损失值对所述特征提取网络和所述文本评价网络的模型参数进行调整,直到确定出的损失值在预设范围内,得到训练后的所述特征提取网络和所述文本评价网络。
5.如权利要求2~4任一项所述的方法,其特征在于,所述特征提取网络为BERT网络。
6.一种标题文本处理装置,其特征在于,包括:
分词模块,用于分别以不同的字符个数为分词单位,对待检测标题文本进行分词处理得到所述待检测标题文本对应的一组分词,每个分词包括至少一个字符;
确定模块,用于针对每个分词,获得各分词中每个字符对应的字向量、文本向量以及位置向量,并确定每个字符对应的融合向量;其中,字符的字向量用于表示字符的标识信息,字符的文本向量用于表示字符在所在分词中的语义信息,字符的位置向量用于表示字符在所述待检测文本和所在分词中的位置信息,字符的融合向量是对字符对应的字向量、文本向量以及位置向量进行融合处理得到的;
获取模块,用于根据各分词中每个字符对应的融合向量,获得所述待检测标题文本对应的标题文本质量评价信息;
控制模块,用于根据所述标题文本质量评价信息,对所述待检测标题文本执行相应的控制策略。
7.如权利要求6所述的装置,其特征在于,所述确定模块具体用于:
将所述待检测标题文本对应的一组分词输入至已训练的特征提取网络,通过所述已训练的特征提取网络获得各分词中每个字符对应的字向量、文本向量以及位置向量,针对各分词中的每个字符,对所述字符对应的字向量、文本向量以及位置向量进行融合处理得到所述字符对应的融合向量。
8.如权利要求7所述的装置,其特征在于,所述获取模块具体用于:
将各分词中每个字符对应的融合向量输入至已训练的文本评价网络,通过所述已训练的文本评价网络对每个字符对应的融合向量进行均值化处理,得到所述待检测标题文本对应的标题文本质量评价向量,并对所述待检测标题文本对应的标题文本质量评价向量进行归一化处理,得到所述待检测标题文本对应的标题文本质量评价信息。
9.如权利要求8所述的装置,其特征在于,该装置还包括训练模块;
所述训练模块,用于根据下列方式对所述特征提取网络和所述文本评价网络进行训练:
从训练样本数据集中选取训练样本;其中,所述训练样本中包含标题文本样本、以及预先标注的所述标题文本样本对应的标题文本质量评价信息;
分别以不同的字符个数为分词单位,对训练样本中包含的标题文本样本进行分词处理得到所述标题文本样本对应的一组分词样本;
将所述标题文本样本对应的一组分词样本,以及所述训练样本中包含的预先标注的所述标题文本样本对应的标题文本质量评价信息参数输入初始特征提取网络,并将所述初始特征提取网络输出的各个字符的融合向量输入初始文本评价网络;
获得所述初始文本评价网络输出的所述标题文本样本对应的标题文本质量评价信息;
根据预先标注的所述标题文本样本对应的标题文本质量评价信息,以及所述初始文本评价网络输出的所述标题文本样本对应的标题文本质量评价信息确定损失值,并根据损失值对所述特征提取网络和所述文本评价网络的模型参数进行调整,直到确定出的损失值在预设范围内,得到训练后的所述特征提取网络和所述文本评价网络。
10.如权利要求7~9任一项所述的装置,其特征在于,所述特征提取网络为BERT网络。
11.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至5任一权利要求所述的方法。
12.一种计算机可读存储介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令用于执行如权利要求1至5任一权利要求所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010298474.4A CN111507097B (zh) | 2020-04-16 | 2020-04-16 | 一种标题文本处理方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010298474.4A CN111507097B (zh) | 2020-04-16 | 2020-04-16 | 一种标题文本处理方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111507097A true CN111507097A (zh) | 2020-08-07 |
CN111507097B CN111507097B (zh) | 2023-08-04 |
Family
ID=71877543
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010298474.4A Active CN111507097B (zh) | 2020-04-16 | 2020-04-16 | 一种标题文本处理方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111507097B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112016307A (zh) * | 2020-08-13 | 2020-12-01 | 深圳市欢太科技有限公司 | 一种文本信息的标题生成方法、电子设备和存储介质 |
CN112052424A (zh) * | 2020-10-12 | 2020-12-08 | 腾讯科技(深圳)有限公司 | 一种内容审核方法及装置 |
CN112329434A (zh) * | 2020-11-26 | 2021-02-05 | 北京百度网讯科技有限公司 | 文本信息识别方法、装置、电子设备和存储介质 |
CN112417885A (zh) * | 2020-11-17 | 2021-02-26 | 平安科技(深圳)有限公司 | 基于人工智能的答案生成方法、装置、计算机设备及介质 |
CN112580979A (zh) * | 2020-12-18 | 2021-03-30 | 北京百度网讯科技有限公司 | 策略质量评价方法、装置、设备、存储介质以及产品 |
CN112579771A (zh) * | 2020-12-08 | 2021-03-30 | 腾讯科技(深圳)有限公司 | 一种内容的标题检测方法及装置 |
US20210192220A1 (en) * | 2018-12-14 | 2021-06-24 | Tencent Technology (Shenzhen) Company Limited | Video classification method and apparatus, computer device, and storage medium |
CN113379444A (zh) * | 2021-05-13 | 2021-09-10 | 北京沃东天骏信息技术有限公司 | 一种广告检测方法、设备、系统及计算机可读存储介质 |
CN113395578A (zh) * | 2020-11-27 | 2021-09-14 | 腾讯科技(深圳)有限公司 | 一种提取视频主题文本的方法、装置、设备及存储介质 |
CN114330357A (zh) * | 2021-08-04 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 一种文本处理方法、装置、计算机设备和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109471915A (zh) * | 2018-10-09 | 2019-03-15 | 科大讯飞股份有限公司 | 一种文本评价方法、装置、设备以及可读存储介质 |
CN110502738A (zh) * | 2018-05-18 | 2019-11-26 | 阿里巴巴集团控股有限公司 | 中文命名实体识别方法、装置、设备和查询系统 |
CN110580308A (zh) * | 2018-05-22 | 2019-12-17 | 北京京东振世信息技术有限公司 | 信息审核方法及装置、电子设备、存储介质 |
-
2020
- 2020-04-16 CN CN202010298474.4A patent/CN111507097B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110502738A (zh) * | 2018-05-18 | 2019-11-26 | 阿里巴巴集团控股有限公司 | 中文命名实体识别方法、装置、设备和查询系统 |
CN110580308A (zh) * | 2018-05-22 | 2019-12-17 | 北京京东振世信息技术有限公司 | 信息审核方法及装置、电子设备、存储介质 |
CN109471915A (zh) * | 2018-10-09 | 2019-03-15 | 科大讯飞股份有限公司 | 一种文本评价方法、装置、设备以及可读存储介质 |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210192220A1 (en) * | 2018-12-14 | 2021-06-24 | Tencent Technology (Shenzhen) Company Limited | Video classification method and apparatus, computer device, and storage medium |
CN112016307A (zh) * | 2020-08-13 | 2020-12-01 | 深圳市欢太科技有限公司 | 一种文本信息的标题生成方法、电子设备和存储介质 |
CN112052424A (zh) * | 2020-10-12 | 2020-12-08 | 腾讯科技(深圳)有限公司 | 一种内容审核方法及装置 |
CN112052424B (zh) * | 2020-10-12 | 2024-05-28 | 腾讯科技(深圳)有限公司 | 一种内容审核方法及装置 |
CN112417885A (zh) * | 2020-11-17 | 2021-02-26 | 平安科技(深圳)有限公司 | 基于人工智能的答案生成方法、装置、计算机设备及介质 |
CN112329434B (zh) * | 2020-11-26 | 2024-04-12 | 北京百度网讯科技有限公司 | 文本信息识别方法、装置、电子设备和存储介质 |
CN112329434A (zh) * | 2020-11-26 | 2021-02-05 | 北京百度网讯科技有限公司 | 文本信息识别方法、装置、电子设备和存储介质 |
CN113395578A (zh) * | 2020-11-27 | 2021-09-14 | 腾讯科技(深圳)有限公司 | 一种提取视频主题文本的方法、装置、设备及存储介质 |
CN113395578B (zh) * | 2020-11-27 | 2023-06-30 | 腾讯科技(深圳)有限公司 | 一种提取视频主题文本的方法、装置、设备及存储介质 |
CN112579771A (zh) * | 2020-12-08 | 2021-03-30 | 腾讯科技(深圳)有限公司 | 一种内容的标题检测方法及装置 |
CN112579771B (zh) * | 2020-12-08 | 2024-05-07 | 腾讯科技(深圳)有限公司 | 一种内容的标题检测方法及装置 |
CN112580979A (zh) * | 2020-12-18 | 2021-03-30 | 北京百度网讯科技有限公司 | 策略质量评价方法、装置、设备、存储介质以及产品 |
CN113379444A (zh) * | 2021-05-13 | 2021-09-10 | 北京沃东天骏信息技术有限公司 | 一种广告检测方法、设备、系统及计算机可读存储介质 |
CN114330357A (zh) * | 2021-08-04 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 一种文本处理方法、装置、计算机设备和存储介质 |
CN114330357B (zh) * | 2021-08-04 | 2024-05-10 | 腾讯科技(深圳)有限公司 | 一种文本处理方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111507097B (zh) | 2023-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111507097B (zh) | 一种标题文本处理方法、装置、电子设备及存储介质 | |
US12001474B2 (en) | Information determining method and apparatus, computer device, and storage medium | |
CN112131411A (zh) | 一种多媒体资源推荐方法、装置、电子设备及存储介质 | |
CN112749326B (zh) | 信息处理方法、装置、计算机设备及存储介质 | |
KR20160059486A (ko) | 연속적인 소셜 커뮤니케이션을 위한 시스템 및 방법 | |
Ortis et al. | An Overview on Image Sentiment Analysis: Methods, Datasets and Current Challenges. | |
CN111460267B (zh) | 对象识别方法、装置和系统 | |
CN111506794A (zh) | 一种基于机器学习的谣言管理方法和装置 | |
Jeon et al. | Hashtag recommendation based on user tweet and hashtag classification on twitter | |
Verma et al. | Web application implementation with machine learning | |
Dessì et al. | Leveraging cognitive computing for multi-class classification of e-learning videos | |
CN113557521A (zh) | 使用机器学习从动画媒体内容项目提取时间信息的系统和方法 | |
CN113011126A (zh) | 文本处理方法、装置、电子设备及计算机可读存储介质 | |
CN113392315A (zh) | 一种主题类型挖掘方法、装置、设备及存储介质 | |
CN113656560B (zh) | 情感类别的预测方法和装置、存储介质及电子设备 | |
Su et al. | Classification and interaction of new media instant music video based on deep learning under the background of artificial intelligence | |
CN116628232A (zh) | 标签确定方法、装置、设备、存储介质及产品 | |
Jin et al. | Predicting potential real-time donations in YouTube live streaming services via continuous-time dynamic graphs | |
KR20230051995A (ko) | 실감형 확장현실 콘텐츠 관리 플랫폼 | |
CN114969473A (zh) | 数据调度分发方法、装置、设备及计算机可读存储介质 | |
Yepes et al. | Listen to this: Music recommendation based on one-class support vector machine | |
CN114547435A (zh) | 内容质量的识别方法、装置、设备及可读存储介质 | |
Mala et al. | Product response analytics in Facebook | |
Liu et al. | Do photos help express our feelings: incorporating multimodal features into microblog sentiment analysis | |
TAO | Analyzing image tweets in Microblogs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |