CN113704447A - 一种文本信息的识别方法以及相关装置 - Google Patents

一种文本信息的识别方法以及相关装置 Download PDF

Info

Publication number
CN113704447A
CN113704447A CN202110234556.7A CN202110234556A CN113704447A CN 113704447 A CN113704447 A CN 113704447A CN 202110234556 A CN202110234556 A CN 202110234556A CN 113704447 A CN113704447 A CN 113704447A
Authority
CN
China
Prior art keywords
information
training
target
words
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110234556.7A
Other languages
English (en)
Other versions
CN113704447B (zh
Inventor
张绍明
余亭浩
侯昊迪
陈少华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110234556.7A priority Critical patent/CN113704447B/zh
Publication of CN113704447A publication Critical patent/CN113704447A/zh
Application granted granted Critical
Publication of CN113704447B publication Critical patent/CN113704447B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/383Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Library & Information Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种文本信息的识别方法以及相关装置,应用于人工智能的自然语言处理技术。通过获取预设语料;然后基于预设规则从预设语料中提取对应于目标类型的多个正相关词。进一步的调用预设语料和多个正相关词对预训练模型进行训练,以得到第一识别模型;并基于第一识别模型进行调整得到第二识别模型;进而基于第二识别模型中进行文本识别。从而实现高效且准确的文本识别过程,采用与目标类型关联的预设语料以及补充的正相关词同时执行掩蔽操作,保证了识别模型对于目标类型关联词汇的识别能力,进而提高了文本信息识别的准确性。

Description

一种文本信息的识别方法以及相关装置
技术领域
本申请涉及计算机技术领域,尤其涉及一种文本信息的识别方法以及相关装置。
背景技术
随着互联网技术的迅速发展,在人们生活中的信息流越来越丰富。但是在丰富的信息流中需要进行特征的区别;例如低俗(软色情)识别一直是信息流内容质量治理的一个重要任务。信息流内容包含多种形态,例如:图文、视频等,无论何种形态的内容,用户首先接触的是标题(短视频描述)和封面,因此如何对其中的文本信息进行识别成为难题。
一般,可以通过机器学习模型进行文本信息的识别过程,即采用目标类型相关的语料对机器学习模型进行训练,然后对待识别信息流中的目标类型信息进行识别。
但是,对于采用目标类型相关的语料对机器学习模型进行训练的过程需要大量的语料,但是在语料收集的过程中无法保证语料的强相关性,使得机器学习模型偏离目标类型信息的识别维度,影响文本信息识别的准确性。
发明内容
有鉴于此,本申请提供一种文本信息的识别方法,可以有效提高文本信息识别的准确性。
本申请第一方面提供一种文本信息的识别方法,可以应用于终端设备中包含文本信息的识别功能的系统或程序中,具体包括:
获取预设语料,所述预设语料与目标类型的文本信息相关联;
基于预设规则从所述预设语料中提取对应于所述目标类型的多个正相关词,所述预设规则基于所述预设语料中的词汇与目标标签的互信息设定,所述目标标签与所述目标类型相对应。
调用所述预设语料和多个所述正相关词对预训练模型进行训练,以得到第一识别模型,所述预训练模型的训练过程基于训练任务进行,所述训练任务指示的掩蔽操作与多个所述正相关词相关联;
基于所述预设语料对所述第一识别模型进行调整,以得到第二识别模型;
获取待检测信息,并将所述待检测信息输入所述第二识别模型中,以得到所述待检测信息中的文本信息对应于所述目标类型的识别结果。
可选的,在本申请一些可能的实现方式中,所述基于预设规则从所述预设语料中提取对应于所述目标类型的多个正相关词,包括:
基于所述预设规则从所述预设语料中提取对应于所述目标类型的多个候选词;
将多个所述候选词输入预设识别模型进行打分,以得到候选特征值;
基于所述候选特征值对所述候选词进行筛选,以得到多个所述正相关词。
可选的,在本申请一些可能的实现方式中,所述基于所述预设规则从所述预设语料中提取对应于所述目标类型的多个候选词,包括:
统计所述预设语料中各个词汇的频率信息;
基于所述频率信息确定高频词汇;
基于所述预设规则确定所述高频词汇与所述目标标签的互信息;
根据所述互信息确定对应于所述目标类型的多个所述候选词。
可选的,在本申请一些可能的实现方式中,所述基于所述候选特征值对所述候选词进行筛选,以得到多个所述正相关词,包括:
基于所述候选特征值对所述候选词进行筛选,以得到特征词集合;
确定所述目标类型对应的特征词汇;
从所述特征词集合中调用与所述特征词汇相关联的词汇进行审核,以得到多个所述正相关词。
可选的,在本申请一些可能的实现方式中,所述方法还包括:
基于所述目标类型确定检索词汇;
向服务器发送所述检索词汇,以使得所述服务器建立目标词表;
接收所述目标词表,并基于所述目标词表对多个所述正相关词进行更新。
可选的,在本申请一些可能的实现方式中,所述调用所述预设语料和多个所述正相关词对预训练模型进行训练,以得到第一识别模型,包括:
调用所述预设语料和多个所述正相关词确定训练数据;
基于所述预训练模型中的训练任务对所述训练数据进行随机掩蔽,以得到掩蔽序列;
确定所述掩蔽序列对应的真实序列,以建立训练样本对;
基于所述训练样本对所述预训练模型进行训练,以得到所述第一识别模型。
可选的,在本申请一些可能的实现方式中,所述方法还包括:
响应于所述正相关词的确定获取权重信息;
基于所述权重信息对所述训练任务中掩蔽操作对应的掩蔽对象进行设定,以增加多个所述正相关词的掩蔽概率。
可选的,在本申请一些可能的实现方式中,所述基于所述预设语料对所述第一识别模型进行调整,以得到第二识别模型,包括:
响应于所述第一识别模型的生成确定目标场景;
基于所述目标场景调用特征训练集;
根据所述特征训练集和所述预设语料确定目标训练集;
基于所述目标训练集对所述第一识别模型进行调整,以得到所述第二识别模型。
可选的,在本申请一些可能的实现方式中,所述获取待检测信息,并将所述待检测信息输入所述第二识别模型中,以得到所述待检测信息中的文本信息对应于所述目标类型的识别结果,包括:
获取所述待检测信息;
确定所述待检测信息对应的信息类型;
根据所述信息类型对所述待检测信息中的特征位置进行文本提取,以得到所述待检测信息中的文本信息;
将所述文本信息输入所述第二识别模型中,以得到所述文本信息对应于所述目标类型的识别结果。
可选的,在本申请一些可能的实现方式中,所述根据所述信息类型对所述待检测信息中的特征位置进行文本提取,以得到所述待检测信息中的文本信息,包括:
根据所述信息类型对所述待检测信息中的特征位置进行文本提取,以得到提取文本;
确定所述信息类型对应的描述规则;
基于所述描述规则对所述提取文本进行处理,以得到所述待检测信息中的文本信息。
可选的,在本申请一些可能的实现方式中,所述方法还包括:
确定所述文本信息对应于所述目标类型的识别结果;
基于所述识别结果确定分类标识;
根据所述分类标识对所述待检测信息针对于目标对象进行推送。
可选的,在本申请一些可能的实现方式中,所述目标类型为低俗类型信息,所述预训练模型为双向编码转换表示器,所述训练任务为自监督任务,所述自监督任务基于掩蔽语言模型进行。
本申请第二方面提供一种文本信息的识别装置,包括:
获取单元,用于获取预设语料,所述预设语料与目标类型的文本信息相关联;
提取单元,用于基于预设规则从所述预设语料中提取对应于所述目标类型的多个正相关词,所述预设规则基于所述预设语料中的词汇与目标标签的互信息设定,所述目标标签与所述目标类型相对应。
训练单元,用于调用所述预设语料和多个所述正相关词对预训练模型进行训练,以得到第一识别模型,所述预训练模型的训练过程基于训练任务进行,所述训练任务指示的掩蔽操作与多个所述正相关词相关联;
所述训练单元,还用于基于所述预设语料对所述第一识别模型进行调整,以得到第二识别模型;
识别单元,用于获取待检测信息,并将所述待检测信息输入所述第二识别模型中,以得到所述待检测信息中的文本信息对应于所述目标类型的识别结果。
可选的,在本申请一些可能的实现方式中,所述提取单元,具体用于基于所述预设规则从所述预设语料中提取对应于所述目标类型的多个候选词;
所述提取单元,具体用于将多个所述候选词输入预设识别模型进行打分,以得到候选特征值;
所述提取单元,具体用于基于所述候选特征值对所述候选词进行筛选,以得到多个所述正相关词。
可选的,在本申请一些可能的实现方式中,所述提取单元,具体用于统计所述预设语料中各个词汇的频率信息;
所述提取单元,具体用于基于所述频率信息确定高频词汇;
所述提取单元,具体用于基于所述预设规则确定所述高频词汇与所述目标标签的互信息;
所述提取单元,具体用于根据所述互信息确定对应于所述目标类型的多个所述候选词。
可选的,在本申请一些可能的实现方式中,所述提取单元,具体用于基于所述候选特征值对所述候选词进行筛选,以得到特征词集合;
所述提取单元,具体用于确定所述目标类型对应的特征词汇;
所述提取单元,具体用于从所述特征词集合中调用与所述特征词汇相关联的词汇进行审核,以得到多个所述正相关词。
可选的,在本申请一些可能的实现方式中,所述提取单元,具体用于基于所述目标类型确定检索词汇;
所述提取单元,具体用于向服务器发送所述检索词汇,以使得所述服务器建立目标词表;
所述提取单元,具体用于接收所述目标词表,并基于所述目标词表对多个所述正相关词进行更新。
可选的,在本申请一些可能的实现方式中,所述训练单元,具体用于调用所述预设语料和多个所述正相关词确定训练数据;
所述训练单元,具体用于基于所述预训练模型中的训练任务对所述训练数据进行随机掩蔽,以得到掩蔽序列;
所述训练单元,具体用于确定所述掩蔽序列对应的真实序列,以建立训练样本对;
所述训练单元,具体用于基于所述训练样本对所述预训练模型进行训练,以得到所述第一识别模型。
可选的,在本申请一些可能的实现方式中,所述训练单元,具体用于响应于所述正相关词的确定获取权重信息;
所述训练单元,具体用于基于所述权重信息对所述训练任务中掩蔽操作对应的掩蔽对象进行设定,以增加多个所述正相关词的掩蔽概率。
可选的,在本申请一些可能的实现方式中,所述训练单元,具体用于响应于所述第一识别模型的生成确定目标场景;
所述训练单元,具体用于基于所述目标场景调用特征训练集;
所述训练单元,具体用于根据所述特征训练集和所述预设语料确定目标训练集;
所述训练单元,具体用于基于所述目标训练集对所述第一识别模型进行调整,以得到所述第二识别模型。
可选的,在本申请一些可能的实现方式中,所述识别单元,具体用于获取所述待检测信息;
所述识别单元,具体用于确定所述待检测信息对应的信息类型;
所述识别单元,具体用于根据所述信息类型对所述待检测信息中的特征位置进行文本提取,以得到所述待检测信息中的文本信息;
所述识别单元,具体用于将所述文本信息输入所述第二识别模型中,以得到所述文本信息对应于所述目标类型的识别结果。
可选的,在本申请一些可能的实现方式中,所述识别单元,具体用于根据所述信息类型对所述待检测信息中的特征位置进行文本提取,以得到提取文本;
所述识别单元,具体用于确定所述信息类型对应的描述规则;
所述识别单元,具体用于基于所述描述规则对所述提取文本进行处理,以得到所述待检测信息中的文本信息。
可选的,在本申请一些可能的实现方式中,所述识别单元,具体用于确定所述文本信息对应于所述目标类型的识别结果;
所述识别单元,具体用于基于所述识别结果确定分类标识;
所述识别单元,具体用于根据所述分类标识对所述待检测信息针对于目标对象进行推送。
本申请第三方面提供一种计算机设备,包括:存储器、处理器以及总线系统;所述存储器用于存储程序代码;所述处理器用于根据所述程序代码中的指令执行上述第一方面或第一方面任一项所述的文本信息的识别方法。
本申请第四方面提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述第一方面或第一方面任一项所述的文本信息的识别方法。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述第一方面或者第一方面的各种可选实现方式中提供的文本信息的识别方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
通过获取预设语料,预设语料与目标类型的文本信息相关联;然后基于预设规则从预设语料中提取对应于目标类型的多个正相关词,该预设规则基于预设语料中的词汇与目标标签的互信息设定,目标标签与目标类型相对应。进一步的调用预设语料和多个正相关词对预训练模型进行训练,以得到第一识别模型,预训练模型的训练过程基于训练任务进行,训练任务指示的掩蔽操作与多个正相关词相关联;并基于预设语料对第一识别模型进行调整,以得到第二识别模型;进而获取待检测信息,并将待检测信息输入第二识别模型中,以得到待检测信息中的文本信息对应于目标类型的识别结果。从而实现高效且准确的文本识别过程,由于筛选了与目标类型关联的正相关词,并采用与目标类型关联的预设语料以及补充的正相关词同时执行掩蔽操作,提高了目标类型关联词汇的掩蔽概率,保证了识别模型对于目标类型关联词汇的识别能力,进而提高了文本信息识别的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为文本信息的识别系统运行的网络架构图;
图2为本申请实施例提供的一种文本信息的识别的流程架构图;
图3为本申请实施例提供的一种文本信息的识别方法的流程图;
图4为本申请实施例提供的一种文本信息的识别方法的场景示意图;
图5为本申请实施例提供的另一种文本信息的识别方法的场景示意图;
图6为本申请实施例提供的另一种文本信息的识别方法的场景示意图;
图7为本申请实施例提供的另一种文本信息的识别方法的场景示意图;
图8为本申请实施例提供的另一种文本信息的识别方法的场景示意图;
图9为本申请实施例提供的另一种文本信息的识别方法的场景示意图;
图10为本申请实施例提供的另一种文本信息的识别方法的场景示意图;
图11为本申请实施例提供的另一种文本信息的识别方法的流程图;
图12为本申请实施例提供的另一种文本信息的识别方法的场景示意图;
图13为本申请实施例提供的一种文本信息的识别装置的结构示意图;
图14为本申请实施例提供的一种终端设备的结构示意图;
图15为本申请实施例提供的一种服务器的结构示意图。
具体实施方式
本申请实施例提供了一种文本信息的识别方法以及相关装置,可以应用于终端设备中包含文本信息的识别功能的系统或程序中,通过获取预设语料,预设语料与目标类型的文本信息相关联;然后基于预设规则从预设语料中提取对应于目标类型的多个正相关词,该预设规则基于预设语料中的词汇与目标标签的互信息设定,目标标签与目标类型相对应。进一步的调用预设语料和多个正相关词对预训练模型进行训练,以得到第一识别模型,预训练模型的训练过程基于训练任务进行,训练任务指示的掩蔽操作与多个正相关词相关联;并基于预设语料对第一识别模型进行调整,以得到第二识别模型;进而获取待检测信息,并将待检测信息输入第二识别模型中,以得到待检测信息中的文本信息对应于目标类型的识别结果。从而实现高效且准确的文本识别过程,由于筛选了与目标类型关联的正相关词,并采用与目标类型关联的预设语料以及补充的正相关词同时执行掩蔽操作,提高了目标类型关联词汇的掩蔽概率,保证了识别模型对于目标类型关联词汇的识别能力,进而提高了文本信息识别的准确性。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“对应于”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,对本申请实施例中可能出现的一些名词进行解释。
互信息(Mutual Information):是信息论里一种有用的信息度量,它可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不肯定性。
双向编码转换表示器(Bidirectional Encoder Representation fromTransformers,BERT):该模型用于利用大规模无标注语料训练、获得文本的包含丰富语义信息的表示,即:文本的语义表示,然后将文本的语义表示在特定自然语言处理任务中作调整,最终应用于该自然语言处理任务。
应理解,本申请提供的文本信息的识别方法可以应用于终端设备中包含文本信息的识别功能的系统或程序中,例如信息推送软件,具体的,文本信息的识别系统可以运行于如图1所示的网络架构中,如图1所示,是文本信息的识别系统运行的网络架构图,如图可知,文本信息的识别系统可以提供与多个信息源的文本信息的识别过程,即通过终端侧的触发操作对服务器发送待识别信息,进而在服务器进行关于目标类型的信息识别过程;可以理解的是,图1中示出了多种终端设备,终端设备可以为计算机设备,在实际场景中可以有更多或更少种类的终端设备参与到文本信息的识别的过程中,具体数量和种类因实际场景而定,此处不做限定,另外,图1中示出了一个服务器,但在实际场景中,也可以有多个服务器的参与,具体服务器数量因实际场景而定。
本实施例中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,终端以及服务器可以连接组成区块链网络,本申请在此不做限制。
可以理解的是,上述文本信息的识别系统可以运行于个人移动终端,例如:作为信息推送软件这样的应用,也可以运行于服务器,还可以作为运行于第三方设备以提供文本信息的识别,以得到信息源的文本信息的识别处理结果;具体的文本信息的识别系统可以是以一种程序的形式在上述设备中运行,也可以作为上述设备中的系统部件进行运行,还可以作为云端服务程序的一种,具体运作模式因实际场景而定,此处不做限定。
随着互联网技术的迅速发展,在人们生活中的信息流越来越丰富。但是在丰富的信息流中需要进行特征的区别;例如低俗(软色情)识别一直是信息流内容质量治理的一个重要任务。信息流内容包含多种形态,例如:图文、视频等,无论何种形态的内容,用户首先接触的是标题(短视频描述)和封面,因此如何对其中的文本信息进行识别成为难题,即如何进行自然语言处理。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
一般,可以通过机器学习模型进行文本信息的识别过程,即采用目标类型相关的语料对机器学习模型进行训练,然后对待识别信息流中的目标类型信息进行识别。
但是,对于采用目标类型相关的语料对机器学习模型进行训练的过程需要大量的语料,但是在语料收集的过程中无法保证语料的强相关性,使得机器学习模型偏离目标类型信息的识别维度,影响文本信息识别的准确性。
为了解决上述问题,本申请提出了一种文本信息的识别方法,该方法应用于图2所示的文本信息的识别的流程框架中,如图2所示,为本申请实施例提供的一种文本信息的识别的流程架构图,用户通过终端的交互操作向服务器发送待识别信息流,并在服务器确定识别的目标类型(例如低俗信息),进而调用对应类型的识别模型进行识别,该识别模型的训练过程。提取的低俗正相关词的基础上对预训练模型进一步预训练,强化了模型针对低俗文本识别任务的语义提取能力,最后在低俗数据上进行训练,其中,正相关词为根据频率与低俗标签的互信息提取n-gram作为候选词,然后使用BERT模型训练对候选词进行打分,筛选出低俗正相关词;而对于训练过程则是对低俗正相关词进行mask来让BERT模型进一步预训练,提升模型在低俗任务上的语义提取能力,从而提高了识别结果的准确性。
可以理解的是,本申请所提供的方法可以为一种程序的写入,以作为硬件系统中的一种处理逻辑,也可以作为一种文本信息的识别装置,采用集成或外接的方式实现上述处理逻辑。作为一种实现方式,该文本信息的识别装置通过获取预设语料,预设语料与目标类型的文本信息相关联;然后基于预设规则从预设语料中提取对应于目标类型的多个正相关词,该预设规则基于预设语料中的词汇与目标标签的互信息设定,目标标签与目标类型相对应。进一步的调用预设语料和多个正相关词对预训练模型进行训练,以得到第一识别模型,预训练模型的训练过程基于训练任务进行,训练任务指示的掩蔽操作与多个正相关词相关联;并基于预设语料对第一识别模型进行调整,以得到第二识别模型;进而获取待检测信息,并将待检测信息输入第二识别模型中,以得到待检测信息中的文本信息对应于目标类型的识别结果。从而实现高效且准确的文本识别过程,由于筛选了与目标类型关联的正相关词,并采用与目标类型关联的预设语料以及补充的正相关词同时执行掩蔽操作,提高了目标类型关联词汇的掩蔽概率,保证了识别模型对于目标类型关联词汇的识别能力,进而提高了文本信息识别的准确性。
本申请实施例提供的方案涉及人工智能的自然语言处理技术,具体通过如下实施例进行说明:
结合上述流程架构,下面将对本申请中文本信息的识别方法进行介绍,请参阅图3,图3为本申请实施例提供的一种文本信息的识别方法的流程图,该识别方法可以是由终端执行的,也可以是由服务器执行的,还可以是由服务器和终端共同执行的,本申请实施例至少包括以下步骤:
301、获取预设语料。
本实施例中,预设语料与目标类型的文本信息相关联;其中,目标类型的文本信息即为文本的类型说明,例如低俗类文本信息、色情类文本信息、感情类文本信息等。
可以理解的是,预设语料即为对应目标类型下的文本数据,包括但不限于文章、短语、摘要等各种可能的文本信息展现形式。
302、基于预设规则从预设语料中提取对应于目标类型的多个正相关词。
本实施例中,预设规则基于预设语料中的词汇与目标标签的互信息设定,目标标签与目标类型相对应。
可以理解的是,考虑到现在的预训练模型都是在大型的通用语料上做预训练,具有很强的通用性,并没有针对低俗短文本识别任务进行特殊处理,低俗文本的数据分布可能与预训练语料存在较大的差距,模型在低俗任务上无法取得很好的表现。而文本是否低俗大多与某些低俗倾向较强的词相关,某些词只有在特定的语境下才会有较强的低俗倾向,如:“花骨朵”,“那事”,“香蕉”,“下面”,故通过正相关词的扩展,可以增加这些词在特定场景中的识别率。
具体的,对于正相关词的确定过程可以是基于候选词的筛选而得到的,即首先基于预设规则从预设语料中提取对应于目标类型的多个候选词;然后将多个候选词输入预设识别模型进行打分,以得到候选特征值;进而基于候选特征值对候选词进行筛选,以得到多个正相关词,通过两层不同逻辑的词汇筛选,从而保证了正相关词的准确性。
可选的,对于候选词的确定过程可以是通过候选词生成算法进行的,该候选词生成算法即首先统计预设语料中各个词汇的频率信息;然后基于频率信息确定高频词汇;并基于预设规则确定高频词汇与目标标签的互信息;进而根据互信息确定对应于目标类型的多个候选词。具体的,在一种可能的场景中,由于低俗正相关词有两个主要特征:在目标任务中出现频率高;具有较高的低俗互信息(Mutual Information,MI)。
故可以首先提取n-gram(词汇)中频繁出现的n-gram,计算与低俗标签的互信息,保留满足阈值要求的作为候选词,根据中文的特点可以保留的最大n-gram为4-gram,即频率最大的4个词汇,生成候选词词表。
其中,互信息是衡量随机变量之间互相依赖程度的度量。假设存在一个随机变量X,和另一个随机变量Y,那么互信息用公式可以表示为:
I(X;Y)=H(X)-H(X|Y)
其中,H(X)是X的信息熵,H(X|Y)是已知X情况下,Y带来的信息熵。可以理解的是,当存在两个随机事件X,Y,其中一个随机事件X会带来一些不确定性H(X),从而衡量Y和X之间的关系。如果X和Y存在关联,当Y已知时,X会带来的不确定性会发生变化,这个变化值就是X的信息熵减去当已知Y时,X的条件熵,就是互信息。
可选的,对于正相关词的确定过程,还可以包括进一步的审核过程,即首先基于候选特征值对候选词进行筛选,以得到特征词集合;然后确定目标类型对应的特征词汇,例如具有代表性的低俗词汇;进一步的从特征词集合中调用与特征词汇相关联的词汇进行审核,以得到多个正相关词,例如通过人工专家进行词汇的审核,从而提高正相关词的准确性。
可选的,还可以调用外部词汇对正相关词进行更新,即首先基于目标类型确定检索词汇;然后向服务器发送检索词汇,以使得服务器建立目标词表;进而接收目标词表,并基于目标词表对多个正相关词进行更新,从而保证了正相关词的全面性。
303、调用预设语料和多个正相关词对预训练模型进行训练,以得到第一识别模型。
本实施例中,预训练模型的训练过程基于训练任务进行,训练任务指示的掩蔽操作与多个正相关词相关联;其中,目标类型为低俗类型信息,预训练模型为双向编码转换表示器,训练任务为自监督任务,自监督任务基于掩蔽语言模型进行。
在一种可能的场景中,预训练模型可以是BERT模型,BERT模型是一个多任务模型,它的任务主要由两个自监督任务组成,即掩蔽任务(Masked Language Model,MLM)和再预测任务(Next Sentence Prediction,NSP),这也是BERT Pretrain的主要训练任务,本申请的训练任务为针对MLM任务进行改进所得。
具体的,MLM是指在训练的时候随即从输入预料上mask掉一些单词,然后通过的上下文预测该单词,该任务非常像可以在中学时期经常做的完形填空。正如传统的语言模型算法和RNN匹配那样,MLM的这个性质和Transformer的结构是非常匹配的。在BERT的实验中,15%的WordPiece Token会被随机Mask掉,被mask的token中80%会直接替换为[Mask],10%将其替换为其它任意单词,10%会保留原始Token。故算法的改进主要在对token进行mask部分,BERT的原始Mask策略所有的token被mask的概率都是一样的,无法满足完成聚焦低俗正相关词的设想。可以需要在mask生成训练样本时增加低俗正相关词被mask的概率,使模型去更加关注低俗正相关词的语义环境。
具体的,对于掩蔽任务的执行过程,即首先调用预设语料和多个正相关词确定训练数据;然后基于预训练模型中的训练任务对训练数据进行随机掩蔽,以得到掩蔽序列;进而确定掩蔽序列对应的真实序列,以建立训练样本对;从而基于训练样本对预训练模型进行训练,以得到第一识别模型。
可选的,还可以将掩蔽的过程偏向于正相关词,即响应于正相关词的确定获取权重信息;然后基于权重信息对训练任务中掩蔽操作对应的掩蔽对象进行设定,以增加多个正相关词的掩蔽概率,从而使模型去更加关注低俗正相关词的语义环境。
304、基于预设语料对第一识别模型进行调整,以得到第二识别模型。
本实施例中,基于预设语料对第一识别模型进行调整(也可以称为微调)即执行fine-tuning的过程,例如BERT模型在预训练后的调整过程。
具体的,对于fine-tuning的过程,即首先响应于第一识别模型的生成确定目标场景;然后基于目标场景调用特征训练集;进而根据特征训练集和预设语料确定目标训练集;从而基于目标训练集对第一识别模型进行调整,以得到第二识别模型。
可以理解的是,上述训练过程中涉及两次BERT模型的训练,如图4所示,图4为本申请实施例提供的另一种文本信息的识别方法的场景示意图,即第一次为MLM任务的pre-training,第二次在pre-training的模型基础上进行fine-tuning。首先加载通用的预训练模型,在使用业务数据构建的数据集和构建的低俗正相关词词表上采用可以的mask策略进行MLM任务的Pre-training,然后使用训练后的模型在目标数据集上fine-tuning产生最终模型。
另外,选取的预训练模型可以替换为albert、RoBERTa等其他预训练模型,此处不做限定。
305、获取待检测信息,并将待检测信息输入第二识别模型中,以得到待检测信息中的文本信息对应于目标类型的识别结果。
本实施例中,待检测信息可以是视频、新闻标题或视频描述等流信息,也可以是采集到的信息集合。
具体的,对于信息识别的过程,基于不同的信息类型可以提取不同的文本信息,即首先获取待检测信息;然后确定待检测信息对应的信息类型;进而根据信息类型对待检测信息中的特征位置进行文本提取,以得到待检测信息中的文本信息;然后将文本信息输入第二识别模型中,以得到文本信息对应于目标类型的识别结果,从而针对性的对不同类型的文本进行提取。
可选的,由于不同的信息中文本的描述形式不同,故可以根据信息类型对待检测信息中的特征位置进行文本提取,以得到提取文本;确定信息类型对应的描述规则,例如标题的位置、摘要的位置、内容的形式(格式)要求等;进而基于描述规则对提取文本进行处理,以得到待检测信息中的文本信息。
可以理解的是,在得到识别结果后,可以基于识别结果确定分类标识;然后根据分类标识对待检测信息针对于目标对象进行推送,从而实现分类推送的过程。
结合上述实施例可知,通过获取预设语料,预设语料与目标类型的文本信息相关联;然后基于预设规则从预设语料中提取对应于目标类型的多个正相关词,该预设规则基于预设语料中的词汇与目标标签的互信息设定,目标标签与目标类型相对应。进一步的调用预设语料和多个正相关词对预训练模型进行训练,以得到第一识别模型,预训练模型的训练过程基于训练任务进行,训练任务指示的掩蔽操作与多个正相关词相关联;并基于预设语料对第一识别模型进行调整,以得到第二识别模型;进而获取待检测信息,并将待检测信息输入第二识别模型中,以得到待检测信息中的文本信息对应于目标类型的识别结果。从而实现高效且准确的文本识别过程,由于筛选了与目标类型关联的正相关词,并采用与目标类型关联的预设语料以及补充的正相关词同时执行掩蔽操作,提高了目标类型关联词汇的掩蔽概率,保证了识别模型对于目标类型关联词汇的识别能力,进而提高了文本信息识别的准确性。
下面结合低俗文本信息识别的场景进行说明,请参阅图5,图5为本申请实施例提供的另一种文本信息的识别方法的场景示意图。即本实施例包括了步骤501,即低俗正相关词词表的构建流程,以及步骤502,即基于低俗正相关词的预训练模型改进训练和推理流程。
具体的,对于低俗正相关词词表的构建流程,参见图6,图6为本申请实施例提供的另一种文本信息的识别方法的场景示意图;即首先通过候选生成算法提取候选词词表,然后使用训练的BERT低俗模型对候选词打分,打分筛选结合人工审核最后构成低俗正相关词词表。此外还可以补充外部低俗词表。
通过在低俗识别任务数据集上构建了低俗正相关词词表,在生成BERT模型的pretraining训练样本时可以首先检查该词是否在词表中,如果在词表中可以给予它一个较高的mask概率a,在mask生成训练样本时增加低俗正相关词被mask的概率,使模型去更加关注低俗正相关词的语义环境。为了防止模型在pretraining过程中过于关注低俗正相关词,发生灾难性的通用信息遗忘问题,对于不是低俗正相关词的词语也会以一定的小概率b被mask。通过上面的方式对BERT进行further pretraining时模型能够聚焦低俗正相关词的语义环境,学习到更好的低俗正相关词语义表征,从而提升低俗识别的效果。
对于本申请中的预训练模型可以为BERT模型,下面对BERT模型的结构进行介绍。如图7所示,图7为本申请实施例提供的另一种文本信息的识别方法的场景示意图;BERT使用Transformer作为算法的主要框架,Transformer能够更彻底地捕捉语句中的双向关系,Transformer的网络架构如下图,是一个encoder-decoder的结构,BERT网络结构图中的“Trm”对应着Transformer结构图中左侧的Encoder Block,它主要包括multi-headattention、Feed Forward、Add&Norm三个模块,而E代表字或词,T代表输出的隐含层。
进一步的,对于Transformer的网络架构如图8所示,图8为本申请实施例提供的另一种文本信息的识别方法的场景示意图;其中示出了Multi-head attention、FeedForward以及Add&Norm的组成。
具体的,Multi-head attention由h个平行self-attention层组成,self-attention的个数即为head的个数。对于任意一个head,在将数据传入self-attention层前,首先将queries,keys,values通过dense层,其公式表示为:
Figure BDA0002960142970000181
其中,向量表示对应的q为Query(对象);k为Key(键);v为Value(值)。
进一步的,将h个heads的输出连接起来送入最后的dense层,其公式表示为:
Figure BDA0002960142970000182
具体的,Feed Forward的输入形状为(batch size,sequence length,featuresize)。该层由两个dense层组成,其公式表示为::
FFN(x)=W2max(0,W1x+b1)+b2
具体的,Add&Norm中的Add是指residual connection,对较深层的神经网络有比较好的作用,减少信息在传播过程中的衰减;Norm指的是Layer Normalization,它的主要作用是防止在某些层中由于位置过大或过小导致数值,将分布归一化后,对应的梯度增大,减弱梯度消失,加快收敛速度。
另外,对于注意力机制的过程,参见图9,图9为本申请实施例提供的另一种文本信息的识别方法的场景示意图;其中,Query、Key和Value在上面增强字的语义表示这个应用场景中,目标字及其上下文的字都有各自的原始Value,Attention机制将目标字作为Query、其上下文的各个字作为Key,并将Query与各个Key的相似性作为权重,把上下文各个字的Value融入目标字的原始Value中。如下图所示,Attention机制将目标字和上下文各个字的语义向量表示作为输入,首先通过线性变换获得目标字的Query向量表示、上下文各个字的Key向量表示以及目标字与上下文各个字的原始Value表示,然后计算Query向量与各个Key向量的相似度作为权重,加权融合目标字的Value向量和各个上下文字的Value向量,作为Attention的输出,即:目标字的增强语义向量表示。
另外,对于BERT的输入,BERT的输入的编码向量是3个嵌入特征的和,如图10所示,图10为本申请实施例提供的另一种文本信息的识别方法的场景示意图;其中示出了词向量(Token Embedding),即第一个单词是CLS标志,可以用于之后的分类任务;位置向量(Position Embedding),即位置嵌入是指将单词的位置信息编码成特征向量,位置嵌入是向模型中引入单词位置关系的至关重要的一环;以及对象向量(Segment Embedding),即用于区分两个句子,例如B是否是A的下文(对话场景,问答场景等)。对于句子对,第一个句子的特征值是0,第二个句子的特征值是1。
通过BERT模型的设定,以及正相关词的掩蔽任务的执行,可以更好地学习到对低俗识别重要的低俗正相关词的上下文语义信息,在不增加模型参数的情况下显著提高模型在低俗文本识别任务上的效果。
下面结合在应用中的作品发布的场景进行说明。请参阅图11,图11为本申请实施例提供的另一种文本信息的识别方法的流程图,本申请实施例至少包括以下步骤:
1101、响应于目标操作获取待检测信息。
本实施例中,考虑到低俗文本识别是在新闻推送等产品上广泛应用的视频低俗识别和图文低俗识别的重要组成部分。模型输入为信息流内容的文本信息(视频或新闻标题、视频描述),经过预处理后输入模型,模型对文本完成低俗打分,而在内容侧根据低俗打分对内容进行过滤和降权。
具体的,目标操作可以是对于作品的上传操作,如图12所示,图12为本申请实施例提供的另一种文本信息的识别方法的场景示意图;用户点击上传后,会在服务进行文本识别的过程(参见图3所示实施例的描述),进而得到识别结果,从而触发界面中的提示元素A1,例如“包含低俗信息,请修改”。
1102、将待检测信息上传至服务器进行识别。
本实施例中,模型识别的过程参见图3所示实施例的描述,此处不做赘述。
1103、接收服务器发送的识别结果,并基于识别结果执行信息的推送。
本实施例中,可以根据识别的结果进行个性化的推送,例如只推送给18岁以上的用户群体等。
另外,除低俗信息的识别外,本申请同样可以用于情感分析等文本分析任务,具体目标类型因实际场景而定,从而实现了信息的个性化推送。
为了更好的实施本申请实施例的上述方案,下面还提供用于实施上述方案的相关装置。请参阅图13,图13为本申请实施例提供的一种文本信息的识别装置的结构示意图,识别装置1300包括:
获取单元1301,用于获取预设语料,所述预设语料与目标类型的文本信息相关联;
提取单元1302,用于基于预设规则从所述预设语料中提取对应于所述目标类型的多个正相关词,所述预设规则基于所述预设语料中的词汇与目标标签的互信息设定,所述目标标签与所述目标类型相对应。
训练单元1303,用于调用所述预设语料和多个所述正相关词对预训练模型进行训练,以得到第一识别模型,所述预训练模型的训练过程基于训练任务进行,所述训练任务指示的掩蔽操作与多个所述正相关词相关联;
所述训练单元1303,还用于基于所述预设语料对所述第一识别模型进行调整,以得到第二识别模型;
识别单元1304,用于获取待检测信息,并将所述待检测信息输入所述第二识别模型中,以得到所述待检测信息中的文本信息对应于所述目标类型的识别结果。
可选的,在本申请一些可能的实现方式中,所述提取单元1302,具体用于基于所述预设规则从所述预设语料中提取对应于所述目标类型的多个候选词;
所述提取单元1302,具体用于将多个所述候选词输入预设识别模型进行打分,以得到候选特征值;
所述提取单元1302,具体用于基于所述候选特征值对所述候选词进行筛选,以得到多个所述正相关词。
可选的,在本申请一些可能的实现方式中,所述提取单元1302,具体用于统计所述预设语料中各个词汇的频率信息;
所述提取单元1302,具体用于基于所述频率信息确定高频词汇;
所述提取单元1302,具体用于基于所述预设规则确定所述高频词汇与所述目标标签的互信息;
所述提取单元1302,具体用于根据所述互信息确定对应于所述目标类型的多个所述候选词。
可选的,在本申请一些可能的实现方式中,所述提取单元1302,具体用于基于所述候选特征值对所述候选词进行筛选,以得到特征词集合;
所述提取单元1302,具体用于确定所述目标类型对应的特征词汇;
所述提取单元1302,具体用于从所述特征词集合中调用与所述特征词汇相关联的词汇进行审核,以得到多个所述正相关词。
可选的,在本申请一些可能的实现方式中,所述提取单元1302,具体用于基于所述目标类型确定检索词汇;
所述提取单元1302,具体用于向服务器发送所述检索词汇,以使得所述服务器建立目标词表;
所述提取单元1302,具体用于接收所述目标词表,并基于所述目标词表对多个所述正相关词进行更新。
可选的,在本申请一些可能的实现方式中,所述训练单元1303,具体用于调用所述预设语料和多个所述正相关词确定训练数据;
所述训练单元1303,具体用于基于所述预训练模型中的训练任务对所述训练数据进行随机掩蔽,以得到掩蔽序列;
所述训练单元1303,具体用于确定所述掩蔽序列对应的真实序列,以建立训练样本对;
所述训练单元1303,具体用于基于所述训练样本对所述预训练模型进行训练,以得到所述第一识别模型。
可选的,在本申请一些可能的实现方式中,所述训练单元1303,具体用于响应于所述正相关词的确定获取权重信息;
所述训练单元1303,具体用于基于所述权重信息对所述训练任务中掩蔽操作对应的掩蔽对象进行设定,以增加多个所述正相关词的掩蔽概率。
可选的,在本申请一些可能的实现方式中,所述训练单元1303,具体用于响应于所述第一识别模型的生成确定目标场景;
所述训练单元1303,具体用于基于所述目标场景调用特征训练集;
所述训练单元1303,具体用于根据所述特征训练集和所述预设语料确定目标训练集;
所述训练单元1303,具体用于基于所述目标训练集对所述第一识别模型进行调整,以得到所述第二识别模型。
可选的,在本申请一些可能的实现方式中,所述识别单元1304,具体用于获取所述待检测信息;
所述识别单元1304,具体用于确定所述待检测信息对应的信息类型;
所述识别单元1304,具体用于根据所述信息类型对所述待检测信息中的特征位置进行文本提取,以得到所述待检测信息中的文本信息;
所述识别单元1304,具体用于将所述文本信息输入所述第二识别模型中,以得到所述文本信息对应于所述目标类型的识别结果。
可选的,在本申请一些可能的实现方式中,所述识别单元1304,具体用于根据所述信息类型对所述待检测信息中的特征位置进行文本提取,以得到提取文本;
所述识别单元1304,具体用于确定所述信息类型对应的描述规则;
所述识别单元1304,具体用于基于所述描述规则对所述提取文本进行处理,以得到所述待检测信息中的文本信息。
可选的,在本申请一些可能的实现方式中,所述识别单元1304,具体用于确定所述文本信息对应于所述目标类型的识别结果;
所述识别单元1304,具体用于基于所述识别结果确定分类标识;
所述识别单元1304,具体用于根据所述分类标识对所述待检测信息针对于目标对象进行推送。
通过获取预设语料,预设语料与目标类型的文本信息相关联;然后基于预设规则从预设语料中提取对应于目标类型的多个正相关词,该预设规则基于预设语料中的词汇与目标标签的互信息设定,目标标签与目标类型相对应。进一步的调用预设语料和多个正相关词对预训练模型进行训练,以得到第一识别模型,预训练模型的训练过程基于训练任务进行,训练任务指示的掩蔽操作与多个正相关词相关联;并基于预设语料对第一识别模型进行调整,以得到第二识别模型;进而获取待检测信息,并将待检测信息输入第二识别模型中,以得到待检测信息中的文本信息对应于目标类型的识别结果。从而实现高效且准确的文本识别过程,由于筛选了与目标类型关联的正相关词,并采用与目标类型关联的预设语料以及补充的正相关词同时执行掩蔽操作,提高了目标类型关联词汇的掩蔽概率,保证了识别模型对于目标类型关联词汇的识别能力,进而提高了文本信息识别的准确性。
本申请实施例还提供了一种终端设备,如图14所示,是本申请实施例提供的另一种终端设备的结构示意图,为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理(personal digital assistant,PDA)、销售终端(point of sales,POS)、车载电脑等任意终端设备,以终端为手机为例:
图14示出的是与本申请实施例提供的终端相关的手机的部分结构的框图。参考图14,手机包括:射频(radio frequency,RF)电路1410、存储器1420、输入单元1430、显示单元1440、传感器1450、音频电路1460、无线保真(wireless fidelity,WiFi)模块1470、处理器1480、以及电源1490等部件。本领域技术人员可以理解,图14中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图14对手机的各个构成部件进行具体的介绍:
RF电路1410可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器1480处理;另外,将设计上行的数据发送给基站。通常,RF电路1410包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(low noiseamplifier,LNA)、双工器等。此外,RF电路1410还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(globalsystem of mobile communication,GSM)、通用分组无线服务(general packet radioservice,GPRS)、码分多址(code division multiple access,CDMA)、宽带码分多址(wideband code division multiple access,WCDMA)、长期演进(long term evolution,LTE)、电子邮件、短消息服务(short messaging service,SMS)等。
存储器1420可用于存储软件程序以及模块,处理器1480通过运行存储在存储器1420的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器1420可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1420可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元1430可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元1430可包括触控面板1431以及其他输入设备1432。触控面板1431,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1431上或在触控面板1431附近的操作,以及在触控面板1431上一定范围内的隔空触控操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板1431可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1480,并能接收处理器1480发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1431。除了触控面板1431,输入单元1430还可以包括其他输入设备1432。具体地,其他输入设备1432可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元1440可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1440可包括显示面板1441,可选的,可以采用液晶显示器(liquidcrystal display,LCD)、有机发光二极管(organic light-emitting diode,OLED)等形式来配置显示面板1441。进一步的,触控面板1431可覆盖显示面板1441,当触控面板1431检测到在其上或附近的触摸操作后,传送给处理器1480以确定触摸事件的类型,随后处理器1480根据触摸事件的类型在显示面板1441上提供相应的视觉输出。虽然在图14中,触控面板1431与显示面板1441是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板1431与显示面板1441集成而实现手机的输入和输出功能。
手机还可包括至少一种传感器1450,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板1441的亮度,接近传感器可在手机移动到耳边时,关闭显示面板1441和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路1460、扬声器1461,传声器1462可提供用户与手机之间的音频接口。音频电路1460可将接收到的音频数据转换后的电信号,传输到扬声器1461,由扬声器1461转换为声音信号输出;另一方面,传声器1462将收集的声音信号转换为电信号,由音频电路1460接收后转换为音频数据,再将音频数据输出处理器1480处理后,经RF电路1410以发送给比如另一手机,或者将音频数据输出至存储器1420以便进一步处理。
WiFi属于短距离无线传输技术,手机通过WiFi模块1470可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图14示出了WiFi模块1470,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器1480是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器1420内的软件程序和/或模块,以及调用存储在存储器1420内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器1480可包括一个或多个处理单元;可选的,处理器1480可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1480中。
手机还包括给各个部件供电的电源1490(比如电池),可选的,电源可以通过电源管理系统与处理器1480逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本申请实施例中,该终端所包括的处理器1480还具有执行如上述页面处理方法的各个步骤的功能。
本申请实施例还提供了一种服务器,请参阅图15,图15是本申请实施例提供的一种服务器的结构示意图,该服务器1500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)1522(例如,一个或一个以上处理器)和存储器1532,一个或一个以上存储应用程序1542或数据1544的存储介质1530(例如一个或一个以上海量存储设备)。其中,存储器1532和存储介质1530可以是短暂存储或持久存储。存储在存储介质1530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1522可以设置为与存储介质1530通信,在服务器1500上执行存储介质1530中的一系列指令操作。
服务器1500还可以包括一个或一个以上电源1526,一个或一个以上有线或无线网络接口1550,一个或一个以上输入输出接口1558,和/或,一个或一个以上操作系统1541,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由管理装置所执行的步骤可以基于该图15所示的服务器结构。
本申请实施例中还提供一种计算机可读存储介质,该计算机可读存储介质中存储有文本信息的识别指令,当其在计算机上运行时,使得计算机执行如前述图3至图15所示实施例描述的方法中文本信息的识别装置所执行的步骤。
本申请实施例中还提供一种包括文本信息的识别指令的计算机程序产品,当其在计算机上运行时,使得计算机执行如前述图3至图15所示实施例描述的方法中文本信息的识别装置所执行的步骤。
本申请实施例还提供了一种文本信息的识别系统,所述文本信息的识别系统可以包含图13所描述实施例中的文本信息的识别装置,或图14所描述实施例中的终端设备,或者图15所描述的服务器。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,文本信息的识别装置,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (15)

1.一种文本信息的识别方法,其特征在于,包括:
获取预设语料,所述预设语料与目标类型的文本信息相关联;
基于预设规则从所述预设语料中提取对应于所述目标类型的多个正相关词,所述预设规则基于所述预设语料中的词汇与目标标签的互信息设定,所述目标标签与所述目标类型相对应;
调用所述预设语料和多个所述正相关词对预训练模型进行训练,以得到第一识别模型,所述预训练模型的训练过程基于训练任务进行,所述训练任务指示的掩蔽操作与多个所述正相关词相关联;
基于所述预设语料对所述第一识别模型进行调整,以得到第二识别模型;
获取待检测信息,并将所述待检测信息输入所述第二识别模型中,以得到所述待检测信息中的文本信息对应于所述目标类型的识别结果。
2.根据权利要求1所述的方法,其特征在于,所述基于预设规则从所述预设语料中提取对应于所述目标类型的多个正相关词,包括:
基于所述预设规则从所述预设语料中提取对应于所述目标类型的多个候选词;
将多个所述候选词输入预设识别模型进行打分,以得到候选特征值;
基于所述候选特征值对所述候选词进行筛选,以得到多个所述正相关词。
3.根据权利要求2所述的方法,其特征在于,所述基于所述预设规则从所述预设语料中提取对应于所述目标类型的多个候选词,包括:
统计所述预设语料中各个词汇的频率信息;
基于所述频率信息确定高频词汇;
基于所述预设规则确定所述高频词汇与所述目标标签的互信息;
根据所述互信息确定对应于所述目标类型的多个所述候选词。
4.根据权利要求2所述的方法,其特征在于,所述基于所述候选特征值对所述候选词进行筛选,以得到多个所述正相关词,包括:
基于所述候选特征值对所述候选词进行筛选,以得到特征词集合;
确定所述目标类型对应的特征词汇;
从所述特征词集合中调用与所述特征词汇相关联的词汇进行审核,以得到多个所述正相关词。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
基于所述目标类型确定检索词汇;
向服务器发送所述检索词汇,以使得所述服务器建立目标词表;
接收所述目标词表,并基于所述目标词表对多个所述正相关词进行更新。
6.根据权利要求1所述的方法,其特征在于,所述调用所述预设语料和多个所述正相关词对预训练模型进行训练,以得到第一识别模型,包括:
调用所述预设语料和多个所述正相关词确定训练数据;
基于所述预训练模型中的训练任务对所述训练数据进行随机掩蔽,以得到掩蔽序列;
确定所述掩蔽序列对应的真实序列,以建立训练样本对;
基于所述训练样本对所述预训练模型进行训练,以得到所述第一识别模型。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
响应于所述正相关词的确定获取权重信息;
基于所述权重信息对所述训练任务中掩蔽操作对应的掩蔽对象进行设定,以增加多个所述正相关词的掩蔽概率。
8.根据权利要求1所述的方法,其特征在于,所述基于所述预设语料对所述第一识别模型进行调整,以得到第二识别模型,包括:
响应于所述第一识别模型的生成确定目标场景;
基于所述目标场景调用特征训练集;
根据所述特征训练集和所述预设语料确定目标训练集;
基于所述目标训练集对所述第一识别模型进行调整,以得到所述第二识别模型。
9.根据权利要求1所述的方法,其特征在于,所述获取待检测信息,并将所述待检测信息输入所述第二识别模型中,以得到所述待检测信息中的文本信息对应于所述目标类型的识别结果,包括:
获取所述待检测信息;
确定所述待检测信息对应的信息类型;
根据所述信息类型对所述待检测信息中的特征位置进行文本提取,以得到所述待检测信息中的文本信息;
将所述文本信息输入所述第二识别模型中,以得到所述文本信息对应于所述目标类型的识别结果。
10.根据权利要求9所述的方法,其特征在于,所述根据所述信息类型对所述待检测信息中的特征位置进行文本提取,以得到所述待检测信息中的文本信息,包括:
根据所述信息类型对所述待检测信息中的特征位置进行文本提取,以得到提取文本;
确定所述信息类型对应的描述规则;
基于所述描述规则对所述提取文本进行处理,以得到所述待检测信息中的文本信息。
11.根据权利要求1-10任一项所述的方法,其特征在于,所述方法还包括:
确定所述文本信息对应于所述目标类型的识别结果;
基于所述识别结果确定分类标识;
根据所述分类标识对所述待检测信息针对于目标对象进行推送。
12.根据权利要求1所述的方法,其特征在于,所述目标类型为低俗类型信息,所述预训练模型为双向编码转换表示器,所述训练任务为自监督任务,所述自监督任务基于掩蔽语言模型进行。
13.一种文本信息的识别装置,其特征在于,包括:
获取单元,用于获取预设语料,所述预设语料与目标类型的文本信息相关联;
提取单元,用于基于预设规则从所述预设语料中提取对应于所述目标类型的多个正相关词,所述预设规则基于所述预设语料中的词汇与目标标签的互信息设定,所述目标标签与所述目标类型相对应;
训练单元,用于调用所述预设语料和多个所述正相关词对预训练模型进行训练,以得到第一识别模型,所述预训练模型的训练过程基于训练任务进行,所述训练任务指示的掩蔽操作与多个所述正相关词相关联;
所述训练单元,还用于基于所述预设语料对所述第一识别模型进行调整,以得到第二识别模型;
识别单元,用于获取待检测信息,并将所述待检测信息输入所述第二识别模型中,以得到所述待检测信息中的文本信息对应于所述目标类型的识别结果。
14.一种计算机设备,其特征在于,所述计算机设备包括处理器以及存储器:
所述存储器用于存储程序代码;所述处理器用于根据所述程序代码中的指令执行权利要求1至12任一项所述的文本信息的识别方法。
15.一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述权利要求1至12任一项所述的文本信息的识别方法。
CN202110234556.7A 2021-03-03 2021-03-03 一种文本信息的识别方法以及相关装置 Active CN113704447B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110234556.7A CN113704447B (zh) 2021-03-03 2021-03-03 一种文本信息的识别方法以及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110234556.7A CN113704447B (zh) 2021-03-03 2021-03-03 一种文本信息的识别方法以及相关装置

Publications (2)

Publication Number Publication Date
CN113704447A true CN113704447A (zh) 2021-11-26
CN113704447B CN113704447B (zh) 2024-05-03

Family

ID=78647807

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110234556.7A Active CN113704447B (zh) 2021-03-03 2021-03-03 一种文本信息的识别方法以及相关装置

Country Status (1)

Country Link
CN (1) CN113704447B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030046297A1 (en) * 2001-08-30 2003-03-06 Kana Software, Inc. System and method for a partially self-training learning system
CN107766323A (zh) * 2017-09-06 2018-03-06 淮阴工学院 一种基于互信息和关联规则的文本特征提取方法
CN109934251A (zh) * 2018-12-27 2019-06-25 国家计算机网络与信息安全管理中心广东分中心 一种用于小语种文本识别的方法、识别系统及存储介质
CN111506729A (zh) * 2020-04-17 2020-08-07 腾讯科技(深圳)有限公司 一种信息处理方法、装置及计算机可读存储介质
CN111597306A (zh) * 2020-05-18 2020-08-28 腾讯科技(深圳)有限公司 语句识别方法和装置、存储介质及电子设备
CN111767403A (zh) * 2020-07-07 2020-10-13 腾讯科技(深圳)有限公司 一种文本分类方法和装置
CN112084337A (zh) * 2020-09-17 2020-12-15 腾讯科技(深圳)有限公司 文本分类模型的训练方法、文本分类方法及设备
WO2021000497A1 (zh) * 2019-07-03 2021-01-07 平安科技(深圳)有限公司 检索方法、装置、计算机设备和存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030046297A1 (en) * 2001-08-30 2003-03-06 Kana Software, Inc. System and method for a partially self-training learning system
CN107766323A (zh) * 2017-09-06 2018-03-06 淮阴工学院 一种基于互信息和关联规则的文本特征提取方法
CN109934251A (zh) * 2018-12-27 2019-06-25 国家计算机网络与信息安全管理中心广东分中心 一种用于小语种文本识别的方法、识别系统及存储介质
WO2021000497A1 (zh) * 2019-07-03 2021-01-07 平安科技(深圳)有限公司 检索方法、装置、计算机设备和存储介质
CN111506729A (zh) * 2020-04-17 2020-08-07 腾讯科技(深圳)有限公司 一种信息处理方法、装置及计算机可读存储介质
CN111597306A (zh) * 2020-05-18 2020-08-28 腾讯科技(深圳)有限公司 语句识别方法和装置、存储介质及电子设备
CN111767403A (zh) * 2020-07-07 2020-10-13 腾讯科技(深圳)有限公司 一种文本分类方法和装置
CN112084337A (zh) * 2020-09-17 2020-12-15 腾讯科技(深圳)有限公司 文本分类模型的训练方法、文本分类方法及设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
雷景生;钱叶;: "基于ERNIE-BiGRU模型的中文文本分类方法", 上海电力大学学报, no. 04, 15 August 2020 (2020-08-15) *

Also Published As

Publication number Publication date
CN113704447B (zh) 2024-05-03

Similar Documents

Publication Publication Date Title
CN109145303B (zh) 命名实体识别方法、装置、介质以及设备
CN109241431B (zh) 一种资源推荐方法和装置
CN107943860B (zh) 模型的训练方法、文本意图的识别方法及装置
CN111931501B (zh) 一种基于人工智能的文本挖掘方法、相关装置及设备
CN108280458A (zh) 群体关系类型识别方法及装置
CN111816159B (zh) 一种语种识别方法以及相关装置
CN110570840B (zh) 一种基于人工智能的智能设备唤醒方法和装置
CN111597804B (zh) 一种实体识别模型训练的方法以及相关装置
CN109033156B (zh) 一种信息处理方法、装置及终端
CN110162600B (zh) 一种信息处理的方法、会话响应的方法及装置
CN112749252B (zh) 一种基于人工智能的文本匹配方法和相关装置
CN111159338A (zh) 一种恶意文本的检测方法、装置、电子设备及存储介质
CN113761122A (zh) 一种事件抽取方法、相关装置、设备及存储介质
CN112862021B (zh) 一种内容标注方法和相关装置
CN111738000B (zh) 一种短语推荐的方法以及相关装置
CN112328783A (zh) 一种摘要确定方法和相关装置
CN111553163A (zh) 文本相关度的确定方法、装置、存储介质及电子设备
CN113505596B (zh) 话题切换标记方法、装置及计算机设备
CN112307198B (zh) 一种单文本的摘要确定方法和相关装置
CN113704447B (zh) 一种文本信息的识别方法以及相关装置
CN113569043A (zh) 一种文本类别确定方法和相关装置
CN111723783A (zh) 一种内容识别方法和相关装置
CN116975295B (zh) 一种文本分类方法、装置及相关产品
CN113590832A (zh) 一种基于位置信息的文本识别方法以及相关装置
CN115730030A (zh) 一种评论信息的处理方法以及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant