CN112036167A - 数据处理方法、装置、服务器及存储介质 - Google Patents

数据处理方法、装置、服务器及存储介质 Download PDF

Info

Publication number
CN112036167A
CN112036167A CN202010868456.5A CN202010868456A CN112036167A CN 112036167 A CN112036167 A CN 112036167A CN 202010868456 A CN202010868456 A CN 202010868456A CN 112036167 A CN112036167 A CN 112036167A
Authority
CN
China
Prior art keywords
text
target
sample set
initial
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010868456.5A
Other languages
English (en)
Other versions
CN112036167B (zh
Inventor
唐亚腾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010868456.5A priority Critical patent/CN112036167B/zh
Publication of CN112036167A publication Critical patent/CN112036167A/zh
Application granted granted Critical
Publication of CN112036167B publication Critical patent/CN112036167B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例公开了一种数据处理方法、装置、服务器及存储介质,其中方法包括:获取第一样本集,第一样本集包括多个第一文本的标注信息,以及各个第一文本对应的第一词向量组,标注信息用于指示第一文本的类型,类型包括正常类型或异常类型;获取第二样本集,第二样本集包括多个第二文本中各个第二文本对应的第二词向量组,第二文本是对第一文本进行文本表现形式的转换得到的,文本表现形式包括以下任一种:中文表现形式、英文表现形式和拼音表现形式;采用第一样本集和第二样本集对初始识别模型进行训练,得到目标识别模型,目标识别模型用于识别文本的类型,可训练得到较高的识别准确度的文本识别模型。

Description

数据处理方法、装置、服务器及存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据处理方法、装置、服务器及存储介质。
背景技术
随着当前互联网技术的深入发展,基于互联网的信息搜索可极大地提升用户的信息获取速度,因此,各种网络搜索平台因运而生,而网络搜索平台在对用户的信息搜索进行响应时,需要先进行敏感词检测,以确定出显示给用户的文本的类型,从而可避免将非法内容(或敏感内容)显示给用户,造成不好的社会影响。当前确定文本类型的方法是采用的通过文本识别模型对文本进行识别,并确定出文本的类型的方法,但当前进行模型训练得到该文本识别模型的样本数据比较单一,使得当前的文本识别模型进行文本类型的识别时的准确度较低,由此,如何训练得到较高准确度的类型识别模型是当前的研究热点。
发明内容
本发明实施例提供了一种数据处理方法、装置、服务器及存储介质,可训练得到较高的识别准确度的文本识别模型。
一方面,本发明实施例提供了一种数据处理方法,包括:
获取第一样本集,所述第一样本集包括多个第一文本的标注信息,以及各个第一文本对应的第一词向量组,所述标注信息用于指示所述第一文本的类型,所述类型包括正常类型或异常类型;
获取第二样本集,所述第二样本集包括多个第二文本中各个第二文本对应的第二词向量组,所述第二文本是对所述第一文本进行文本表现形式的转换得到的,所述文本表现形式包括以下任一种:中文表现形式、英文表现形式和拼音表现形式;
采用所述第一样本集和所述第二样本集对初始识别模型进行训练,得到目标识别模型,所述目标识别模型用于识别文本的类型。
再一方面,本发明实施例提供了一种数据处理装置,包括:
获取单元,用于获取第一样本集,所述第一样本集包括多个第一文本的标注信息,以及各个第一文本对应的第一词向量组,所述标注信息用于指示所述第一文本的类型,所述类型包括正常类型或异常类型;
所述获取单元,还用于获取第二样本集,所述第二样本集包括多个第二文本中各个第二文本对应的第二词向量组,所述第二文本是对所述第一文本进行文本表现形式的转换得到的,所述文本表现形式包括以下任一种:中文表现形式、英文表现形式和拼音表现形式;
训练单元,用于采用所述第一样本集和所述第二样本集对初始识别模型进行训练,得到目标识别模型,所述目标识别模型用于识别文本的类型。
再一方面,本发明实施例提供了一种服务器,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储支持终端执行上述方法的计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如下步骤:
获取第一样本集,所述第一样本集包括多个第一文本的标注信息,以及各个第一文本对应的第一词向量组,所述标注信息用于指示所述第一文本的类型,所述类型包括正常类型或异常类型;
获取第二样本集,所述第二样本集包括多个第二文本中各个第二文本对应的第二词向量组,所述第二文本是对所述第一文本进行文本表现形式的转换得到的,所述文本表现形式包括以下任一种:中文表现形式、英文表现形式和拼音表现形式;
采用所述第一样本集和所述第二样本集对初始识别模型进行训练,得到目标识别模型,所述目标识别模型用于识别文本的类型。
再一方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有程序指令,所述程序指令被处理器执行时,用于执行如第一方面所述的数据处理方法。
在本发明实施例中,服务器可先获取包括了多个第一文本的标注信息,以及每个第一文本对应的第一词向量组的第一样本集,此外,该服务器还可获取由多个第二文本中各个第二文本对应的第二词向量组构成的第二文本集,其中,该第二文本是对该第一文本进行文本表现形式的转换得到的,从而可采用该第一样本集和该第二样本集对初始识别模型进行训练,得到目标识别模型,服务器通过对第一文本的文本表现形式进行的转换,实现了对用于进行识别模型训练的样本集的扩充,即由原有的仅包括第一文本对应的第一词向量组的第一样本集,扩充为包括该第一样本集和第二样本集的两个训练样本集,由于该扩充的第二样本集是基于第一样本集进行转换得到的,可降低服务器进行样本采集的压力,而基于对原有训练样本的扩充,使得服务器可基于更加泛化的样本数据对该初始识别模型进行训练,可提升训练得到的目标识别模型进行文本识别的能力。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种训练得到向量生成模型的示意图;
图2是本发明实施例提供的一种数据处理方法的示意流程图;
图3a是本发明实施例提供的一种得到目标文本的示意图;
图3b是本发明实施例提供的一种不同文本表现形式的文本的示意图;
图3c是本发明实施例提供的一种目标识别模型的示意图;
图4是本发明实施例提供的一种数据处理方法的示意流程图;
图5是本发明实施例提供的一种数据处理方法的示意图;
图6是本发明实施例提供的一种数据处理装置的示意性框图;
图7是本发明实施例提供的一种服务器的示意性框图。
具体实施方式
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器(或服务器),也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科,通过模型训练以使得服务器对人类的学习行为进行模型,从而获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。本发明实施例提供了一种数据处理方法,该数据处理方法在原有的第一样本集的基础上,基于对文本表现形式的转换,得到第二样本集,并采用第一样本集和第二样本集同时对初始识别模型进行训练,得到目标识别模型的方法,使得训练得到的目标识别模型在对原有文本的语义进行识别的基础上,扩展了对原有文本的转换文本进行识别理解的能力,从而可提升目标识别模型的文本识别能力,提高识别准确性。
在具体实现中,服务器在进行模型训练并得到目标识别模型时,可先获取多个第一文本,每个第一文本是关联了标注信息的文本,其中,该第一文本为短文本,该短文本可以是文章标题,文章摘要中的一个短句,或者文章正文中的一个短句,该标注信息用于指示对应第一文本的类型,该类型包括正常类型或者异常类型,该正常类型是指不包括敏感词的类型,异常类型则是指包括敏感词的类型,在一个实施例中,若该多个第一文本中的任一第一文本为目标文本,如果该目标文本不包括敏感词,则该目标文本的类型则为正常类型,对应为该正常类型的目标文本添加的标注信息则为0,该正常类型的文本例如可以是“如何用软件进行搜索”。在一个实施例中,若目标文本为包括敏感词的文本,如该目标文本为“用哪个软件可以翻墙”,该目标文本中包括的敏感词为翻墙,那么说明该目标文本的类型为异常类型,则对应为该异常类型的目标文本添加的标注信息则为1,可以理解的是,正常类型的文本和异常类型的文本还可用X和Y进行区分表示,如用X表示正常类型的文本,用Y表示异常类型的文本,其中,本发明实施例对正常类型和异常类型的文本进行区分表示的方法不做限定。
在一个实施例中,敏感词是指带有政治倾向,或反执政党倾向,暴力倾向,不健康色彩的词语等不文明语,或者,该敏感词也可以是预设的其他特殊词,如和前述的不文明语相关联的词语,例如不文明语的同义词,形近字等。在一个实施例中,服务器获取的第一文本,以及该第一文本关联的标注信息的存储格式为(第一文本,标注信息),那么上述的正常类型的目标文本对应的存储格式则为(如何用软件进行搜索,0),异常类型的目标文本对应的存储格式则为(用哪个软件可以翻墙,1),为了提升训练得到的目标模型进行文本识别时的能力,在服务器获取到多个第一文本后,可对每个第一文本的文本表现形式进行转换,得到转换后的第二文本,其中,该文本表现形式包括中文表现形式,英文表现形式和拼音表现形式中的任意一种,那么若该第一文本的文本表现形式为中文,则转换后的第二文本的文本表现形式则可以为拼音或者英文,举例来说,如上述的目标文本:“用哪个软件可以翻墙”,进行文本表现形式转换得到的目标文本则可以是“yong na ge ruan jian ke yi fanqiang”,或者,进行文本表现形式得到的目标文本还可以是“which software can go overthe wall”。
在一个实施例中,基于对文本表现形式的转换得到第一文本对应的第二文本后,服务器在对转换得到的第二文本进行存储时,可直接存储得到的第二文本,或者,也可将得到的第二文本与对应的标注信息相关联后,并将该第二文本与对应的标注信息进行关联存储。在一个实施例中,在服务器确定出多个第一文本,以及对应的多个第二文本后,进一步地,该服务器可对该第一文本和第二文本分别进行分词处理,进而得到该第一文本对应的第一词向量组,以及该第二文本对应的第二词向量组,在本发明实施例中,服务器确定该第一文本对应的第一词向量组,以及该第二文本对应的第二词语组的方法类似,因此,若用目标文本表示任一个第一文本或者任一个第二文本,那么服务器确定该目标文本对应的目标词向量组的方式,即是该服务器确定第一文本对应的第一词向量组,以及该第二文本对应的第二词语组的方式。在具体实现中,服务器在确定目标文本对应的目标词向量组之前,需要先训练得到用于生成词向量的向量生成模型,在一个实施例中,服务器可采用第三样本集对用于生成词向量的初始模型进行训练,从而得到该向量生成模型,该第三样本集包括多个第三文本,且该第三文本为无标注文本,可以理解的是,无标注文本即没有相关联的标注信息的文本。
在一个实施例中,服务器采用第三样本集对该初始模型进行训练的流程图可如图1所示,服务器可执行步骤s11~s14,以实现对初始模型进行训练,并得到向量生成模型:
s11,获取大量的没有标注信息的第三文本,并将每个第三文本进行文本表现形式的转换,得到每个第三文本对应的转换文本;
s12,采用多个第三文本对初始模型进行训练,并得到训练词向量,其中,该初始模型例如可以是word2vec(一种浅而双层的神经网络)模型;
s13,采用转换文本对初始模型进行训练,从而得到转换文本对应的训练词向量;
s14,基于训练词向量确定向量生成模型。
在一个实施例中,服务器在得到向量生成模型后,则可调用该向量生成模型确定出该目标文本对应的目标词向量组,在具体实现中,该服务器可先对该目标文本进行分词处理,得到该目标文本的分词集合,进而可调用该向量生成模型对该分词集合中的每个分词进行词向量生成处理,得到每个分词的词向量,并在对每个分词的词向量进行向量转化后,将转换得到的每个分词的词向量的隐式表达作为该目标词向量组。在一个实施例中,该目标词向量组中的每个词向量与该目标文本进行分词处理后得到的一个分词相对应,例如,若中文表现形式的目标文本为“用哪个软件可以翻墙”,则对该中文表现形式的目标文本进行分词处理后得到的分词集合为“用/哪个/软件/可以/翻墙”,那么调用向量生成模型确定出的该目标文本的目标词向量组包括:分词“用”的词向量,分词“哪个”的词向量,分词“软件”的词向量,分词“可以”的词向量,以及分词“翻墙”的词向量,可以理解的是,目标词向量组是包括多个分词对应词向量的多维词向量组,可以理解的是,中文表现形式的目标文本对应的目标词向量组即是该第一样本集中的第一词向量组。
在一个实施例中,若该目标文本为“yong na ge ruan jian ke yi fan qiang”,服务器在确定拼音表现形式的目标文本对应的目标词向量组时,以字为基本单位对该拼音表现形式的目标文本进行分词处理,那么,对该拼音表现形式的目标文本进行分词处理后的分词集合为“yong/na/ge/ruan/jian/ke/yi/fan/qiang”,该拼音表现形式的目标文本对应的目标词向量组则包括,拼音“yong”的词向量,拼音“na”的词向量,拼音“ge”的词向量,拼音“ruan”的词向量,拼音“jian”的词向量,拼音“ke”的词向量,拼音“yi”的词向量,拼音“fan”的词向量,以及拼音“qiang”的词向量。在一个实施例中,该拼音表现形式的目标文本对应的目标词向量组即是第二样本集中的第二词向量组。在一个实施例中,服务器在确定出第一样本集和第二样本集后,则可采用该第一样本集和该第二样本集对初始模型进行训练,从而得到用于对文本的类型进行识别的目标识别模型,服务器基于对文本表现形式的转换,可实现对训练样本的数量和类型的扩充,从而使得训练得到的目标识别模型在除了具备对中文表现形式的敏感词进行检测的能力之外,还具备了对其他表现形式(如上述的英文或拼音形式)的敏感词进行检测的能力,从而也就提升了服务器调用目标识别模型进行文本识别的能力。
请参见图2,是本发明实施例提供的一种数据处理方法的示意流程图,如图2所示,该方法可包括:
S201,获取第一样本集,该第一样本集包括多个第一文本的标注信息,以及各个第一文本对应的第一词向量组,该标注信息用于指示该第一文本的类型,该类型包括正常类型或异常类型。
在一个实施例中,该第一样本集包括的第一文本的标注信息是根据该第一文本的类型确定的,该文本类型包括正常类型或异常类型,该正常类型的文本是指包括敏感词的文本,异常类型的文本是指不包括敏感词的文本,该敏感词即是上述的带有政治倾向,或反执政党倾向,暴力倾向,不健康色彩的词语等不文明语,或者,也可以是预设的其他特殊词,服务器可接收开发人员设置的敏感词,并将该敏感词存储到词汇黑名单中,进一步地,服务器在获取到多个第一文本后,该多个第一文本中的任一个第一文本可表示为目标文本,服务器在确定该目标文本(即任一个第一文本)的类型时,可对该目标文本进行分词处理,得到该目标文本对应的分词集合,进而可将该目标文本的每个分词与该词汇黑名单中的敏感词进行对比,若该目标文本中存在敏感词,则认为该目标文本的类型为异常类型,而如果该目标文本不存在敏感词,则认为该目标文本的类型为正常类型。
在一个实施例中,服务器在确定出目标文本的类型后,可基于该类型为目标文本添加标注信息,该标注信息例如可以是0或者1,0用于指示正常类型的文本,1用于指示异常类型的文本;或者,为该目标文本添加的标注信息还可以是X或者Y,用X指示正常类型的文本,Y用于指示异常类型的文本,本发明实施例中,对具体添加的标注信息不做限定。在一个实施例中,该目标文本是服务器对初始样本进行增强处理后得到的,具体地,服务器对初始样本,以及该初始样本的标注信息进行存储的存储格式为(初始样本,标注信息),例如可以是(用哪个软件可以翻墙,1),或者,(如何用软件进行搜索,0),那么服务器对初始样本进行增强处理得到目标文本的示意图可如图3a所示,具体执行步骤包括s21~s25:
s21,服务器获取初始样本以及对应的标注信息,进一步可获取转换词典,以基于该转换词典对初始样本的文本表现形式进行转换,对文本表现形式的转换例如是(软,ruan),(件,jian);
s22,对初始样本进行分词处理,得到该初始样本的多个初始分词,例如该初始样本为(用哪个软件可以翻墙,1),对该初始样本进行分词处理后则为(用/哪个/软件/可以/翻墙,1);
s23,计算该多个分词中每个分词与标注信息之间的互信息值,并基于该互信息(mutual information)值的取值大小,按照取值从大到小的顺序依次获取N个分词作为目标敏感词,该N为大于0的正整数,N的取值可以是3000或者5000等;
其中,互信息是用来评价一个事件的出现对于另一个事件的出现所贡献的信息量。使用互信息理论进行特征抽取是基于如下假设:在某个特定类别出现频率高,但在其他类别出现频率比较低的词条与该类的互信息比较大。通常用互信息作为特征词和类别之问的测度,如果特征词属于该类的话,它们的互信息量最大,可以理解的是,互信息值的取值越大,说明该分词属于该标识信息指示的文本的类型的概率就越大;
s24,根据转换词典将步骤s23中确定出的目标敏感词进行关联敏感词替换,该关联敏感词可以是该目标敏感词的同义词,同音词,拼音替换,图标替换,象形字或者存在形近字的词,如若初始样本为(用/哪个/软件/可以/翻墙,1),采用步骤s23中确定出的目标敏感词为“翻墙”,则将翻墙中的某个字进行同音字,同义字,形近字或者拼音替换,可得到(用/哪个/软件/可以/翻qiang,1),(用/哪个/软件/可以/翩墙,1),(用/哪个/软件/可以/翻樯,1)等多个关联样本;在一个实施例中,对该目标敏感词“翻墙”进行图标替换后得到的关联样本中的敏感词例如可以是如图3b中由301所示的词语形式,或者,对该目标敏感词“翻墙”进行象形字替换后得到的关联文本中的敏感词例如可以是如图3b中由302所示的词语形式。
s25,保存该关联样本和初始样本作为目标文本。
在一个实施例中,基于对原有的初始文本的增强处理,服务器可获取到更多的转换文本,从而远远增大原有样本的数量,也就使得服务器后续在采用增强处理后的文本的词向量对模型进行训练时,训练得到的模型对文本的类型进行识别的准确性。在一个实施例中,服务器可采用上述步骤s21~s25实现对每个初始样本进行数据增强得到多个第一文本,从而可调用向量生成模型对第一文本进行词向量生成处理,得到每个第一文本对应的第一词向量组,并将该每个第一词向量组和对应的第一文本的标注信息相关联,得到第一样本集。
S202,获取第二样本集,该第二样本集包括多个第二文本中各个第二文本对应的第二词向量组。
在一个实施例中,该第二文本是对该第一文本进行文本表现形式的转换得到的,该文本表现形式包括以下任一种:中文表现形式、英文表现形式和拼音表现形式,文本表现形式的转换包括以下任一种:将中文表现形式转换为英文表现形式,将中文表现形式转换为拼音表现形式,或者将中文表现形式转换为英文表现形式和拼音表现形式。此外,该文本表现形式可以是图标形式,如文本“鸡蛋”对应的图标形式可以是鸡蛋图标,或者,符号形式,如文本“对”对应的符号形式是“√”,或者象形字形式等,在一个实施例中,服务器在将第一文本进行文本表现形式的转化得到第二文本时,也是基于转换词典进行转换的,该转换词典例如可以是英文词典,拼音词典,图标词典,符号词典或者象形字词典等,那么可以理解的是,服务器在将中文表现形式转化为英文表现形式时,可采用英文词典进行文本表现形式的转换,在将中文表现形式转换为拼音表现形式时,则可采用拼音词典进行文本表现形式的转换,在将中文表现形式转化为图标表现形式时,可采用图标词典进行文本表现形式的转换,在将中文表现形式转化为符号表现形式时,可采用符号词典进行文本表现形式的转换,在将中文表现形式转化为象形字表现形式时,可采用象形字词典进行文本表现形式的转换。在本发明实施例中,以将中文表现形式转换为拼音表现形式进行详细叙述,并以该多个第一文本中为中文表现形式的目标文本进行详细说明,其他文本表现形式的转化可参见本发明实施例,该中文表现形式的目标文本例如可以是“用哪个软件可以翻墙”,那么采用拼音字典将该中文表现形式的目标文本转换为拼音表现形式后的转换文本则为“yong na ge ruan jian ke yi fan qiang”,基于对每个第一文本的转换,可得到多个第二文本,并可获取得到的每个第二文本的第二词向量组,进而获取到第二样本集。
在一个实施例中,服务器也可调用该向量生成模型,确定出每个第二文本的第二词向量组,该向量生成模型是根据没有关联的标注文本的多个第三文本对用于生成词向量的初始模型进行训练得到的,具体地,服务器在对初始模型进行训练得到向量生成模型的过程可参见上述图1的描述。在一个实施例中,服务器在获取到第一样本集和第二样本集后,则可采用该第一样本集和该第二样本集对初始识别模型进行训练,并得到目标识别模型,即转而执行步骤S203。
S203,采用该第一样本集和该第二样本集对初始识别模型进行训练,得到目标识别模型,该目标识别模型用于识别文本的类型。
在一个实施例中,服务器在采用该第一样本集和第二样本集对该初始模型进行训练时,可分别将该第一样本集和该第二样本集输入到该初始识别模型中,并基于该第一样本集包括的标注信息,对该初始识别模型进行监督训练,从而得到目标识别模型,或者服务器还可在得到该第一样本集和该第二样本集后,先对该第一样本集包括的第一词向量组,以及该第二样本集中包括的第二词向量组进行向量连接,并将进行向量连接后的词向量组输入该初始识别模型,以基于该向量连接后的词向量组对该初始识别模型进行监督训练,得到目标识别模型。其中,服务器在将第一样本集包括的第一词向量组,以及该第二样本集中包括的第二词向量组进行向量连接时,是将对应的词向量组进行向量连接的,其中,若该被连接的第一词向量组为一个10维词向量组,被连接的第二词向量组为一个8维词向量组,则对该10维词向量组和该8维词向量组进行向量连接则可得到一个18维的词向量组。
在一个实施例中,对初始识别模型的训练过程可如图3c所示,若服务器获取到的有标注信息的目标文本为“用哪个软件可以翻墙”,服务器可先对该目标文本进行分词处理,得到该目标文本的分词集合(用/哪个/软件/可以/翻墙),此外,服务器还可对该目标文本进行文本表达形式的转换,得到该目标文本的拼音表达“yong na ge ruan jian ke yifan qiang”,并对转化后的拼音表达进行分词处理,得到该拼音表达的分词集合“yong/na/ge/ruan/jian/ke/yi/fan/qiang”,进一步地,服务器则可基于该目标文本的分词集合“用/哪个/软件/可以/翻墙”,以及对应拼音表达的分词集合(yong/na/ge/ruan/jian/ke/yi/fan/qiang)对初始识别模型进行训练,具体可执行如下步骤:
s31,针对目标文本的分词集合(用/哪个/软件/可以/翻墙)中的各个分词,根据词向量矩阵获取每个分词的词向量(embedding),并输入到双向模型中,得到模型输出1,其中,该双向模型用于对该每个分词的词向量进行向量转换处理,从而得到每个分词的词向量的隐式表达,即该模型输出1即是得到的每个分词的词向量的隐式表达;
在一个实施例中,该双向模型可以是长短期记忆模型(long-short term memory,LSTM),或者,也可以是TEXTCNN(一种将卷积神经网络应用到文本分类的算法模型),或者,也可以是transformer模型(一种转换模型),或者,也可以是bert(Bidirectional EncoderRepresentations from Transformers,一种语言模型)等其他序列学习模型,其中,bert通过联合调节所有层中的双向转换器来训练预训练深度双向表示,bert融合了众多自然语言处理模型的优点,在多达11项的自然语言处理任务中取得了最优的效果。
s32,对拼音表达的分词集合(yong/na/ge/ruan/jian/ke/yi/fan/qiang)中的各个分词,根据拼音向量矩阵获取每个拼音的词向量(embedding),并输入到该上相模型中,得到输出2,其中,该模型输出2也是得到的每个拼音的词向量的隐式表达;其中,该拼音的词向量也可以采用其他方式生成,例如直接采用one-hot(一种独热编码技术)的特征作为向量;
s33,将输出1和输出2进行向量连接,并将连接完成后的向量输入到全连接网络,其中可采用合并(concat)操作对输出1和输出2进行向量连接;
s34,最后由全连接网络输入到softmax(一种逻辑回归网络)层,并根据目标文本的标注信息(label),按照减小损失函数的方向迭代模型参数,在损失函数最小时,得到目标识别模型。
在本发明实施例中,服务器可先获取包括了多个第一文本的标注信息,以及每个第一文本对应的第一词向量组的第一样本集,此外,该服务器还可获取由多个第二文本中各个第二文本对应的第二词向量组构成的第二文本集,其中,该第二文本是对该第一文本进行文本表现形式的转换得到的,从而可采用该第一样本集和该第二样本集对初始识别模型进行训练,得到目标识别模型,服务器通过对第一文本的文本表现形式进行的转换,实现了对用于进行识别模型训练的样本集的扩充,即由原有的仅包括第一文本对应的第一词向量组的第一样本集,扩充为包括该第一样本集和第二样本集的两个训练样本集,由于该扩充的第二样本集是基于第一样本集进行转换得到的,可降低服务器进行样本采集的压力,而基于对原有训练样本的扩充,使得服务器可基于更加泛化的样本数据对该初始识别模型进行训练,可提升训练得到的目标识别模型进行文本识别的能力。
在网络搜索中,存在众多需要进行敏感词检验的场景,例如对查询(query)的敏感意图识别,搜索结果中的敏感标题,敏感文章,以及敏感图片等,这就需要服务器具备良好的对敏感词进行识别,才能实现对文本类型进行有效区分。敏感词检测作为服务器的搜索底线,需要长期与各类黑产,隐藏作弊等对抗,而常用的作弊就是对敏感词进行转换,以躲避服务器对敏感词的检测,如将“翻墙”转换成“翻qiang”等词语,一般的文本识别模型很难对转换后的敏感词进行有效识别,为了提升文本识别模型的识别能力,可将常规的词向量,以及转换后的文本对应的词向量同时对模型进行训练,从而使得训练后的识别模型可有效识别出文本中的敏感词,进而确定出该文本的类型。请参见图4,是本发明实施例提供的一种数据处理方法的示意流程图,如图4所示,该方法可包括:
S401,获取第一样本集,该第一样本集包括多个第一文本的标注信息,以及各个第一文本对应的第一词向量组,该标注信息用于指示该第一文本的类型,该类型包括正常类型或异常类型。
S402,获取第二样本集,该第二样本集包括多个第二文本中各个第二文本对应的第二词向量组,该第二文本是对该第一文本进行文本表现形式的转换得到的,该文本表现形式包括以下任一种:中文表现形式、英文表现形式和拼音表现形式。
在步骤S401和步骤S402中,该多个第一文本中任一个第一文本表示为目标文本,或者,该多个第二文本中任一个第二文本为目标文本,则目标文本对应的目标词向量组的获取方式为:服务器先对该目标文本进行分词处理,得到该目标文本的分词集合,该分词集合包括至少一个分词,其中,服务器在对该目标文本进行分词处理时,若该目标文本的文本表现形式为中文表现形式或英文表现形式,则该服务器可根据该目标文本的语义对该目标文本进行分词处理;或者,若该目标文本的文本表现形式为拼音表现形式,则该服务器可以字为单位对该目标文本进行分词处理,其中,分词处理得到的分词集合包括的每个分词为一个字的拼音。
在一个实施例中,服务器在对该目标文本进行分词处理,得到该目标文本的分词集合后,进一步地,该服务器可调用向量生成模型对该至少一个分词进行词向量生成处理,得到该至少一个分词中每个分词的词向量,其中,该向量生成模型是服务器采用第三样本集对用于生成词向量的初始模型进行训练得到的,在具体实现中,服务器可先获取第三样本集,该第三样本集包括多个第三文本,该第三文本为无标注文本,即没有标注信息的文本,服务器在获取得到多个第三文本后,可将该多个第三文本中的每个文本的文本表现形式进行转换,得到该第三样本集对应的转换样本集,进一步地,服务器可采用该第三样本集和该转换样本集,对用于生成词向量的初始模型进行训练,得到该向量生成模型。在一个实施例中,服务器在得到每个分词的词向量后,可对该每个分词的词向量进行向量转换,得到该每个分词的词向量的隐式表达,并根据该每个分词的词向量的隐式表达确定该目标词向量组。
在一个实施例中,服务器在确定该目标文本时,可先获取初始样本,以及与所述初始样本关联的初始标注信息,进一步地,该服务器可对所述初始样本进行分词处理,得到所述初始样本的初始分词集,所述初始分词集中包括至少一个初始分词;进一步地,服务器可确定所述至少一个初始分词中每个初始分词与所述初始标注信息之间的互信息值,并根据所述互信息值对所述初始样本进行增强处理,并将增强处理后的初始样本确定为所述目标文本。在一个实施例中,服务器在根据所述互信息值对所述初始样本进行增强处理时,可根据所述互信息值的大小,对所述至少一个初始分词进行排序,从而可按照所述互信息值从大到小的顺序,依次从所述至少一个初始分词中选取目标数量的分词作为目标敏感词,并根据所述目标敏感词对所述初始样本进行增强处理,其中,该目标数量例如可以是3000或者5000等,该目标敏感词例如可以是上述的“翻墙”等。
在一个实施例中,服务器在根据所述目标敏感词对所述初始样本进行增强处理时,可先获取所述目标敏感词的关联敏感词,所述关联敏感词包括以下一种或多种:所述目标敏感词的同义词,同音词,与所述目标敏感词存在形近字的词,与所述目标敏感词存在象形字的词,与所述目标敏感词存在同意的符号替换以及图标替换的词,举例来说,若该目标敏感词为“翻墙”,则该目标敏感词的关联敏感词则可以是“翻qiang”,或者“翩墙”,或者“翻樯”,或者“fan qiang”或者是如图3b中由301或302标记的词等,进而服务器可根据所述关联敏感词生成所述初始样本的关联样本,增强处理得到的目标文本包括所述初始样本,以及所述初始样本的关联样本,该关联样本对应则可以为“用哪个软件可以翻qiang”,或者“用哪个软件可以翩墙”,或者“用哪个软件可以翻樯”,或者“用哪个软件可以fan qiang”等。
在一个实施例中,服务器在得到多个第一文本和第二文本后,基于该多个第一文本和第二文本确定出对应的第一样本集和第二样本集的具体方式可参见上述实施例中步骤S201和步骤S202的相关描述,在此不再赘述,服务器在获取得到该第一样本集和该第二样本集后,则可基于该第一样本集和该第二样本集对初始识别模型进行训练,从而采用训练完成的目标识别模型对文本的类型进行预测,即转而执行步骤S403~步骤S405。
S403,采用所述第一样本集和所述第二样本集对初始识别模型进行训练,得到目标识别模型,所述目标识别模型用于识别文本的类型。
S404,获取待预测文本,并将所述待预测文本的文本表现形式进行转换,得到对应的转换文本。
S405,调用所述目标识别模型对所述待预测文本,以及所述对应的转换文本进行文本类型识别,并根据文本类型识别结果确定所述待预测文本的文本类型。
在步骤S403~步骤S405中,服务器在采用该第一样本集和该第二样本集对初始识别模型进行训练时,可将所述第一样本集中的第一词向量组,以及所述第二样本集中与所述第一词向量组对应的第二词向量组进行向量连接,得到目标词向量组,从而可采用所述目标词向量组,并根据所述第一样本集包括的标注信息,对初始识别模型进行训练,其中,服务器基于第一样本集和第二样本集对初始识别模型的训练是基于该第一样本集中的标注信息,所执行的监督训练的过程。在一个实施例中,如图5所示,服务器在对初始识别模型进行训练时,可先获取无标注信息的第三样本集,有标注信息的第一文本和转换字典,进一步地,服务器可基于第三样本集对用于生成词向量的初始模型,如word2vec工具进行训练,得到对应的训练向量,以及,可对第三样本集中的第三文本进行文本表现形式的转换,得到该第三样本集对应的转换样本集,该转换样本集中的转换文本例如可以是拼音,并采用转换样本集对该初始模型进行训练,得到对应的训练词向量。
在一个实施例中,服务器还可在获取有标注信息的第一文本后,对该第一文本进行分词处理,以及将该第一文本的文本表现形式进行转换,得到第一文本对应的第二文本,该第二文本的文本表现形式例如可以是拼音,基于对文本表现形式的转换,使得服务器在训练初始识别模型时具有更多,且文本表现形式不同的训练样本,也就使得训练得到的目标识别模型具备了对不同文本表现形式进行识别的能力,增强了训练得到的目标识别模型进行识别的泛化能力。进一步的,服务器在分别得到第一文本和第二文本后,可进一步确定出该第二文本的词向量组,第一文本的词向量组,从而可基于得到的词向量组对初始识别模型进行训练,并得到目标识别模型,进而对得到的目标识别模型进行存储。在一个实施例中,服务器在训练得到目标识别模型后,可采用该目标识别模型对待预测文本的类型进行预测,服务器在采用目标识别模型对待预测文本的类型进行预测时间,具体可执行如下步骤:
s41,获取待预测文本(没有关联的标注信息),目标识别模型,以及转换词典(如拼音词典);
s42,调用向量生成模型,确定该待预测文本对应的词向量,以及采用拼音词典将待预测文本转化为拼音过后的拼音向量,从而可将该待预测文本的词向量和对应的拼音向量输入该目标识别模型中;
s43,该目标识别模型可基于该待预测文本的词向量,以及对应的拼音向量确定该待预测文本所属为不同类型的概率,即确定出该待预测文本的类型分别为正常类型的概率,以及为异常类型的概率;
s44,该目标识别模型可在得到该概率后,可对得到的概率进行输出,服务器则可基于该输出的概率确定出该待预测文本的类型。在一个实施例中,服务器在基于该输出的概率确定待预测文本的类型时,可将输出的概率的最大值对应的类型作为该待预测文本的类型,如若该目标识别模型输出的待预测文本为正常类型的概率为8%,为异常类型的概率为90%,则服务器可确定该待预测文本的类型为异常类型。
在一个实施例中,为了进一步提升服务器确定出的待预测文本的类型的准确性,服务器在调用该目标识别模型确定出该待预测文本的文本类型后,进一步地,可先获取识别反馈信息,其中,该识别反馈信息是根据所述目标识别模型对历史文本进行文本类型识别得到的识别结果确定的,该历史文本是在历史时间下发送到服务器进行文本识别的文本,该识别反馈信息包括:指示所述目标识别模型正确识别所述历史文本的文本类型的信息,或指示所述目标识别模型错误识别所述历史文本的文本类型的信息,可以理解的是,在目标识别模型对历史文本进行文本类型识别得到的识别结果,和该历史文本的真实文本类型一致,则该反馈信息为指示该目标识别模型正确识别该历史文本的文本类型的信息,而如果该目标识别模型对历史文本进行文本类型识别得到的识别结果,和该历史文本的真实文本类型不一致,则该反馈信息则为指示该目标识别模型错误识别该历史文本的文本类型的信息。
在一个实施例中,服务器可在每次调用目标识别模型进行文本识别类型的识别后,将得到的输出结果反馈到开发人员,开发人员则可通过对比被识别的历史文本的真实文本类型和识别得到的文本类型是否一致,判断该目标识别模型对历史文本进行文本类型的识别是否正确,并可进一步生成反馈信息发送给服务器。或者,服务器在调用目标识别模型对历史文本进行文本类型的识别后,可基于识别结果确定针对该历史文本的处理规则,如在确定该历史文本为包括敏感词的异常文本时,可禁止历史文本的显示,而在确定该历史文本为正常文本时,则可允许显示该历史文本,基于对该历史文本的处理规则,该历史文本对应的编辑用户可向服务器发送针对该处理规则的反馈信息,如在该编辑用户认为该历史文本为正常文本,却被服务器判定为禁止显示时,该编辑用户可向服务器发送处理错误的反馈信息(或申诉请求),在服务器接收到编辑用户发送的针对历史文本的反馈信息后,可将该反馈信息发送给开发人员,若开发人员认为该处理错误的反馈信息为合理反馈,该服务器可认为该编辑用户发送的合理反馈为指示目标识别模型对历史文本进行识别的识别反馈信息;若开发人员认为编辑用户发送的反馈信息为不合理反馈,则服务器可丢弃该编辑人员发送的反馈信息。
在一个实施例中,服务器在获取到该识别反馈信息后,开发人员则可根据所述识别反馈信息确定所述目标识别模型进行文本类型识别时的识别准确度,其中,服务器可基于预设时间范围内获取到的识别反馈信息确定出该目标识别模型的识别准确度,或者,还可基于针对预设数量的历史文本进行文本类型识别所得到的识别结果所对应的识别反馈信息,该预设时间范围例如可以是一周,或者一个月等,该预设数量例如可以是50或者2000等。服务器基于识别反馈信息确定该目标识别模型的识别准确度时,可确定获取到的识别反馈信息中指示目标识别模型正确识别文本类型的第一反馈数量,以及,目标识别模型识进行文本类型识别的识别总量,可以理解,该识别准确度即是该第一反馈数量和该识别总量之间的比值,如该第一反馈数量为852,该识别总量为1000时,该识别准确度则为85.2%。
在一个实施例中,服务器确定出目标识别模型的识别准确度后,则可根据所述识别准确度和确定的所述待预测文本的文本类型,确定针对所述待预测文本的处理规则,处理规则包括禁止显示的规则,或者允许显示的规则,在一个实施例中,若该识别准确度较高,且确定出的针对该待预测文本的文本类型为异常类型,则直接禁止显示该待预测文本;或者,若该识别准确度较高,且确定出的针对该待预测文本的文本类型为正常类型,则直接显示该待预测文本;或者,若该识别准确度较低,则需要对该目标识别模型重新进行训练,从而可基于重新训练得到的识别模型对该待预测文本的文本类型进行识别得到的识别结果,确定对该待预测文本的处理规则。其中,服务器可在确定出的识别准确度大于预设准确度阈值时,认为该识别准确度较高,而在该确定出的识别准确度小于等于该预设准确度阈值时,认为该识别准确度较低,该预设准确度阈值例如可以是85%或者90%等。基于确定出的目标识别模型的识别准确度对待预测文本的处理规则的辅助判断,可有效避免由于目标识别模型对待预测文本的文本类型的错误识别所导致的对该待预测文本执行的错误处理,从而可提升服务器确定出的针对待预测文本的处理规则的准确性,此外,基于对目标识别模型的识别准确度的判断,还可使得服务器及时对目标识别模型进行更新,从而提升目标识别模型的识别精度。
在本发明实施例中,服务器在获取到第一样本集和第二样本集后,可采用第一样本集和第二样本集对初始识别模型进行训练,从而得到目标识别模型,进而服务器可在获取到待预测文本后,将该待预测文本的文本表现形式进行转换,得到对应的转换文本,并可调用该目标识别模型对该待预测文本,以及该待预测文本对应的转换文本进行类型识别处理,从而确定出该待预测文本的文本类型,基于服务器对用于得到第一样本集中第一词向量组的第一文本的数据增强,使得训练得到的目标识别模型不仅可实现对纯文本的识别,还可对纯文本的转换文本进行有效识别,提升了目标识别模型对文本的类型进行确定的准确度。此外,服务器在确定出待预测文本的文本类型后,还可在确定出该目标识别模型进行文本类型识别时的识别准确度后,确定对该待预测文本的处理规则,使得服务器可基于该目标识别模型的识别准确度辅助对该待预测文本进行处理,可有效降低对待预测文本执行错误处理的概率,同时,服务器还可基于对识别准确度的确定,及时对目标识别模型进行重新训练,从而可有效保证服务器的文本识别精度。
基于上述数据处理方法实施例的描述,本发明实施例还提出了一种数据处理装置,该数据处理装置可以是运行于上述服务器中的一个计算机程序(包括程序代码)。该数据处理装置可用于执行如图2和图4所述的数据处理方法,请参见图6,该数据处理装置包括:获取单元601和训练单元602。
获取单元601,用于获取第一样本集,所述第一样本集包括多个第一文本的标注信息,以及各个第一文本对应的第一词向量组,所述标注信息用于指示所述第一文本的类型,所述类型包括正常类型或异常类型;
所述获取单元601,还用于获取第二样本集,所述第二样本集包括多个第二文本中各个第二文本对应的第二词向量组,所述第二文本是对所述第一文本进行文本表现形式的转换得到的,所述文本表现形式包括以下任一种:中文表现形式、英文表现形式和拼音表现形式;
训练单元602,用于采用所述第一样本集和所述第二样本集对初始识别模型进行训练,得到目标识别模型,所述目标识别模型用于识别文本的类型。
在一个实施例中,所述多个第一文本中任一个第一文本表示为目标文本,或者,所述多个第二文本中任一个第二文本为所述目标文本,所述获取单元601,具体用于:
对所述目标文本进行分词处理,得到所述目标文本的分词集合,所述分词集合包括至少一个分词;
调用向量生成模型对所述至少一个分词进行词向量生成处理,得到所述至少一个分词中每个分词的词向量;
对所述每个分词的词向量进行向量转换,得到所述每个分词的词向量的隐式表达,并根据所述每个分词的词向量的隐式表达确定所述目标词向量组。
在一个实施例中,所述获取单元601,具体用于:
若所述目标文本的文本表现形式为中文表现形式或英文表现形式,则根据所述目标文本的语义对所述目标文本进行分词处理;
若所述目标文本的文本表现形式为拼音表现形式,则以字为单位对所述目标文本进行分词处理,其中,分词处理得到的分词集合包括的每个分词为一个字的拼音。
在一个实施例中,所述装置还包括:转换单元603。
所述获取单元601,还用于获取第三样本集,所述第三样本集包括多个第三文本;
转换单元603,用于将所述多个第三文本中的每个文本的文本表现形式进行转换,得到所述第三样本集对应的转换样本集;
所述训练单元602,还用于采用所述第三样本集和所述转换样本集,对用于生成词向量的初始模型进行训练,得到所述向量生成模型。
在一个实施例中,所述训练单元602,具体用于:
将所述第一样本集中的第一词向量组,以及所述第二样本集中与所述第一词向量组对应的第二词向量组进行向量连接,得到目标词向量组;
采用所述目标词向量组,并根据所述第一样本集包括的标注信息,对初始识别模型进行训练。
在一个实施例中,所述第一样本集中的任一个第一文本表示为目标文本,所述获取单元601,具体用于:
获取初始样本,以及与所述初始样本关联的初始标注信息;
对所述初始样本进行分词处理,得到所述初始样本的初始分词集,所述初始分词集中包括至少一个初始分词;
确定所述至少一个初始分词中每个初始分词与所述初始标注信息之间的互信息值,并根据所述互信息值对所述初始样本进行增强处理;
将增强处理后的初始样本确定为所述目标文本。
在一个实施例中,所述获取单元601,具体用于:
根据所述互信息值的大小,对所述至少一个初始分词进行排序;
按照所述互信息值从大到小的顺序,依次从所述至少一个初始分词中选取目标数量的分词作为目标敏感词;
根据所述目标敏感词对所述初始样本进行增强处理。
在一个实施例中,所述获取单元601,具体用于:
获取所述目标敏感词的关联敏感词,所述关联敏感词包括以下一种或多种:所述目标敏感词的同义词,同音词,以及与所述目标敏感词存在形近字的词;
根据所述关联敏感词生成所述初始样本的关联样本,增强处理得到的目标文本包括所述初始样本,以及所述初始样本的关联样本。
在一个实施例中,所述异常类型的文本是指包括敏感词的文本,所述正常类型的文本是指不包含敏感词的文本;
所述文本表现形式的转换包括以下任一种:将所述中文表现形式转换为所述英文表现形式,将所述中文表现形式转换为所述拼音表现形式,或者将所述中文表现形式转换为所述英文表现形式和拼音表现形式。
在一个实施例中,所述装置还包括:识别单元604和确定单元605。
所述获取单元601,还用于获取待预测文本,并将所述待预测文本的文本表现形式进行转换,得到对应的转换文本;
识别单元604,用于调用所述目标识别模型对所述待预测文本,以及所述对应的转换文本进行文本类型识别;
确定单元605,用于根据文本类型识别结果确定所述待预测文本的文本类型。
在一个实施例中,所述获取单元601,还用于获取识别反馈信息,所述识别反馈信息是根据所述目标识别模型对历史文本进行文本类型识别得到的识别结果确定的,所述识别反馈信息包括:指示所述目标识别模型正确识别所述历史文本的文本类型的信息,或指示所述目标识别模型错误识别所述历史文本的文本类型的信息;
所述确定单元605,还用于根据所述识别反馈信息确定所述目标识别模型进行文本类型识别时的识别准确度;
所述确定单元605,还用于根据所述识别准确度和确定的所述待预测文本的文本类型,确定针对所述待预测文本的处理规则,处理规则包括禁止显示的规则,或者允许显示的规则。
在本发明实施例中,获取单元601可先获取包括了多个第一文本的标注信息,以及每个第一文本对应的第一词向量组的第一样本集,此外,获取单元601还可获取由多个第二文本中各个第二文本对应的第二词向量组构成的第二文本集,其中,该第二文本是对该第一文本进行文本表现形式的转换得到的,从而训练单元602可采用该第一样本集和该第二样本集对初始识别模型进行训练,得到目标识别模型,通过对第一文本的文本表现形式进行的转换,实现了对用于进行识别模型训练的样本集的扩充,即由原有的仅包括第一文本对应的第一词向量组的第一样本集,扩充为包括该第一样本集和第二样本集的两个训练样本集,由于该扩充的第二样本集是基于第一样本集进行转换得到的,可降低进行样本采集的压力,而基于对原有训练样本的扩充,也就实现了基于更加泛化的样本数据对该初始识别模型进行训练,可提升训练得到的目标识别模型进行文本识别的能力。
请参见图7,是本发明实施例提供的一种服务器的结构示意性框图。如图7所示的本实施例中的服务器可包括:一个或多个处理器701;一个或多个输入设备702,一个或多个输出设备703和存储器704。上述处理器701、输入设备702、输出设备703和存储器704通过总线705连接。存储器704用于存储计算机程序,所述计算机程序包括程序指令,处理器701用于执行所述存储器704存储的程序指令。
所述存储器704可以包括易失性存储器(volatile memory),如随机存取存储器(random-access memory,RAM);存储器704也可以包括非易失性存储器(non-volatilememory),如快闪存储器(flash memory),固态硬盘(solid-state drive,SSD)等;存储器704还可以包括上述种类的存储器的组合。
所述处理器701可以是中央处理器(central processing unit,CPU)。所述处理器701还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(application-specific integrated circuit,ASIC),可编程逻辑器件(programmable logic device,PLD)等。该PLD可以是现场可编程逻辑门阵列(field-programmable gate array,FPGA),通用阵列逻辑(generic array logic,GAL)等。所述处理器701也可以为上述结构的组合。
本发明实施例中,所述存储器704用于存储计算机程序,所述计算机程序包括程序指令,处理器701用于执行存储器704存储的程序指令,用来实现上述如图2和图4中相应方法的步骤。
在一个实施例中,所述处理器701被配置调用所述程序指令,用于执行:
获取第一样本集,所述第一样本集包括多个第一文本的标注信息,以及各个第一文本对应的第一词向量组,所述标注信息用于指示所述第一文本的类型,所述类型包括正常类型或异常类型;
获取第二样本集,所述第二样本集包括的多个第二文本中各个第二文本对应的第二词向量组,所述第二文本是对所述第一文本进行文本表现形式的转换得到的,所述文本表现形式包括以下任一种:中文表现形式、英文表现形式和拼音表现形式;
采用所述第一样本集和所述第二样本集对初始识别模型进行训练,得到目标识别模型,所述目标识别模型用于识别文本的类型。
在一个实施例中,所述多个第一文本中任一个第一文本表示为目标文本,或者,所述多个第二文本中任一个第二文本为所述目标文本,所述处理器701被配置调用所述程序指令,用于执行:
对所述目标文本进行分词处理,得到所述目标文本的分词集合,所述分词集合包括至少一个分词;
调用向量生成模型对所述至少一个分词进行词向量生成处理,得到所述至少一个分词中每个分词的词向量;
对所述每个分词的词向量进行向量转换,得到所述每个分词的词向量的隐式表达,并根据所述每个分词的词向量的隐式表达确定所述目标词向量组。
在一个实施例中,所述处理器701被配置调用所述程序指令,用于执行:
若所述目标文本的文本表现形式为中文表现形式或英文表现形式,则根据所述目标文本的语义对所述目标文本进行分词处理;
若所述目标文本的文本表现形式为拼音表现形式,则以字为单位对所述目标文本进行分词处理,其中,分词处理得到的分词集合包括的每个分词为一个字的拼音。
在一个实施例中,所述处理器701被配置调用所述程序指令,用于执行:
获取第三样本集,所述第三样本集包括多个第三文本;
将所述多个第三文本中的每个文本的文本表现形式进行转换,得到所述第三样本集对应的转换样本集;
采用所述第三样本集和所述转换样本集,对用于生成词向量的初始模型进行训练,得到所述向量生成模型。
在一个实施例中,所述处理器701被配置调用所述程序指令,用于执行:
将所述第一样本集中的第一词向量组,以及所述第二样本集中与所述第一词向量组对应的第二词向量组进行向量连接,得到目标词向量组;
采用所述目标词向量组,并根据所述第一样本集包括的标注信息,对初始识别模型进行训练。
在一个实施例中,所述第一样本集中的任一个第一文本表示为目标文本,所述处理器701被配置调用所述程序指令,用于执行:
获取初始样本,以及与所述初始样本关联的初始标注信息;
对所述初始样本进行分词处理,得到所述初始样本的初始分词集,所述初始分词集中包括至少一个初始分词;
确定所述至少一个初始分词中每个初始分词与所述初始标注信息之间的互信息值,并根据所述互信息值对所述初始样本进行增强处理;
将增强处理后的初始样本确定为所述目标文本。
在一个实施例中,所述处理器701被配置调用所述程序指令,用于执行:
根据所述互信息值的大小,对所述至少一个初始分词进行排序;
按照所述互信息值从大到小的顺序,依次从所述至少一个初始分词中选取目标数量的分词作为目标敏感词;
根据所述目标敏感词对所述初始样本进行增强处理。
在一个实施例中,所述处理器701被配置调用所述程序指令,用于执行:
获取所述目标敏感词的关联敏感词,所述关联敏感词包括以下一种或多种:所述目标敏感词的同义词,同音词,以及与所述目标敏感词存在形近字的词;
根据所述关联敏感词生成所述初始样本的关联样本,增强处理得到的目标文本包括所述初始样本,以及所述初始样本的关联样本。
在一个实施例中,所述异常类型的文本是指包括敏感词的文本,所述正常类型的文本是指不包含敏感词的文本;
所述文本表现形式的转换包括以下任一种:将所述中文表现形式转换为所述英文表现形式,将所述中文表现形式转换为所述拼音表现形式,或者将所述中文表现形式转换为所述英文表现形式和拼音表现形式。
在一个实施例中,所述处理器701被配置调用所述程序指令,用于执行:
获取待预测文本,并将所述待预测文本的文本表现形式进行转换,得到对应的转换文本;
调用所述目标识别模型对所述待预测文本,以及所述对应的转换文本进行文本类型识别,并根据文本类型识别结果确定所述待预测文本的文本类型。
在一个实施例中,所述处理器701被配置调用所述程序指令,用于执行:
获取识别反馈信息,所述识别反馈信息是根据所述目标识别模型对历史文本进行文本类型识别得到的识别结果确定的,所述识别反馈信息包括:指示所述目标识别模型正确识别所述历史文本的文本类型的信息,或指示所述目标识别模型错误识别所述历史文本的文本类型的信息;
根据所述识别反馈信息确定所述目标识别模型进行文本类型识别时的识别准确度;
根据所述识别准确度和确定的所述待预测文本的文本类型,确定针对所述待预测文本的处理规则,处理规则包括禁止显示的规则,或者允许显示的规则。
本发明实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述如图2或图4所示的方法实施例。其中,所述的计算机可读存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本发明的局部实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或局部流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。

Claims (14)

1.一种数据处理方法,其特征在于,包括:
获取第一样本集,所述第一样本集包括多个第一文本的标注信息,以及各个第一文本对应的第一词向量组,所述标注信息用于指示所述第一文本的类型,所述类型包括正常类型或异常类型;
获取第二样本集,所述第二样本集包括多个第二文本中各个第二文本对应的第二词向量组,所述第二文本是对所述第一文本进行文本表现形式的转换得到的,所述文本表现形式包括以下任一种:中文表现形式、英文表现形式和拼音表现形式;
采用所述第一样本集和所述第二样本集对初始识别模型进行训练,得到目标识别模型,所述目标识别模型用于识别文本的类型。
2.根据权利要求1所述的方法,其特征在于,所述多个第一文本中任一个第一文本表示为目标文本,或者,所述多个第二文本中任一个第二文本为所述目标文本,则所述目标文本对应的目标词向量组的获取方式包括:
对所述目标文本进行分词处理,得到所述目标文本的分词集合,所述分词集合包括至少一个分词;
调用向量生成模型对所述至少一个分词进行词向量生成处理,得到所述至少一个分词中每个分词的词向量;
对所述每个分词的词向量进行向量转换,得到所述每个分词的词向量的隐式表达,并根据所述每个分词的词向量的隐式表达确定所述目标词向量组。
3.根据权利要求2所述的方法,其特征在于,对所述目标文本进行分词处理,包括:
若所述目标文本的文本表现形式为中文表现形式或英文表现形式,则根据所述目标文本的语义对所述目标文本进行分词处理;
若所述目标文本的文本表现形式为拼音表现形式,则以字为单位对所述目标文本进行分词处理,其中,分词处理得到的分词集合包括的每个分词为一个字的拼音。
4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
获取第三样本集,所述第三样本集包括多个第三文本;
将所述多个第三文本中的每个文本的文本表现形式进行转换,得到所述第三样本集对应的转换样本集;
采用所述第三样本集和所述转换样本集,对用于生成词向量的初始模型进行训练,得到所述向量生成模型。
5.根据权利要求1所述的方法,其特征在于,所述采用所述第一样本集和所述第二样本集对初始识别模型进行训练,包括:
将所述第一样本集中的第一词向量组,以及所述第二样本集中与所述第一词向量组对应的第二词向量组进行向量连接,得到目标词向量组;
采用所述目标词向量组,并根据所述第一样本集包括的标注信息,对初始识别模型进行训练。
6.根据权利要求1所述的方法,其特征在于,所述第一样本集中的任一个第一文本表示为目标文本,所述目标文本的确定方式包括:
获取初始样本,以及与所述初始样本关联的初始标注信息;
对所述初始样本进行分词处理,得到所述初始样本的初始分词集,所述初始分词集中包括至少一个初始分词;
确定所述至少一个初始分词中每个初始分词与所述初始标注信息之间的互信息值,并根据所述互信息值对所述初始样本进行增强处理;
将增强处理后的初始样本确定为所述目标文本。
7.根据权利要求6所述的方法,其特征在于,所述根据所述互信息值对所述初始样本进行增强处理,包括:
根据所述互信息值的大小,对所述至少一个初始分词进行排序;
按照所述互信息值从大到小的顺序,依次从所述至少一个初始分词中选取目标数量的分词作为目标敏感词;
根据所述目标敏感词对所述初始样本进行增强处理。
8.根据权利要求7所述的方法,其特征在于,所述根据所述目标敏感词对所述初始样本进行增强处理,包括:
获取所述目标敏感词的关联敏感词,所述关联敏感词包括以下一种或多种:所述目标敏感词的同义词,同音词,以及与所述目标敏感词存在形近字的词;
根据所述关联敏感词生成所述初始样本的关联样本,增强处理得到的目标文本包括所述初始样本,以及所述初始样本的关联样本。
9.根据权利要求1所述的方法,其特征在于,所述异常类型的文本是指包括敏感词的文本,所述正常类型的文本是指不包含敏感词的文本;
所述文本表现形式的转换包括以下任一种:将所述中文表现形式转换为所述英文表现形式,将所述中文表现形式转换为所述拼音表现形式,或者将所述中文表现形式转换为所述英文表现形式和拼音表现形式。
10.根据权利要求1所述的方法,其特征在于,所述得到目标识别模型之后,所述方法还包括:
获取待预测文本,并将所述待预测文本的文本表现形式进行转换,得到对应的转换文本;
调用所述目标识别模型对所述待预测文本,以及所述对应的转换文本进行文本类型识别,并根据文本类型识别结果确定所述待预测文本的文本类型。
11.根据权利要求10所述的方法,其特征在于,所述根据文本类型识别结果确定所述待预测文本的文本类型之后,所述方法还包括:
获取识别反馈信息,所述识别反馈信息是根据所述目标识别模型对历史文本进行文本类型识别得到的识别结果确定的,所述识别反馈信息包括:指示所述目标识别模型正确识别所述历史文本的文本类型的信息,或指示所述目标识别模型错误识别所述历史文本的文本类型的信息;
根据所述识别反馈信息确定所述目标识别模型进行文本类型识别时的识别准确度;
根据所述识别准确度和确定的所述待预测文本的文本类型,确定针对所述待预测文本的处理规则,处理规则包括禁止显示的规则,或者允许显示的规则。
12.一种数据处理装置,其特征在于,包括:
获取单元,用于获取第一样本集,所述第一样本集包括多个第一文本的标注信息,以及各个第一文本对应的第一词向量组,所述标注信息用于指示所述第一文本的类型,所述类型包括正常类型或异常类型;
所述获取单元,还用于获取第二样本集,所述第二样本集包括多个第二文本中各个第二文本对应的第二词向量组,所述第二文本是对所述第一文本进行文本表现形式的转换得到的,所述文本表现形式包括以下任一种:中文表现形式、英文表现形式和拼音表现形式;
训练单元,用于采用所述第一样本集和所述第二样本集对初始识别模型进行训练,得到目标识别模型,所述目标识别模型用于识别文本的类型。
13.一种服务器,其特征在于,包括处理器、输入设备、输出设备和存储器,所述处理器、所述输入设备、所述输出设备和所述存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1~11任一项所述的方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1~11任一项所述的方法。
CN202010868456.5A 2020-08-25 2020-08-25 数据处理方法、装置、服务器及存储介质 Active CN112036167B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010868456.5A CN112036167B (zh) 2020-08-25 2020-08-25 数据处理方法、装置、服务器及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010868456.5A CN112036167B (zh) 2020-08-25 2020-08-25 数据处理方法、装置、服务器及存储介质

Publications (2)

Publication Number Publication Date
CN112036167A true CN112036167A (zh) 2020-12-04
CN112036167B CN112036167B (zh) 2023-11-28

Family

ID=73581450

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010868456.5A Active CN112036167B (zh) 2020-08-25 2020-08-25 数据处理方法、装置、服务器及存储介质

Country Status (1)

Country Link
CN (1) CN112036167B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112861507A (zh) * 2021-03-12 2021-05-28 北京达佳互联信息技术有限公司 文本处理方法、装置、服务器及存储介质
CN113159921A (zh) * 2021-04-23 2021-07-23 上海晓途网络科技有限公司 一种逾期预测方法、装置、电子设备及存储介质
CN113449510A (zh) * 2021-06-28 2021-09-28 平安科技(深圳)有限公司 文本识别方法、装置、设备及存储介质
CN113506559A (zh) * 2021-07-21 2021-10-15 成都启英泰伦科技有限公司 一种根据越南语书写文本生成发音词典的方法
CN113688247A (zh) * 2021-09-29 2021-11-23 有米科技股份有限公司 基于文本的行业识别模型的确定方法及装置
CN113822059A (zh) * 2021-09-18 2021-12-21 北京云上曲率科技有限公司 中文敏感文本识别方法、装置、存储介质及设备
CN113836305A (zh) * 2021-09-29 2021-12-24 有米科技股份有限公司 基于文本的行业类别识别方法及装置
CN114338083A (zh) * 2021-12-03 2022-04-12 中汽创智科技有限公司 控制器局域网络总线异常检测方法、装置和电子设备
CN115048929A (zh) * 2022-06-29 2022-09-13 中国银行股份有限公司 敏感文本监测方法及装置
CN115499159A (zh) * 2022-08-09 2022-12-20 重庆长安汽车股份有限公司 Can信号异常检测方法、装置、车辆及存储介质
CN117056522A (zh) * 2023-10-11 2023-11-14 青岛网信信息科技有限公司 一种互联网言论优化处理方法、介质及系统

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108984530A (zh) * 2018-07-23 2018-12-11 北京信息科技大学 一种网络敏感内容的检测方法及检测系统
CN109543084A (zh) * 2018-11-09 2019-03-29 西安交通大学 一种建立面向网络社交媒体的隐蔽敏感文本的检测模型的方法
CN109977416A (zh) * 2019-04-03 2019-07-05 中山大学 一种多层次自然语言反垃圾文本方法及系统
CN110263158A (zh) * 2019-05-24 2019-09-20 阿里巴巴集团控股有限公司 一种数据的处理方法、装置及设备
CN110298041A (zh) * 2019-06-24 2019-10-01 北京奇艺世纪科技有限公司 垃圾文本过滤方法、装置、电子设备及存储介质
CN110633577A (zh) * 2019-08-22 2019-12-31 阿里巴巴集团控股有限公司 文本脱敏方法以及装置
CN111241269A (zh) * 2018-11-09 2020-06-05 中移(杭州)信息技术有限公司 一种短信文本分类方法、装置、电子设备及存储介质
CN111310451A (zh) * 2018-12-10 2020-06-19 北京沃东天骏信息技术有限公司 敏感词词典生成方法、装置及存储介质和电子设备
US20200210776A1 (en) * 2018-12-29 2020-07-02 Ubtech Robotics Corp Ltd Question answering method, terminal, and non-transitory computer readable storage medium
CN111368535A (zh) * 2018-12-26 2020-07-03 珠海金山网络游戏科技有限公司 一种敏感词识别方法、装置及设备
CN111401063A (zh) * 2020-06-03 2020-07-10 腾讯科技(深圳)有限公司 一种基于多池化网络的文本处理方法、装置和相关设备

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108984530A (zh) * 2018-07-23 2018-12-11 北京信息科技大学 一种网络敏感内容的检测方法及检测系统
CN109543084A (zh) * 2018-11-09 2019-03-29 西安交通大学 一种建立面向网络社交媒体的隐蔽敏感文本的检测模型的方法
CN111241269A (zh) * 2018-11-09 2020-06-05 中移(杭州)信息技术有限公司 一种短信文本分类方法、装置、电子设备及存储介质
CN111310451A (zh) * 2018-12-10 2020-06-19 北京沃东天骏信息技术有限公司 敏感词词典生成方法、装置及存储介质和电子设备
CN111368535A (zh) * 2018-12-26 2020-07-03 珠海金山网络游戏科技有限公司 一种敏感词识别方法、装置及设备
US20200210776A1 (en) * 2018-12-29 2020-07-02 Ubtech Robotics Corp Ltd Question answering method, terminal, and non-transitory computer readable storage medium
CN109977416A (zh) * 2019-04-03 2019-07-05 中山大学 一种多层次自然语言反垃圾文本方法及系统
CN110263158A (zh) * 2019-05-24 2019-09-20 阿里巴巴集团控股有限公司 一种数据的处理方法、装置及设备
CN110298041A (zh) * 2019-06-24 2019-10-01 北京奇艺世纪科技有限公司 垃圾文本过滤方法、装置、电子设备及存储介质
CN110633577A (zh) * 2019-08-22 2019-12-31 阿里巴巴集团控股有限公司 文本脱敏方法以及装置
CN111401063A (zh) * 2020-06-03 2020-07-10 腾讯科技(深圳)有限公司 一种基于多池化网络的文本处理方法、装置和相关设备

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112861507A (zh) * 2021-03-12 2021-05-28 北京达佳互联信息技术有限公司 文本处理方法、装置、服务器及存储介质
CN112861507B (zh) * 2021-03-12 2023-11-14 北京达佳互联信息技术有限公司 文本处理方法、装置、服务器及存储介质
CN113159921A (zh) * 2021-04-23 2021-07-23 上海晓途网络科技有限公司 一种逾期预测方法、装置、电子设备及存储介质
CN113449510A (zh) * 2021-06-28 2021-09-28 平安科技(深圳)有限公司 文本识别方法、装置、设备及存储介质
CN113506559B (zh) * 2021-07-21 2023-06-09 成都启英泰伦科技有限公司 一种根据越南语书写文本生成发音词典的方法
CN113506559A (zh) * 2021-07-21 2021-10-15 成都启英泰伦科技有限公司 一种根据越南语书写文本生成发音词典的方法
CN113822059A (zh) * 2021-09-18 2021-12-21 北京云上曲率科技有限公司 中文敏感文本识别方法、装置、存储介质及设备
CN113688247A (zh) * 2021-09-29 2021-11-23 有米科技股份有限公司 基于文本的行业识别模型的确定方法及装置
CN113836305A (zh) * 2021-09-29 2021-12-24 有米科技股份有限公司 基于文本的行业类别识别方法及装置
CN113836305B (zh) * 2021-09-29 2024-03-22 有米科技股份有限公司 基于文本的行业类别识别方法及装置
CN114338083A (zh) * 2021-12-03 2022-04-12 中汽创智科技有限公司 控制器局域网络总线异常检测方法、装置和电子设备
CN114338083B (zh) * 2021-12-03 2024-05-28 中汽创智科技有限公司 控制器局域网络总线异常检测方法、装置和电子设备
CN115048929A (zh) * 2022-06-29 2022-09-13 中国银行股份有限公司 敏感文本监测方法及装置
CN115499159A (zh) * 2022-08-09 2022-12-20 重庆长安汽车股份有限公司 Can信号异常检测方法、装置、车辆及存储介质
CN115499159B (zh) * 2022-08-09 2024-05-07 重庆长安汽车股份有限公司 Can信号异常检测方法、装置、车辆及存储介质
CN117056522A (zh) * 2023-10-11 2023-11-14 青岛网信信息科技有限公司 一种互联网言论优化处理方法、介质及系统
CN117056522B (zh) * 2023-10-11 2024-03-15 青岛网信信息科技有限公司 一种互联网言论优化处理方法、介质及系统

Also Published As

Publication number Publication date
CN112036167B (zh) 2023-11-28

Similar Documents

Publication Publication Date Title
CN112036167B (zh) 数据处理方法、装置、服务器及存储介质
CN111950269A (zh) 文本语句处理方法、装置、计算机设备和存储介质
CN111209401A (zh) 网络舆情文本信息情感极性分类处理系统及方法
CN110609891A (zh) 一种基于上下文感知图神经网络的视觉对话生成方法
WO2022142041A1 (zh) 意图识别模型的训练方法、装置、计算机设备和存储介质
CN111985239A (zh) 实体识别方法、装置、电子设备及存储介质
CN113591483A (zh) 一种基于序列标注的文档级事件论元抽取方法
CN112052684A (zh) 电力计量的命名实体识别方法、装置、设备和存储介质
CN112256866B (zh) 一种基于深度学习的文本细粒度情感分析算法
CN112131352A (zh) 一种网页文本类不良信息的检测方法与检测系统
CN111222330B (zh) 一种中文事件的检测方法和系统
CN112966068A (zh) 基于网页信息的简历识别方法和装置
CN113255320A (zh) 基于句法树和图注意力机制的实体关系抽取方法及装置
CN110968725B (zh) 图像内容描述信息生成方法、电子设备及存储介质
CN113806493B (zh) 一种用于互联网文本数据的实体关系联合抽取方法、装置
CN112016314A (zh) 一种基于bert模型的医疗文本理解方法及系统
CN114298035A (zh) 一种文本识别脱敏方法及其系统
JP2019212115A (ja) 検査装置、検査方法、プログラム及び学習装置
CN108875024B (zh) 文本分类方法、系统、可读存储介质及电子设备
CN112183060B (zh) 多轮对话系统的指代消解方法
CN111681731A (zh) 一种对检查报告进行自动颜色标注的方法
CN117216617A (zh) 文本分类模型训练方法、装置、计算机设备和存储介质
CN116089605A (zh) 基于迁移学习和改进词袋模型的文本情感分析方法
CN114357166B (zh) 一种基于深度学习的文本分类方法
CN111476035B (zh) 中文开放关系预测方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40034945

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant