CN111680502B - 一种文本处理方法及相关装置 - Google Patents

一种文本处理方法及相关装置 Download PDF

Info

Publication number
CN111680502B
CN111680502B CN202010407995.9A CN202010407995A CN111680502B CN 111680502 B CN111680502 B CN 111680502B CN 202010407995 A CN202010407995 A CN 202010407995A CN 111680502 B CN111680502 B CN 111680502B
Authority
CN
China
Prior art keywords
text
feature vector
title
word frequency
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010407995.9A
Other languages
English (en)
Other versions
CN111680502A (zh
Inventor
吴悠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Ping An Communication Technology Co Ltd
Original Assignee
Shenzhen Ping An Communication Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Ping An Communication Technology Co Ltd filed Critical Shenzhen Ping An Communication Technology Co Ltd
Priority to CN202010407995.9A priority Critical patent/CN111680502B/zh
Publication of CN111680502A publication Critical patent/CN111680502A/zh
Application granted granted Critical
Publication of CN111680502B publication Critical patent/CN111680502B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及人工智能领域,提供一种文本处理方法及相关装置,所述文本处理方法包括:获取待检测文本;从所述待检测文本中获取标题文本和正文文本;根据所述标题文本和所述正文文本,确定所述待检测文本的目标特征向量;将所述目标特征向量输入预先训练得到的神经网络,得到检测结果,所述检测结果包括所述待检测文本偏题的概率或者不偏题的概率。本申请实施例的技术方案,能够提高对文本进行偏题检测的效率和准确率。本申请可用于智慧教育领域,从而推动智慧城市的建设。

Description

一种文本处理方法及相关装置
技术领域
本申请涉及人工智能中的深度学习技术领域,尤其涉及一种文本处理方法及相关装置。
背景技术
目前,在教学环节中,写作是其中的重要项目。为了检验文本,需要从多个维度进行打分或者评价,检测文本是否偏题就是其中一个维度。
但是,目前检测文本是否偏题需要人为进行检测,当需要检测的文本数量较多时,则需要花费大量时间,这样,对文本进行偏题检测的效率较低,并且,不同人对同一个文本进行检测时,受到人为主观影响,得到的检测结果可能会不同,这样,对文本进行偏题检测的准确率也较低。
发明内容
本申请提供一种文本处理方法及相关装置,能够提高对文本进行偏题检测的效率和准确率。
本申请第一方面提供了一种文本处理方法,包括:
获取待检测文本;
从所述待检测文本中获取标题文本和正文文本;
根据所述标题文本和所述正文文本,确定所述待检测文本的目标特征向量;
将所述目标特征向量输入预先训练得到的神经网络,得到检测结果,所述检测结果包括所述待检测文本偏题的概率或者不偏题的概率。
本申请第二方面提供了一种文本处理装置,所述装置包括:
第一获取模块,用于获取待检测文本;
第二获取模块,用于从所述待检测文本中获取标题文本和正文文本;
确定模块,用于根据所述标题文本和所述正文文本,确定所述待检测文本的目标特征向量;
检测模块,用于将所述目标特征向量输入预先训练得到的神经网络,得到检测结果,所述检测结果包括所述待检测文本偏题的概率或者不偏题的概率。
本申请第三方面提供了一种电子设备,所述电子设备包括处理器、存储器、通信接口以及一个或多个程序,其中,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行,所述程序包括用于执行本申请第一方面任一方法中的步骤的指令。
本申请第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现本申请第一方面任一方法中所描述的部分或全部步骤。
可以看到,通过本申请提出的文本处理方法及相关装置,首先,获取待检测文本,其次,从所述待检测文本中获取标题文本和正文文本,其次,根据所述标题文本和所述正文文本,确定所述待检测文本的目标特征向量,最后,将所述目标特征向量输入预先训练得到的神经网络,得到检测结果,所述检测结果包括所述待检测文本偏题的概率或者不偏题的概率。这样,当需要检测待检测文本是否偏题时,确定该待检测文本的目标特征向量,将该目标特征向量输入神经网络,得到检测结果,从而确定该待检测文本是否偏题。一方面不需要人为进行检测,节约了时间,提高了对文本进行偏题检测的效率,另一方面通过预先训练好的神经网络进行检测,不受人为主观影响,提高了对文本进行偏题检测的准确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例中所需使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种文本处理方法的流程示意图;
图2为本申请实施例提供的另一种文本处理方法的流程示意图;
图3为本申请实施例提供的一种文本处理装置的示意图;
图4为本申请实施例涉及的硬件运行环境的电子设备结构示意图。
具体实施方式
本申请实施例提供的文本处理方法及相关装置,能够提高对文本进行偏题检测的效率和准确率。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
下面对本申请实施例进行详细介绍。
首先参见图1,图1为本申请实施例提供的一种文本处理方法的流程示意图,本申请实施例可用于智慧教育领域,从而推动智慧城市的建设。其中,如图1所示,本申请实施例提供的一种文本处理方法可以包括:
101、获取待检测文本。
当需要检测待检测文本是否偏题时,首先获取该待检测文本,该待检测文本例如可以是中文文本、英文文本或者其他类型的文本。
102、从所述待检测文本中获取标题文本和正文文本。
获取了待检测文本后,其次需要从该待检测文本中获取标题文本和正文文本。在一种可能的实施方式中,当该待检测文本为中文文本或者英文文本时,可以根据字体大小区分标题文本和正文文本,其中,标题文本的字体比正文文本的字体大;或者可以根据字体位置区分标题文本和正文文本,其中,标题文本位于该待检测文本的首部。
103、根据所述标题文本和所述正文文本,确定所述待检测文本的目标特征向量。
可选的,根据所述标题文本和所述正文文本,确定所述待检测文本的目标特征向量的方法可以是:获取所述标题文本的第一特征向量和所述正文文本的第二特征向量;根据所述第一特征向量和所述第二特征向量,确定第三特征向量,所述第三特征向量为所述标题文本与所述正文文本的组合相似度特征;根据所述第一特征向量、所述第二特征向量和所述第三特征向量,确定所述目标特征向量。
在一种可能的实施方式中,第一特征向量例如可以是所述标题文本的词频矩阵,第二特征向量例如也可以是所述正文文本的词频矩阵。
具体的,获取所述标题文本的第一特征向量的方法可以是:获取标题文本中的所有单词,计算标题文本中的所有单词中每个单词的词频,根据预设语料库中的所有单词和标题文本中的所有单词中每个单词的词频,确定标题文本的词频矩阵。其中,在获取标题文本中的所有单词时,需要进行去重。举例来说,该待检测文本为英文文本,标题文本为“howdo you do”,去重后得到的所有单词为“how”、“do”、“you”,计算每个单词的词频可以得到“how”、“do”、“you”的词频分别为1、2、1。预设语料库为预先设置的,例如,预设语料库中包括的单词为“how”、“do”、“like”、“you”、“is”,则根据预设语料库中包括的单词,可以确定标题文本的词频矩阵为[1,2,0,1,0]。
具体的,获取所述正文文本的第二特征向量的方法可以是:获取正文文本中的所有单词,计算正文文本中的所有单词中每个单词的词频,根据该预设语料库中的所有单词和正文文本中的所有单词中每个单词的词频,确定正文文本的词频矩阵。其中,在获取正文文本中的所有单词时,需要进行去重。确定正文文本的词频矩阵的方法与上述确定标题文本的词频矩阵的方法类似,为了简洁,在此不做赘述。
具体的,根据所述第一特征向量和所述第二特征向量,确定第三特征向量的方法可以是:根据所述标题文本的词频矩阵,确定所述标题文本的词频逆文本矩阵;根据所述正文文本的词频矩阵,确定所述正文文本的词频逆文本矩阵;计算所述标题文本的词频逆文本矩阵与所述正文文本的词频逆文本矩阵的余弦相似度,以得到所述组合相似度特征。
在一种可能的实施方式中,所述目标特征向量由所述第一特征向量、所述第二特征向量和所述第三特征向量按照预设顺序进行拼接得到。例如,目标特征向量由第一特征向量、第三特征向量和第二特征向量按照顺序进行拼接得到。
104、将所述目标特征向量输入预先训练得到的神经网络,得到检测结果,所述检测结果包括所述待检测文本偏题的概率或者不偏题的概率。
可选的,将所述目标特征向量输入预先训练得到的神经网络,得到检测结果的方法可以是:将所述目标特征向量输入所述神经网络中,得到神经网络输出值;通过归一化指数函数将所述神经网络输出值映射成预测概率,得到所述检测结果。
在一种可能的实施方式中,所述预先训练得到的神经网络通过以下步骤训练得到:获取预设数量的文本;从所述预设数量的文本中获取每个文本的标题文本和每个文本的正文文本;对所述每个文本的标题文本和所述每个文本的正文文本按照第一预设处理方式或者第二预设处理方式进行处理,得到所述文本样本;根据对所述每个文本的标题文本和所述每个文本的正文文本进行处理的方式,确定所述文本样本对应的标签值,所述标签值用于标签所述文本样本偏题的概率或者不偏题的概率;将所述文本样本和所述标签值输入所述神经网络,得到损失;根据所述损失,调整所述神经网络的网络参数。
进一步的,在一种可能的实施方式中,在获取预设数量的文本之后,还包括:获取所述预设数量的文本中的所有单词;将所述预设数量的文本中的所有单词进行小写转换和去重处理,得到目标单词集;计算所述目标单词集中每个单词的词频;按照词频由大到小的顺序对所述目标单词集中每个单词进行排序;获取排序后的前M个单词组成所述预设语料库,M为正整数。
可以看到,通过本申请实施例提出的文本处理方法,首先,获取待检测文本,其次,从所述待检测文本中获取标题文本和正文文本,其次,根据所述标题文本和所述正文文本,确定所述待检测文本的目标特征向量,最后,将所述目标特征向量输入预先训练得到的神经网络,得到检测结果,所述检测结果包括所述待检测文本偏题的概率或者不偏题的概率。这样,当需要检测待检测文本是否偏题时,确定该待检测文本的目标特征向量,将该目标特征向量输入神经网络,得到检测结果,从而确定该待检测文本是否偏题。一方面不需要人为进行检测,节约了时间,提高了对文本进行偏题检测的效率,另一方面通过预先训练好的神经网络进行检测,不受人为主观影响,提高了对文本进行偏题检测的准确率。
参见图2,图2为本申请实施例提供的另一种文本处理方法的流程示意图,本申请实施例可用于智慧教育领域,从而推动智慧城市的建设。其中,如图2所示,本申请实施例提供的另一种文本处理方法可以包括:
201、获取待检测文本。
当需要检测待检测文本是否偏题时,首先获取该待检测文本,该待检测文本例如可以是中文文本、英文文本或者其他类型的文本。
202、从该待检测文本中获取标题文本和正文文本。
获取了待检测文本后,其次需要从该待检测文本中获取标题文本和正文文本。在一种可能的实施方式中,当该待检测文本为中文文本或者英文文本时,可以根据字体大小区分标题文本和正文文本,其中,标题文本的字体比正文文本的字体大;或者可以根据字体位置区分标题文本和正文文本,其中,标题文本位于该待检测文本的首部。
203、获取该标题文本的第一特征向量和该正文文本的第二特征向量。
在一种可能的实施方式中,第一特征向量例如可以是所述标题文本的词频矩阵,第二特征向量例如也可以是所述正文文本的词频矩阵。
具体的,获取所述标题文本的第一特征向量的方法可以是:获取标题文本中的所有单词,计算标题文本中的所有单词中每个单词的词频,根据预设语料库中的所有单词和标题文本中的所有单词中每个单词的词频,确定标题文本的词频矩阵。其中,在获取标题文本中的所有单词时,需要进行去重。举例来说,该待检测文本为英文文本,标题文本为“howdo you do”,去重后得到的所有单词为“how”、“do”、“you”,计算每个单词的词频可以得到“how”、“do”、“you”的词频分别为1、2、1。预设语料库为预先设置的,例如,预设语料库中包括的单词为“how”、“do”、“like”、“you”、“is”,则根据预设语料库中包括的单词,可以确定标题文本的词频矩阵为[1,2,0,1,0]。
具体的,获取所述正文文本的第二特征向量的方法可以是:获取正文文本中的所有单词,计算正文文本中的所有单词中每个单词的词频,根据该预设语料库中的所有单词和正文文本中的所有单词中每个单词的词频,确定正文文本的词频矩阵。其中,在获取正文文本中的所有单词时,需要进行去重。确定正文文本的词频矩阵的方法与上述确定标题文本的词频矩阵的方法类似,为了简洁,在此不做赘述。
204、根据该第一特征向量和该第二特征向量,确定第三特征向量,该第三特征向量为该标题文本与该正文文本的组合相似度特征。
具体的,根据所述第一特征向量和所述第二特征向量,确定第三特征向量的方法可以是:根据所述标题文本的词频矩阵,确定所述标题文本的词频逆文本矩阵;根据所述正文文本的词频矩阵,确定所述正文文本的词频逆文本矩阵;计算所述标题文本的词频逆文本矩阵与所述正文文本的词频逆文本矩阵的余弦相似度,以得到所述组合相似度特征。其中,根据标题文本的词频矩阵,确定标题文本的词频逆文本矩阵满足以下公式:
其中,TF-IDF(x)指的是标题文本的词频逆文本矩阵,TF(x)指的是标题文本的词频矩阵,x指的是标题文本中的单词,N指的是预设语料库中包括的文本数量,N(x)指的是该预设语料库中包含x的文本数量。也就是说,标题文本中的每个单词,都可以通过上述公式计算出一个TF-IDF值,然后将对每个单词进行计算得到的TF-IDF值组合成向量,即可以得到标题文本的词频逆文本矩阵。
举例来说,该预设语料库中包括100个文本,待检测文本的标题文本为“how doyou do”,计算单词“do”的TF-IDF值,单词“do”在标题文本中出现了两次,假设该预设语料库中有80个文本包括了单词“do”,则:
TF-IDF(do)=2*[log(100+1)/(80+1)+1]=1.4413
同理可以计算得到TF-IDF(how)、TF-IDF(you)的值,将这些值组合成向量,即可以得到标题文本的词频逆文本矩阵。
具体的,根据正文文本的词频矩阵,确定正文文本的词频逆文本矩阵的方法与上述确定标题文本的词频逆文本矩阵的方法类似,为了简洁,在此不做赘述。
具体的,得到标题文本的词频逆文本矩阵和正文文本的词频逆文本矩阵后,计算标题文本的词频逆文本矩阵与正文文本的词频逆文本矩阵的余弦相似度,作为标题文本和正文文本的组合相似度特征,其中,计算余弦相似度的公式如下所示:
其中,similarity指的是余弦相似度,A、B分别为标题文本的词频逆文本矩阵和正文文本的词频逆文本矩阵。
205、根据该第一特征向量、该第二特征向量和该第三特征向量,确定目标特征向量。
在一种可能的实施方式中,所述目标特征向量由所述第一特征向量、所述第二特征向量和所述第三特征向量按照预设顺序进行拼接得到。例如,目标特征向量由第一特征向量、第三特征向量和第二特征向量按照顺序进行拼接得到。例如,预设语料库中包括3000个单词,则最终得到的目标特征向量的向量维度为1*6001。
206、将该目标特征向量输入预先训练得到的神经网络中,得到神经网络输出值。
举例来说,预先训练得到的神经网络为全连接神经网络,预设语料库中包括3000个单词,目标特征向量的向量维度为1*6001时,相应的,全连接的输入神经元维度为6001,隐藏层神经元维度为100,输出层神经元维度为2,将该目标特征向量输入该神经网络中,得到神经网络输出值。
207、通过归一化指数函数将该神经网络输出值映射成预测概率,得到检测结果,该检测结果包括该待检测文本偏题的概率或者不偏题的概率。
在一种可能的实施方式中,该预先训练得到的神经网络通过以下步骤训练得到:获取预设数量的文本;从预设数量的文本中获取每个文本的标题文本和每个文本的正文文本;对每个文本的标题文本和每个文本的正文文本按照第一预设处理方式或者第二预设处理方式进行处理,得到文本样本;根据对每个文本的标题文本和每个文本的正文文本进行处理的方式,确定文本样本对应的标签值,标签值用于标签文本样本偏题的概率或者不偏题的概率;将文本样本和标签值输入神经网络,得到损失;根据损失,调整神经网络的网络参数。
具体的,将文本样本和标签值输入神经网络,得到损失,满足以下公式:
其中,H(p,q)指的是交叉熵损失函数,p(x)指的是标签值,也就是真实概率,q(x)指的是通过神经网络得到的预测概率,n指的是文本样本的数量,i指的是第i个文本样本。
在一种可能的实施方式中,在神经网络的训练过程中,为了避免过拟合,需要对神经网络权重采用L2正则化,以及dropout策略。
在一种可能的实施方式中,在上述训练神经网络的过程中,最后在进行反向传播时,采用Adam优化算法更新神经网络权重。反向传播,即根据神经网络输出结果,返回来更新神经网络权重,具体公式如下:
其中,H是交叉熵损失函数,η是学习率,W是神经网络权重。
过程包括:假定神经网络的输出层是L层,输出层的WL满足以下公式:
aL=σ(zL)=σ(WLaL-1+bL)
其中,ZL代表第L层未经过激活函数的输出。
在求解输出层W时,有中间依赖部分因此可以先把ZL算出来,记为:
对于第l层未激活输出zl,它的梯度可以表示为:
根据前向传播算法,有:
zl=Wlal-1+bl
所以可以计算出第l层的Wl的梯度:
最后根据反向传播公式更新神经网络权重即可。
具体的,获取预设数量的文本的方法可以是:从网上爬取预设数量的写作文本,如果写作文本的数量不够,缺少的可以用新闻文本和/或百科文本代替。
在一种可能的实施方式中,在获取写作文本和/或其他文本时,可以满足一定的权重,例如,获取写作文本、新闻文本、百科文本的权重分别为60%、20%、20%,这样可以提高文本样本的来源丰富性,上述权重仅为举例,可以根据需求更改,在此不作限定。
在另一种可能的实施方式中,在获取写作文本时,针对不同类型的写作文本,也可以满足一定的权重,例如,英文写作文本的类型包括叙事型文本、对比型文本、因果型文本、议论型文本以及其他形式的文本,对于这几种类型的文本,可以满足权重分别为20%、20%、20%、20%、20%,这样可以提高文本样本的类型丰富性,上述权重仅为举例,可以根据需求更改,在此不作限定。
在获取新闻文本时,针对不同类型的新闻文本,也可以满足一定的权重,例如,新闻文本包括政治新闻文本、经济新闻文本、法律新闻文本、军事新闻文本、科技新闻文本、文教新闻文本、体育新闻文本和社会新闻文本等,对于这几种类型的新闻文本,可以满足权重分别为12.5%、12.5%、12.5%、12.5%、12.5%、12.5%、12.5%、12.5%,这样也可以提高文本样本的类型丰富性,上述权重仅为举例,可以根据需求更改,在此不作限定。
具体的,从该预设数量的文本中获取每个文本的标题文本和每个文本的正文文本,举例来说,对于文本A和文本B,获取到文本A的标题文本是A_title,正文文本是A_text;文本B的标题文本是B_title,正文文本是B_text。
具体的,第一预设处理方式为:对于某一文本而言,保持该文本的标题文本和该文本的正文文本不变;第二预设处理方式为:对于某一文本而言,保持该文本的标题文本不变,将该文本的正文文本替换成其他文本的正文文本。
例如,对于文本A和文本B,对文本A的标题文本和正文文本按照第一预设处理方式得到的文本样本为[A_title,A_text],对应的标签值为1,用于标签文本样本不偏题的概率为1;对文本A的标题文本和正文文本按照第二预设处理方式得到的文本样本为[A_title,B_text],对应的标签值为0,用于标签文本样本不偏题的概率为0;对文本B的标题文本和正文文本按照第一预设处理方式得到的文本样本为[B_title,B_text],对应的标签值为1,用于标签文本样本不偏题的概率为1;对文本B的标题文本和正文文本按照第二预设处理方式得到的文本样本为[B_title,A_text],对应的标签值为0,用于标签文本样本不偏题的概率为0。也就是说,文本A的标题文本组合文本A的正文文本得到的文本样本是不偏题的,但是文本A的标题文本组合文本B的正文文本得到的文本样本是偏题的。
进一步的,获取预设数量的文本后,统计该预设数量的文本的所有单词的词频。举例来说,统计所有单词的词频的步骤如下所述:
(1)获取该预设数量的文本的所有单词。
例如,文本A为“How do you do”,那么获取到的所有单词包括“How”、“do”、“you”、“do”。
(2)将获取到的所有单词进行小写转换并去重。
例如,对于上述获取到的所有单词“How”、“do”、“you”、“do”,进行小写转换并去重得到:“how”、“do”、“you”。
(3)统计词频。
例如,对于上述进行小写转换并去重得到的单词“how”、“do”、“you”,统计可以得到“how”、“do”、“you”的词频分别为1、2、1。
统计完所有单词的词频以后,根据词频由大到小对所有单词进行排序,提取前M个单词组成上述预设语料库,其中,M为正整数,例如,M可以为3000,代表该预设语料库包括3000个单词,在此不作限定。
可以看到,通过本申请实施例提出的文本处理方法,当需要检测待检测文本是否偏题时,确定该待检测文本的目标特征向量,将该目标特征向量输入神经网络,得到检测结果,从而确定该待检测文本是否偏题。一方面不需要人为进行检测,节约了时间,提高了对文本进行偏题检测的效率,另一方面通过预先训练好的神经网络进行检测,不受人为主观影响,提高了对文本进行偏题检测的准确率。并且,在对神经网络进行训练的过程中,在获取文本样本时,能够基于获取到的文本构造大量文本样本,不需要人为进行标注,可以节约时间和人力成本,同时,大规模的文本样本也可以使得训练得到的神经网络具有更强的鲁棒性。
参见图3,图3为本申请实施例提供的一种文本处理装置的示意图。其中,如图3所示,本申请实施例提供的一种文本处理装置可以包括:
第一获取模块301,用于获取待检测文本;
第二获取模块302,用于从所述待检测文本中获取标题文本和正文文本;
确定模块303,用于根据所述标题文本和所述正文文本,确定所述待检测文本的目标特征向量;
检测模块304,用于将所述目标特征向量输入预先训练得到的神经网络,得到检测结果,所述检测结果包括所述待检测文本偏题的概率或者不偏题的概率。
本申请文本处理装置的具体实施可参见上述文本处理方法的各实施例,在此不做赘述。
参见图4,图4为本申请的实施例涉及的硬件运行环境的电子设备结构示意图。其中,如图4所示,本申请的实施例涉及的硬件运行环境的电子设备可以包括:
处理器401,例如CPU。
存储器402,可选的,存储器可以为高速RAM存储器,也可以是稳定的存储器,例如磁盘存储器。
通信接口403,用于实现处理器401和存储器402之间的连接通信。
本领域技术人员可以理解,图4中示出的电子设备的结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图4所示,存储器402中可以包括操作系统、网络通信模块以及文本处理程序。操作系统是管理和控制电子设备硬件和软件资源的程序,支持文本处理程序以及其他软件或程序的运行。网络通信模块用于实现存储器402内部各组件之间的通信,以及与电子设备中其他硬件和软件之间通信。
在图4所示的电子设备中,处理器401用于执行存储器402中存储的文本处理程序,实现以下步骤:
获取待检测文本;
从所述待检测文本中获取标题文本和正文文本;
根据所述标题文本和所述正文文本,确定所述待检测文本的目标特征向量;
将所述目标特征向量输入预先训练得到的神经网络,得到检测结果,所述检测结果包括所述待检测文本偏题的概率或者不偏题的概率。
本申请电子设备的具体实施可参见上述文本处理方法的各实施例,在此不做赘述。
本申请的另一个实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行以实现以下步骤:
获取待检测文本;
从所述待检测文本中获取标题文本和正文文本;
根据所述标题文本和所述正文文本,确定所述待检测文本的目标特征向量;
将所述目标特征向量输入预先训练得到的神经网络,得到检测结果,所述检测结果包括所述待检测文本偏题的概率或者不偏题的概率。
本申请计算机可读存储介质的具体实施可参见上述文本处理方法的各实施例,在此不做赘述。
还需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims (8)

1.一种文本处理方法,其特征在于,包括:
获取待检测文本;
从所述待检测文本中获取标题文本和正文文本;
根据所述标题文本和所述正文文本,确定所述待检测文本的目标特征向量,包括:获取所述标题文本的第一特征向量和所述正文文本的第二特征向量,根据所述第一特征向量和所述第二特征向量,确定第三特征向量,所述第三特征向量为所述标题文本与所述正文文本的组合相似度特征,根据所述第一特征向量、所述第二特征向量和所述第三特征向量,确定所述目标特征向量;其中,所述目标特征向量由所述第一特征向量、所述第二特征向量和所述第三特征向量按照预设顺序进行拼接得到;
将所述目标特征向量输入预先训练得到的神经网络,得到检测结果,所述检测结果包括所述待检测文本偏题的概率或者不偏题的概率;
其中,所述根据所述第一特征向量和所述第二特征向量,确定第三特征向量,包括:根据所述标题文本的词频矩阵,确定所述标题文本的词频逆文本矩阵,根据所述正文文本的词频矩阵,确定所述正文文本的词频逆文本矩阵,计算所述标题文本的词频逆文本矩阵与所述正文文本的词频逆文本矩阵的余弦相似度,以得到所述组合相似度特征。
2.根据权利要求1所述的方法,其特征在于,所述第一特征向量为所述标题文本的词频矩阵,所述第二特征向量为所述正文文本的词频矩阵,所述获取所述标题文本的第一特征向量和所述正文文本的第二特征向量包括:
获取所述标题文本中的所有单词;
计算所述标题文本中的所有单词中每个单词的词频;
根据预设语料库中的所有单词和所述标题文本中的所有单词中每个单词的词频,确定所述标题文本的词频矩阵;
获取所述正文文本中的所有单词;
计算所述正文文本中的所有单词中每个单词的词频;
根据所述预设语料库中的所有单词和所述正文文本中的所有单词中每个单词的词频,确定所述正文文本的词频矩阵。
3.根据权利要求1或2所述的方法,其特征在于,所述将所述目标特征向量输入预先训练得到的神经网络,得到检测结果,包括:
将所述目标特征向量输入所述神经网络中,得到神经网络输出值;
通过归一化指数函数将所述神经网络输出值映射成预测概率,得到所述检测结果。
4.根据权利要求2所述的方法,其特征在于,所述神经网络通过以下步骤训练得到:
获取预设数量的文本;
从所述预设数量的文本中获取每个文本的标题文本和每个文本的正文文本;
对所述每个文本的标题文本和所述每个文本的正文文本按照第一预设处理方式或者第二预设处理方式进行处理,得到文本样本;
根据对所述每个文本的标题文本和所述每个文本的正文文本进行处理的方式,确定所述文本样本对应的标签值,所述标签值用于标签所述文本样本偏题的概率或者不偏题的概率;
将所述文本样本和所述标签值输入所述神经网络,得到损失;
根据所述损失,调整所述神经网络的网络参数。
5.根据权利要求4所述的方法,其特征在于,在所述获取预设数量的文本之后,所述方法还包括:
获取所述预设数量的文本中的所有单词;
将所述预设数量的文本中的所有单词进行小写转换和去重处理,得到目标单词集;
计算所述目标单词集中每个单词的词频;
按照词频由大到小的顺序对所述目标单词集中每个单词进行排序;
获取排序后的前M个单词组成所述预设语料库,M为正整数。
6.一种文本处理装置,其特征在于,所述装置包括:
第一获取模块,用于获取待检测文本;
第二获取模块,用于从所述待检测文本中获取标题文本和正文文本;
确定模块,用于根据所述标题文本和所述正文文本,确定所述待检测文本的目标特征向量;
所述确定模块,具体用于获取所述标题文本的第一特征向量和所述正文文本的第二特征向量,根据所述第一特征向量和所述第二特征向量,确定第三特征向量,所述第三特征向量为所述标题文本与所述正文文本的组合相似度特征,根据所述第一特征向量、所述第二特征向量和所述第三特征向量,确定所述目标特征向量;其中,所述目标特征向量由所述第一特征向量、所述第二特征向量和所述第三特征向量按照预设顺序进行拼接得到;
检测模块,用于将所述目标特征向量输入预先训练得到的神经网络,得到检测结果,所述检测结果包括所述待检测文本偏题的概率或者不偏题的概率;
在所述根据所述第一特征向量和所述第二特征向量,确定第三特征向量方面,所述确定模块,具体用于根据所述标题文本的词频矩阵,确定所述标题文本的词频逆文本矩阵,根据所述正文文本的词频矩阵,确定所述正文文本的词频逆文本矩阵,计算所述标题文本的词频逆文本矩阵与所述正文文本的词频逆文本矩阵的余弦相似度,以得到所述组合相似度特征。
7.一种电子设备,其特征在于,所述电子设备包括处理器、存储器、通信接口以及一个或多个程序,其中,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行,所述程序包括用于执行权利要求1至5任一项方法中的步骤的指令。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现权利要求1至5任意一项所述的方法。
CN202010407995.9A 2020-05-14 2020-05-14 一种文本处理方法及相关装置 Active CN111680502B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010407995.9A CN111680502B (zh) 2020-05-14 2020-05-14 一种文本处理方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010407995.9A CN111680502B (zh) 2020-05-14 2020-05-14 一种文本处理方法及相关装置

Publications (2)

Publication Number Publication Date
CN111680502A CN111680502A (zh) 2020-09-18
CN111680502B true CN111680502B (zh) 2023-09-22

Family

ID=72434125

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010407995.9A Active CN111680502B (zh) 2020-05-14 2020-05-14 一种文本处理方法及相关装置

Country Status (1)

Country Link
CN (1) CN111680502B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109543032A (zh) * 2018-10-26 2019-03-29 平安科技(深圳)有限公司 文本分类方法、装置、计算机设备和存储介质
CN109614625A (zh) * 2018-12-17 2019-04-12 北京百度网讯科技有限公司 标题正文相关度的确定方法、装置、设备及存储介质
CN110222171A (zh) * 2019-05-08 2019-09-10 新华三大数据技术有限公司 一种分类模型应用、分类模型训练方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109543032A (zh) * 2018-10-26 2019-03-29 平安科技(深圳)有限公司 文本分类方法、装置、计算机设备和存储介质
CN109614625A (zh) * 2018-12-17 2019-04-12 北京百度网讯科技有限公司 标题正文相关度的确定方法、装置、设备及存储介质
CN110222171A (zh) * 2019-05-08 2019-09-10 新华三大数据技术有限公司 一种分类模型应用、分类模型训练方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于主题句相似度的标题党新闻鉴别技术研究;王志超 等;《现代图书情报技术》;20111130(第11期);第48-53页 *

Also Published As

Publication number Publication date
CN111680502A (zh) 2020-09-18

Similar Documents

Publication Publication Date Title
CN108804512B (zh) 文本分类模型的生成装置、方法及计算机可读存储介质
CN109255031B (zh) 基于知识图谱的数据处理方法
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
US10360303B2 (en) Learning document embeddings with convolutional neural network architectures
CN108829822B (zh) 媒体内容的推荐方法和装置、存储介质、电子装置
RU2678716C1 (ru) Использование автоэнкодеров для обучения классификаторов текстов на естественном языке
CN105139237A (zh) 信息推送的方法和装置
CN111310476B (zh) 一种使用基于方面的情感分析方法的舆情监控方法和系统
CN109145216A (zh) 网络舆情监控方法、装置及存储介质
CN111105209B (zh) 适用于人岗匹配推荐系统的职位简历匹配方法及装置
CN107908698B (zh) 一种主题网络爬虫方法、电子设备、存储介质、系统
CN111831826B (zh) 跨领域的文本分类模型的训练方法、分类方法以及装置
CN111914159B (zh) 一种信息推荐方法及终端
CN112579729B (zh) 文档质量评价模型的训练方法、装置、电子设备和介质
CN113392209A (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN112926308B (zh) 匹配正文的方法、装置、设备、存储介质以及程序产品
CN111563158A (zh) 文本排序方法、排序装置、服务器和计算机可读存储介质
CN112084307A (zh) 一种数据处理方法、装置、服务器及计算机可读存储介质
CN113988157A (zh) 语义检索网络训练方法、装置、电子设备及存储介质
CN112613293A (zh) 摘要生成方法、装置、电子设备及存储介质
US20140272842A1 (en) Assessing cognitive ability
Yu et al. Stance detection in Chinese microblogs with neural networks
CN113569018A (zh) 问答对挖掘方法及装置
CN111680502B (zh) 一种文本处理方法及相关装置
CN103744830A (zh) 基于语义分析的excel文档中身份信息的识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant