CN112765319B - 一种文本的处理方法、装置、电子设备及存储介质 - Google Patents

一种文本的处理方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112765319B
CN112765319B CN202110074522.6A CN202110074522A CN112765319B CN 112765319 B CN112765319 B CN 112765319B CN 202110074522 A CN202110074522 A CN 202110074522A CN 112765319 B CN112765319 B CN 112765319B
Authority
CN
China
Prior art keywords
character
text
category
processed
processing model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110074522.6A
Other languages
English (en)
Other versions
CN112765319A (zh
Inventor
黄兵
张尼
薛继东
张宏斌
赵耀
孙世豪
李庆科
许凤凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
6th Research Institute of China Electronics Corp
Original Assignee
6th Research Institute of China Electronics Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 6th Research Institute of China Electronics Corp filed Critical 6th Research Institute of China Electronics Corp
Priority to CN202110074522.6A priority Critical patent/CN112765319B/zh
Publication of CN112765319A publication Critical patent/CN112765319A/zh
Application granted granted Critical
Publication of CN112765319B publication Critical patent/CN112765319B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供了一种文本的处理方法、装置、电子设备及存储介质,其中,该处理方法包括:获取待处理文本中各个字符的字符特征向量;将所述待处理文本中各个字符的字符特征向量输入至预先训练好的文本处理模型中,获取所述文本处理模型输出的各个字符的字符类别;其中,所述文本处理模型是利用添加随机特征向量的扰动样本文本训练得到的;基于所述待处理文本中各个字符的字符类别,从所述待处理文本中提取多个实体,并确定各个实体的实体类别。本申请使用添加随机特征向量的扰动样本文本对文本处理模型进行训练,提高了文本处理模型的稳定性,在存在干扰时,实体提取模型输出的字符类别的准确度高,进而提高了识别出的实体以及实体类别的准确度。

Description

一种文本的处理方法、装置、电子设备及存储介质
技术领域
本申请涉及自然语言处理技术领域,具体而言,涉及一种文本的处理方法、装置、电子设备及存储介质。
背景技术
在自然语言处理技术领域,实体表示具体事物、个别主体、现象的支持者等含义,比如,人名、组织机构等,在文本的处理过程中,由于实体能够表示文本中的多种对象,因此,可以通过对文本中实体的识别,确定文本的主要内容。
现阶段,通常使用开源的实体提取模型对文本中的实体进行识别,比如,CRF模型,但是现有的实体提取模型抗干扰能力差,在存在干扰的情况下,实体提取模型识别出的实体的准确度低。
发明内容
有鉴于此,本申请实施例的目的在于提供一种文本的处理方法、装置、电子设备及存储介质,使用添加随机特征向量的扰动样本文本对文本处理模型进行训练,提高了文本处理模型的稳定性,在存在干扰时,实体提取模型输出的字符类别的准确度高,进而提高了识别出的实体以及实体类别的准确度。
第一方面,本申请实施例提供了一种文本的处理方法,所述处理方法包括:
获取待处理文本中各个字符的字符特征向量;
将所述待处理文本中各个字符的字符特征向量输入至预先训练好的文本处理模型中,获取所述文本处理模型输出的各个字符的字符类别;其中,所述文本处理模型是利用添加随机特征向量的扰动样本文本训练得到的;
基于所述待处理文本中各个字符的字符类别,从所述待处理文本中提取多个实体,并确定各个实体的实体类别。
在一种可能的实施方式中,所述获取所述文本处理模型输出的各个字符的字符类别,包括:
基于所述待处理文本中的各个字符的字符特征向量,确定所述待处理文本中的各个字符归属于每个字符类别的概率;
基于每个字符在所述待处理文本中的位置,该字符归属于每个字符类别的概率,以及与该字符相邻的其他字符归属于每个字符类别的概率,更新该字符归属于每个字符类别的概率;
基于所述待处理文本中各个字符归属于每个字符类别的更新后的概率,确定所述待处理文本中各个字符的字符类别。
在一种可能的实施方式中,通过如下方式对所述文本处理模型进行训练:
针对每个扰动样本文本,将该扰动样本文本中各个字符的扰动特征向量输入至文本处理模型中,获取所述文本处理模型输出的各个字符的预测字符类别;
根据该扰动样本文本中每个字符的预测字符类别,以及该字符的真实字符类别,确定该扰动样本文本对应的损失值;
若各个扰动样本文本对应的损失值均小于预设阈值,则将所述文本处理模型确定为预先训练好的文本处理模型,否则继续对所述文本处理模型进行训练。
在一种可能的实施方式中,通过如下方式获取每个扰动样本文本中各个字符的扰动特征向量;
根据每个扰动样本文本中每个字符的字符特征向量,以及该字符对应的随机生成的随机特征向量,确定该字符的扰动特征向量。
第二方面,本申请实施例提供了一种文本的处理装置,所述处理装置包括:
第一获取模块,用于获取待处理文本中各个字符的字符特征向量;
第二获取模块,用于将所述待处理文本中各个字符的字符特征向量输入至预先训练好的文本处理模型中,获取所述文本处理模型输出的各个字符的字符类别;其中,所述文本处理模型是利用添加随机特征向量的扰动样本文本训练得到的;
提取模块,用于基于所述待处理文本中各个字符的字符类别,从所述待处理文本中提取多个实体,并确定各个实体的实体类别。
在一种可能的实施方式中,所述第二获取模块,在获取所述文本处理模型输出的各个字符的字符类别时,包括:
基于所述待处理文本中的各个字符的字符特征向量,确定所述待处理文本中的各个字符归属于每个字符类别的概率;
基于每个字符在所述待处理文本中的位置,该字符归属于每个字符类别的概率,以及与该字符相邻的其他字符归属于每个字符类别的概率,更新该字符归属于每个字符类别的概率;
基于所述待处理文本中各个字符归属于每个字符类别的更新后的概率,确定所述待处理文本中各个字符的字符类别。
在一种可能的实施方式中,所述处理装置还包括:
第三获取模块,用于针对每个扰动样本文本,将该扰动样本文本中各个字符的扰动特征向量输入至文本处理模型中,获取所述文本处理模型输出的各个字符的预测字符类别;
第一确定模块,用于根据该扰动样本文本中每个字符的预测字符类别,以及该字符的真实字符类别,确定该扰动样本文本对应的损失值;
第二确定模块,用于若各个扰动样本文本对应的损失值均小于预设阈值,则将所述文本处理模型确定为预先训练好的文本处理模型,否则继续对所述文本处理模型进行训练。
在一种可能的实施方式中,所述处理装置还包括:
第三确定模块,用于根据每个扰动样本文本中每个字符的字符特征向量,以及该字符对应的随机生成的随机特征向量,确定该字符的扰动特征向量。
第三方面,本申请实施例提供了一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述处理器执行所述机器可读指令,以执行第一方面任一项所述的文本的处理方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行第一方面任一项所述的文本的处理方法的步骤。
本申请实施例提供的一种文本的处理方法、装置、电子设备及存储介质,其中,该处理方法包括:获取待处理文本中各个字符的字符特征向量;将所述待处理文本中各个字符的字符特征向量输入至预先训练好的文本处理模型中,获取所述文本处理模型输出的各个字符的字符类别;其中,所述文本处理模型是利用添加随机特征向量的扰动样本文本训练得到的;基于所述待处理文本中各个字符的字符类别,从所述待处理文本中提取多个实体,并确定各个实体的实体类别。本申请实施例使用添加随机特征向量的扰动样本文本对文本处理模型进行训练,提高了文本处理模型的稳定性,在存在干扰时,实体提取模型输出的字符类别的准确度高,进而提高了识别出的实体以及实体类别的准确度。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例提供的一种文本的处理方法的流程图;
图2示出了本申请实施例提供的另一种文本的处理方法的流程图;
图3示出了本申请实施例提供的另一种文本的处理方法的流程图;
图4示出了本申请实施例提供的一种文本的处理装置的结构示意图;
图5示出了本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
在自然语言处理技术领域,实体表示具体事物、个别主体、现象的支持者等含义,比如,人名、组织机构等,在文本的处理过程中,由于实体能够表示文本中的多种对象,因此,可以通过对文本中实体的识别,确定文本的主要内容。现阶段,通常使用开源的实体提取模型对文本中的实体进行识别,比如,CRF模型,但是现有的实体提取模型抗干扰能力差,在存在干扰的情况下,实体提取模型识别出的实体的准确度低。
基于上述问题,本申请实施例提供了一种文本的处理方法、装置、电子设备及存储介质,其中,该处理方法包括:获取待处理文本中各个字符的字符特征向量;将所述待处理文本中各个字符的字符特征向量输入至预先训练好的文本处理模型中,获取所述文本处理模型输出的各个字符的字符类别;其中,所述文本处理模型是利用添加随机特征向量的扰动样本文本训练得到的;基于所述待处理文本中各个字符的字符类别,从所述待处理文本中提取多个实体,并确定各个实体的实体类别。本申请实施例使用添加随机特征向量的扰动样本文本对文本处理模型进行训练,提高了文本处理模型的稳定性,在存在干扰时,实体提取模型输出的字符类别的准确度高,进而提高了识别出的实体以及实体类别的准确度。
针对以上方案所存在的缺陷,均是发明人在经过实践并仔细研究后得出的结果,因此,上述问题的发现过程以及下文中本申请针对上述问题所提出的解决方案,都应该是发明人在本申请过程中对本申请做出的贡献。
下面将结合本申请中附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
为便于对本实施例进行理解,首先对本申请实施例所公开的一种文本的处理方法进行详细介绍。
参见图1所示,图1为本申请实施例提供的一种文本的处理方法的流程图,所述处理方法包括以下步骤:
S101、获取待处理文本中各个字符的字符特征向量。
该步骤中,待处理文本是任意的一个文本,可以来自不同的领域,比如,新闻、生物医学、房地产等领域,也可以是不同语言的文本,比如,英语、荷兰语等,这里并不对待处理文本的类别进行限定。待处理文本由字符组成,换句话说,待处理文本中包括多个字符,其中,字符是指计算机中使用的字母、数字、字和符号,比如,“1”、“2”、“3”、“A”、“B”、“C”、“a”、“b”、“c”、“,”、“。”、“;”等。字符特征向量用于表征字符的语义特征,计算机可以基于字符特征向量对不同的字符进行区分。
具体的,对待处理文本包括的字符进行拆分处理,得到待处理文本中包括的各个字符,并将每个字符输入至预先训练好的语义特征提取模型中,获取语义特征提取模型输出的每个字符的字符特征向量,可选的,语义特征提取模型为开源的Word2vec模型,其中,Word2vec模型是最常用的词嵌入模型之一。
S102、将所述待处理文本中各个字符的字符特征向量输入至预先训练好的文本处理模型中,获取所述文本处理模型输出的各个字符的字符类别;其中,所述文本处理模型是利用添加随机特征向量的扰动样本文本训练得到的。
该步骤中,预先训练好的文本处理模型用于确定文本中每个字符的字符类别,基于文本处理模型输出的各个字符的字符类别,可以从文本中提取多个实体,并确定各个实体的实体类别,这里,字符的字符类别可以表征该字符是否为实体,如果是实体,是哪一类的实体,以及是该类实体的起始字符还是中间字符,比如,预设有两类实体,分别为人名和组织机构名称,相应的,对应有5种字符类别,分别为B-Person(人名的开始部分)、I-Person(人名的中间部分)、B-Organization(组织机构的开始部分)、I-Organization(组织机构的中间部分)、O(非实体信息)。
需要说明的是,本申请实施例所使用的文本处理模型是利用添加随机特征向量的扰动样本文本训练得到的,即使用对抗训练(adversarial training,AT)的方式对文本处理模型进行训练得到的,文本处理模型的训练过程在下文中具体展开说明。
将待处理文本中各个字符的字符特征向量同时输入至预先训练好的文本处理模型中,获取文本处理模型输出的各个字符的字符类别,这里,文本处理模型可以同时输出待处理文本中各个字符的字符类别。
S103、基于所述待处理文本中各个字符的字符类别,从所述待处理文本中提取多个实体,并确定各个实体的实体类别。
该步骤中,根据待处理文本中各个字符的字符类别,判断每个字符是否是实体的组成字符,如果是实体的组成字符,该字符是首字符还是中间字符,并由同一实体类别的相邻几个字符组成一个实体,并将相邻几个字符的实体类别,确定为组成的实体对应的实体类别。
举例来讲,句子X中包含了5个字符,分别为w0、w1、w2、w3、w4,基于文本处理模型的输出结果,w0、w1、w2、w3、w4的字符类别分别为B-Person、I-Person、B-Organization、O、O、O,由此可知,在句子X中[w0、w1]是人名,[w3]是组织机构名称,其他都是“O”,即句子X中包括两个实体,分别为[w0、w1]、[w3],其中,[w0、w1]的实体类别是人名,[w3]的实体类别是组织机构名称。
本申请实施例提供的文本的处理方法,使用添加随机特征向量的扰动样本文本对文本处理模型进行训练,提高了文本处理模型的稳定性,在存在干扰时,实体提取模型输出的字符类别的准确度高,进而提高了识别出的实体以及实体类别的准确度。
进一步的,参见图2所示,图2为本申请实施例提供的另一种文本的处理方法的流程图,所述获取所述文本处理模型输出的各个字符的字符类别,包括:
S201、基于所述待处理文本中的各个字符的字符特征向量,确定所述待处理文本中的各个字符归属于每个字符类别的概率。
该步骤中,文本处理模型是一个神经网络模型,对应有多层神经网络,多层神经网络中至少包括双向LSTM层、CRF层以及标签的嵌入层,其中,将待处理文本中的各个字符的字符特征向量输入至双向LSTM层,获取双向LSTM层输出的各个字符归属于每个字符类别的概率,双向LSTM层用于初步判断每个字符归属于每个字符类别的概率。
举例来讲,将句子X中各个字符的字符向量输入到双向LSTM层中,双向LSTM层输出每个字符归属于每个字符类别的概率,其中,字符w0归属于每个字符类别的概率分别为:1.5(B-Person)、0.9(I-Person)、0.1(B-Organization)、0.08(I-Organization)、0.05(O)。
S202、基于每个字符在所述待处理文本中的位置,该字符归属于每个字符类别的概率,以及与该字符相邻的其他字符归属于每个字符类别的概率,更新该字符归属于每个字符类别的概率。
该步骤中,将待处理文本中的各个字符归属于每个字符类别的概率,输入至CRF层中,获取CRF层输出的待处理文本中的各个字符归属于每个字符类别的更新后的概率。其中,CRF层中预设有多种约束条件,用于对各个字符归属于每个字符类别的概率进行调整,提高概率的准确度。
举例来讲,CRF层中预设有多种约束条件包括:(1)句子的开头应该是“B-”或“O”,而不是“I-”;(2)在“B-label1、I-label2、I-label3、……”的模式中,label1、label2、label3应该是同一种字符类别,比如,“B-Person、I-Person”是正确的,而“B-Person、I-Organization”则是错误的;(3)“O、I-label”是错误的,命名实体的开头应该是“B-”而不是“I-”。若待处理文本中的各个字符归属于每个字符类别的概率符合上述多种约束条件,则不对概率进行调整,若待处理文本中的各个字符归属于每个字符类别的概率不符合上述任意一种约束条件,则对概率进行调整,以使调整后的概率符合上述多种约束条件。
S203、基于所述待处理文本中各个字符归属于每个字符类别的更新后的概率,确定所述待处理文本中各个字符的字符类别。
作为一种实施方式,将待处理文本中各个字符归属于每个字符类别的更新后的概率,输入至标签的嵌入层,获取标签的嵌入层输出的各个字符的字符类别。其中,标签的嵌入层基于维特比算法确定各个字符的字符类别。
作为另一种实施方式,针对每个字符,基于该字符归属于每个字符类别的更新后的概率,将最大概率对应的字符类别确定为该字符的字符类别。
进一步的,参见图3所示,图3为本申请实施例提供的一种文本的处理方法的流程图,通过如下方式对所述文本处理模型进行训练:
S301、针对每个扰动样本文本,将该扰动样本文本中各个字符的扰动特征向量输入至文本处理模型中,获取所述文本处理模型输出的各个字符的预测字符类别。
该步骤中,扰动样本文本是任意的一个文本,可以来自不同的领域,比如,新闻、生物医学、房地产等领域,也可以是不同语言的文本,比如,英语、荷兰语等,这里并不对扰动样本文本的类别进行限定。使用对抗训练(adversarial training,AT)的方式对文本处理模型进行训练时,使用的训练样本为扰动样本文本,其中,扰动样本文本中每个字符对应有扰动特征向量,具体的,通过如下方式确定每个字符的扰动特征向量:
根据每个扰动样本文本中每个字符的字符特征向量,以及该字符对应的随机生成的随机特征向量,确定该字符的扰动特征向量。
对扰动样本文本包括的字符进行拆分处理,得到扰动样本文本中包括的各个字符,并将每个字符输入至预先训练好的语义特征提取模型中,获取语义特征提取模型输出的每个字符的字符特征向量,针对每个字符,随机生成该字符对应的随机特征向量,这里,字符特征向量与随机特征向量的维度相同,将字符特征向量与随机特征向量的加和,确定为该字符的扰动特征向量。
使用对抗训练(adversarial training,AT)的方式,能够提高文本处理模型的鲁棒性和泛化性,进而提高文本处理模型的准确度。
在获取多个扰动样本文本后,将每个扰动样本文本中各个字符的扰动特征向量输入至文本处理模型中,这里,文本处理模型为初始模型,或者,未训练完成的模型,获取文本处理模型输出的各个字符的预测字符类别,这里的预测字符类别可能是准确的字符类别,也可能是不准确的字符类别,需要进一步检验。
S302、根据该扰动样本文本中每个字符的预测字符类别,以及该字符的真实字符类别,确定该扰动样本文本对应的损失值。
该步骤中,针对每个扰动样本文本,预先标记该扰动样本文本中每个字符的真实字符类别,并根据该扰动样本文本中每个字符分别对应的预测字符类别和真实字符类别,确定该扰动样本文本对应的损失值。这里,若预测字符类别和真实字符类别相一致的字符的数量较多,则损失值较小。
S303、若各个扰动样本文本对应的损失值均小于预设阈值,则将所述文本处理模型确定为预先训练好的文本处理模型,否则继续对所述文本处理模型进行训练。
该步骤中,将每个扰动样本文本对应的损失值与预设阈值进行比较,如果各个扰动样本文本对应的损失值均小于预设阈值,说明当前的文本处理模型的准确度是符合要求的,将当前的文本处理模型确定为预先训练好的文本处理模型,如果存在任意一个扰动样本文本对应的损失值均大于等于预设阈值,则说明当前的文本处理模型的准确度并不符合要求,需要继续对文本处理模型进行训练,以提高文本处理模型的准确度。
其中,上述预设阈值可以根据用户的实际需求进行设置,如果用户对文本处理模型的准确度要求较高,则减小预设阈值,如果用户对训练文本处理模型的效率要求较高,则增大预设阈值。
基于同一发明构思,本申请实施例中还提供了与文本的处理方法对应的文本的处理装置,由于本申请实施例中的装置解决问题的原理与本申请实施例上述文本的处理方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
参见图4所示,图4为本申请一实施例提供的一种文本的处理装置的结构示意图,所述装置包括:
第一获取模块401,用于获取待处理文本中各个字符的字符特征向量;
第二获取模块402,用于将所述待处理文本中各个字符的字符特征向量输入至预先训练好的文本处理模型中,获取所述文本处理模型输出的各个字符的字符类别;其中,所述文本处理模型是利用添加随机特征向量的扰动样本文本训练得到的;
提取模块403,用于基于所述待处理文本中各个字符的字符类别,从所述待处理文本中提取多个实体,并确定各个实体的实体类别。
在一种可能的实施方式中,所述第二获取模块402,在获取所述文本处理模型输出的各个字符的字符类别时,包括:
基于所述待处理文本中的各个字符的字符特征向量,确定所述待处理文本中的各个字符归属于每个字符类别的概率;
基于每个字符在所述待处理文本中的位置,该字符归属于每个字符类别的概率,以及与该字符相邻的其他字符归属于每个字符类别的概率,更新该字符归属于每个字符类别的概率;
基于所述待处理文本中各个字符归属于每个字符类别的更新后的概率,确定所述待处理文本中各个字符的字符类别。
在一种可能的实施方式中,所述文本的处理装置还包括:
第三获取模块,用于针对每个扰动样本文本,将该扰动样本文本中各个字符的扰动特征向量输入至文本处理模型中,获取所述文本处理模型输出的各个字符的预测字符类别;
第一确定模块,用于根据该扰动样本文本中每个字符的预测字符类别,以及该字符的真实字符类别,确定该扰动样本文本对应的损失值;
第二确定模块,用于若各个扰动样本文本对应的损失值均小于预设阈值,则将所述文本处理模型确定为预先训练好的文本处理模型,否则继续对所述文本处理模型进行训练。
在一种可能的实施方式中,所述文本的处理装置还包括:
第三确定模块,用于根据每个扰动样本文本中每个字符的字符特征向量,以及该字符对应的随机生成的随机特征向量,确定该字符的扰动特征向量。
本申请实施例提供的文本的处理装置,使用添加随机特征向量的扰动样本文本对文本处理模型进行训练,提高了文本处理模型的稳定性,在存在干扰时,实体提取模型输出的字符类别的准确度高,进而提高了识别出的实体以及实体类别的准确度。
参见图5所示,图5为本申请实施例提供的一种电子设备的结构示意图,该电子设备500包括:处理器501、存储器502和总线503,所述存储器502存储有所述处理器501可执行的机器可读指令,当电子设备运行时,所述处理器501与所述存储器502之间通过总线503通信,所述处理器501执行所述机器可读指令,以执行如上述文本的处理方法的步骤。
具体地,上述存储器502和处理器501能够为通用的存储器和处理器,这里不做具体限定,当处理器501运行存储器502存储的计算机程序时,能够执行上述文本的处理方法。
对应于上述文本的处理方法,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述文本的处理方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (8)

1.一种文本的处理方法,其特征在于,所述处理方法包括:
获取待处理文本中各个字符的字符特征向量;
将所述待处理文本中各个字符的字符特征向量输入至预先训练好的文本处理模型中,获取所述文本处理模型输出的各个字符的字符类别;其中,所述文本处理模型是利用添加随机特征向量的扰动样本文本训练得到的;
基于所述待处理文本中各个字符的字符类别,从所述待处理文本中提取多个实体,并确定各个实体的实体类别;
通过如下方式获取每个扰动样本文本中各个字符的扰动特征向量:
根据每个扰动样本文本中每个字符的字符特征向量,以及该字符对应的随机生成的随机特征向量,确定该字符的扰动特征向量;其中,所述字符特征向量与所述随机特征向量的维度相同,将每个字符的字符特征向量与该字符的随机特征向量的加和,确定为该字符的扰动特征向量。
2.根据权利要求1所述的文本的处理方法,其特征在于,所述获取所述文本处理模型输出的各个字符的字符类别,包括:
基于所述待处理文本中的各个字符的字符特征向量,确定所述待处理文本中的各个字符归属于每个字符类别的概率;
基于每个字符在所述待处理文本中的位置,该字符归属于每个字符类别的概率,以及与该字符相邻的其他字符归属于每个字符类别的概率,更新该字符归属于每个字符类别的概率;
基于所述待处理文本中各个字符归属于每个字符类别的更新后的概率,确定所述待处理文本中各个字符的字符类别。
3.根据权利要求1所述的文本的处理方法,其特征在于,通过如下方式对所述文本处理模型进行训练:
针对每个扰动样本文本,将该扰动样本文本中各个字符的扰动特征向量输入至文本处理模型中,获取所述文本处理模型输出的各个字符的预测字符类别;
根据该扰动样本文本中每个字符的预测字符类别,以及该字符的真实字符类别,确定该扰动样本文本对应的损失值;
若各个扰动样本文本对应的损失值均小于预设阈值,则将所述文本处理模型确定为预先训练好的文本处理模型,否则继续对所述文本处理模型进行训练。
4.一种文本的处理装置,其特征在于,所述处理装置包括:
第一获取模块,用于获取待处理文本中各个字符的字符特征向量;
第二获取模块,用于将所述待处理文本中各个字符的字符特征向量输入至预先训练好的文本处理模型中,获取所述文本处理模型输出的各个字符的字符类别;其中,所述文本处理模型是利用添加随机特征向量的扰动样本文本训练得到的;
提取模块,用于基于所述待处理文本中各个字符的字符类别,从所述待处理文本中提取多个实体,并确定各个实体的实体类别;
所述处理装置还包括:
第三确定模块,用于根据每个扰动样本文本中每个字符的字符特征向量,以及该字符对应的随机生成的随机特征向量,确定该字符的扰动特征向量;其中,所述字符特征向量与所述随机特征向量的维度相同,将每个字符的字符特征向量与该字符的随机特征向量的加和,确定为该字符的扰动特征向量。
5.根据权利要求4所述的文本的处理装置,其特征在于,所述第二获取模块,在获取所述文本处理模型输出的各个字符的字符类别时,包括:
基于所述待处理文本中的各个字符的字符特征向量,确定所述待处理文本中的各个字符归属于每个字符类别的概率;
基于每个字符在所述待处理文本中的位置,该字符归属于每个字符类别的概率,以及与该字符相邻的其他字符归属于每个字符类别的概率,更新该字符归属于每个字符类别的概率;
基于所述待处理文本中各个字符归属于每个字符类别的更新后的概率,确定所述待处理文本中各个字符的字符类别。
6.根据权利要求4所述的文本的处理装置,其特征在于,所述处理装置还包括:
第三获取模块,用于针对每个扰动样本文本,将该扰动样本文本中各个字符的扰动特征向量输入至文本处理模型中,获取所述文本处理模型输出的各个字符的预测字符类别;
第一确定模块,用于根据该扰动样本文本中每个字符的预测字符类别,以及该字符的真实字符类别,确定该扰动样本文本对应的损失值;
第二确定模块,用于若各个扰动样本文本对应的损失值均小于预设阈值,则将所述文本处理模型确定为预先训练好的文本处理模型,否则继续对所述文本处理模型进行训练。
7.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述处理器执行所述机器可读指令,以执行如权利要求1至3任一项所述的文本的处理方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至3任一项所述的文本的处理方法的步骤。
CN202110074522.6A 2021-01-20 2021-01-20 一种文本的处理方法、装置、电子设备及存储介质 Active CN112765319B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110074522.6A CN112765319B (zh) 2021-01-20 2021-01-20 一种文本的处理方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110074522.6A CN112765319B (zh) 2021-01-20 2021-01-20 一种文本的处理方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN112765319A CN112765319A (zh) 2021-05-07
CN112765319B true CN112765319B (zh) 2021-09-03

Family

ID=75703482

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110074522.6A Active CN112765319B (zh) 2021-01-20 2021-01-20 一种文本的处理方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112765319B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113591440B (zh) * 2021-07-29 2023-08-01 百度在线网络技术(北京)有限公司 一种文本处理方法、装置及电子设备
CN113821731A (zh) * 2021-11-23 2021-12-21 湖北亿咖通科技有限公司 信息推送方法、设备和介质
CN115862036B (zh) * 2022-12-14 2024-02-23 北京瑞莱智慧科技有限公司 信息干扰模型训练方法、信息干扰方法、相关装置及介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108182976A (zh) * 2017-12-28 2018-06-19 西安交通大学 一种基于神经网络的临床医学信息提取方法
CN110032634A (zh) * 2019-04-17 2019-07-19 北京理工大学 一种基于多类型深度特征的中文命名实体识别方法
CN110750645A (zh) * 2019-10-15 2020-02-04 广东外语外贸大学 基于对抗训练的跨领域虚假评论识别方法
CN111061840A (zh) * 2019-12-18 2020-04-24 腾讯音乐娱乐科技(深圳)有限公司 数据识别方法、装置及计算机可读存储介质
US10642846B2 (en) * 2017-10-13 2020-05-05 Microsoft Technology Licensing, Llc Using a generative adversarial network for query-keyword matching
CN111191453A (zh) * 2019-12-25 2020-05-22 中国电子科技集团公司第十五研究所 一种基于对抗训练的命名实体识别方法
CN111209497A (zh) * 2020-01-05 2020-05-29 西安电子科技大学 基于GAN和Char-CNN的DGA域名检测方法
CN111651993A (zh) * 2020-05-11 2020-09-11 北京理工大学 融合局部-全局字符级关联特征的中文命名实体识别方法
CN111738007A (zh) * 2020-07-03 2020-10-02 北京邮电大学 一种基于序列生成对抗网络的中文命名实体识别数据增强算法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11615208B2 (en) * 2018-07-06 2023-03-28 Capital One Services, Llc Systems and methods for synthetic data generation
US20200342172A1 (en) * 2019-04-26 2020-10-29 Wangsu Science & Technology Co., Ltd. Method and apparatus for tagging text based on adversarial learning
US10964084B2 (en) * 2019-06-25 2021-03-30 Adobe Inc. Generating realistic animations for digital animation characters utilizing a generative adversarial network and a hip motion prediction network
CN111241837B (zh) * 2020-01-04 2022-09-20 大连理工大学 基于对抗迁移学习的盗窃案件法律文书命名实体识别方法
CN111522958A (zh) * 2020-05-28 2020-08-11 泰康保险集团股份有限公司 文本分类方法和装置
CN112148730A (zh) * 2020-06-30 2020-12-29 网络通信与安全紫金山实验室 一种使用矩阵广义逆来分批次提取产品数据特征的方法
CN111767405B (zh) * 2020-07-30 2023-12-08 腾讯科技(深圳)有限公司 文本分类模型的训练方法、装置、设备及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10642846B2 (en) * 2017-10-13 2020-05-05 Microsoft Technology Licensing, Llc Using a generative adversarial network for query-keyword matching
CN108182976A (zh) * 2017-12-28 2018-06-19 西安交通大学 一种基于神经网络的临床医学信息提取方法
CN110032634A (zh) * 2019-04-17 2019-07-19 北京理工大学 一种基于多类型深度特征的中文命名实体识别方法
CN110750645A (zh) * 2019-10-15 2020-02-04 广东外语外贸大学 基于对抗训练的跨领域虚假评论识别方法
CN111061840A (zh) * 2019-12-18 2020-04-24 腾讯音乐娱乐科技(深圳)有限公司 数据识别方法、装置及计算机可读存储介质
CN111191453A (zh) * 2019-12-25 2020-05-22 中国电子科技集团公司第十五研究所 一种基于对抗训练的命名实体识别方法
CN111209497A (zh) * 2020-01-05 2020-05-29 西安电子科技大学 基于GAN和Char-CNN的DGA域名检测方法
CN111651993A (zh) * 2020-05-11 2020-09-11 北京理工大学 融合局部-全局字符级关联特征的中文命名实体识别方法
CN111738007A (zh) * 2020-07-03 2020-10-02 北京邮电大学 一种基于序列生成对抗网络的中文命名实体识别数据增强算法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Adversarial training for multi-context joint entity and relation extraction;Giannis Bekoulis等;《Conference: Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing》;20181231;1-7 *
H Liu 等.Proceedings of the AAAI Conference on Artificial Intelligence .《The Thirty-Fourth AAAI Conference on Artificial Intelligence (AAAI-20)》.2020,8384-8391. *
融合 attention 机制的 BI-LSTM-CRF 中文分词模型;黄丹丹 等;《软件》;20181231;第39卷(第10期);268-274 *

Also Published As

Publication number Publication date
CN112765319A (zh) 2021-05-07

Similar Documents

Publication Publication Date Title
CN112765319B (zh) 一种文本的处理方法、装置、电子设备及存储介质
CN110852087B (zh) 中文纠错方法和装置、存储介质及电子装置
CN108287858B (zh) 自然语言的语义提取方法及装置
US11055327B2 (en) Unstructured data parsing for structured information
CN113168498A (zh) 语言校正系统及其方法以及系统中的语言校正模型学习方法
CN111444320A (zh) 文本检索方法、装置、计算机设备和存储介质
JP5809381B1 (ja) 自然言語処理システム、自然言語処理方法、および自然言語処理プログラム
CN109977203B (zh) 语句相似度确定方法、装置、电子设备及可读存储介质
WO2022267353A1 (zh) 文本纠错的方法、装置、电子设备及存储介质
CN107341143A (zh) 一种句子连贯性判断方法及装置和电子设备
CN112434520A (zh) 命名实体识别方法、装置及可读存储介质
CN111753082A (zh) 基于评论数据的文本分类方法及装置、设备和介质
CN113657098A (zh) 文本纠错方法、装置、设备及存储介质
CN113255331B (zh) 文本纠错方法、装置及存储介质
CN114398943B (zh) 样本增强方法及其装置
JP6145059B2 (ja) モデル学習装置、形態素解析装置、及び方法
Wong et al. isentenizer-: Multilingual sentence boundary detection model
CN109614494B (zh) 一种文本分类方法及相关装置
CN107783958B (zh) 一种目标语句识别方法及装置
CN113705165A (zh) 错别字词的识别方法、装置、设备及计算机可读存储介质
CN111737982A (zh) 一种基于深度学习的汉语文本错别字检测方法
JP6600849B2 (ja) 顔文字感情情報抽出システム、方法及びプログラム
CN114842982B (zh) 一种面向医疗信息系统的知识表达方法、装置及系统
CN115796141A (zh) 文本数据增强方法和装置、电子设备、存储介质
CN110633474B (zh) 一种数学算式识别方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant