CN110019758B - 一种核心要素提取方法、装置及电子设备 - Google Patents

一种核心要素提取方法、装置及电子设备 Download PDF

Info

Publication number
CN110019758B
CN110019758B CN201910288812.3A CN201910288812A CN110019758B CN 110019758 B CN110019758 B CN 110019758B CN 201910288812 A CN201910288812 A CN 201910288812A CN 110019758 B CN110019758 B CN 110019758B
Authority
CN
China
Prior art keywords
numerical data
input text
text
word segmentation
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910288812.3A
Other languages
English (en)
Other versions
CN110019758A (zh
Inventor
施振辉
夏源
陈俊
陆超
黄海峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910288812.3A priority Critical patent/CN110019758B/zh
Publication of CN110019758A publication Critical patent/CN110019758A/zh
Application granted granted Critical
Publication of CN110019758B publication Critical patent/CN110019758B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明提供一种核心要素提取方法、装置及电子设备,该方法包括:获取输入文本,然后通过神经网络模型对所述输入文本进行核心要素提取,以得到所述输入文本的核心要素,其中,所述神经网络模型的训练样本集包括多个训练样本,所述训练样本包括文本句子,以及所述文本句子所属的标注信息。这样,每个训练样本包括一个文本句子,每个文本句子对应一个标注信息,可减少训练样本标注的时间成本,提高获取训练样本的效率,从而提高获得神经网络模型的效率,最终提高通过神经网络模型对输入文本进行核心要素提取的效率。

Description

一种核心要素提取方法、装置及电子设备
技术领域
本发明涉及计算机技术领域,尤其涉及一种核心要素提取方法、装置及电子设备。
背景技术
文本由词语和字组成,相同的词语在不同的语境下的重要性是不一样的,将在特定语境下重要的词语称为核心要素。
用户通过查询系统进行信息查询时,向终端输入的文本并不是完全规范的,绝大多数文本为非结构化的口语化表述。在自然语言处理中,这些非结构化的口语化表述不仅包括用于自然语言处理的核心要素,还包括影响自然语言处理的噪音(无意义的词语或字等)。由于用户输入的文本同时包括核心要素和噪音,导致后续自然语言处理的难度较高。
目前,在对文本的核心要素进行提取时,采用的方法有:根据词典及规则提取。这种方案需要预先整理出一个关键词词典,然后从文本中逐一进行匹配,将匹配到的词语作为核心要素,这种提取核心要素的方式比较简单,但构建词典费时费力,导致核心要素的提取效率低。
发明内容
本发明实施例提供一种核心要素提取方法、装置及电子设备,以解决对文本提取核心要素时,提取效率低问题。
第一方面,本发明实施例提供一种核心要素提取方法,包括:
获取输入文本;
通过神经网络模型对所述输入文本进行核心要素提取,以得到所述输入文本的核心要素,其中,所述神经网络模型的训练样本集包括多个训练样本,所述训练样本包括文本句子,以及所述文本句子所属的标注信息。
第二方面,本发明实施例提供一种核心要素提取装置,包括:
输入文本获取模块,用于获取输入文本;
核心要素获取模块,用于通过神经网络模型对所述输入文本进行核心要素提取,以得到所述输入文本的核心要素,其中,所述神经网络模型的训练样本集包括多个训练样本,所述训练样本包括文本句子,以及所述文本句子所属的标注信息。
第三方面,本发明实施例提供一种电子设备,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现第一方面所述的核心要素提取方法的步骤。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现第一方面所述的核心要素提取方法的步骤。
本发明实施例,通过获取输入文本,然后通过神经网络模型对所述输入文本进行核心要素提取,以得到所述输入文本的核心要素,其中,所述神经网络模型的训练样本集包括多个训练样本,所述训练样本包括文本句子,以及所述文本句子所属的标注信息。这样,每个训练样本包括一个文本句子,每个文本句子对应一个标注信息,可减少训练样本标注的时间成本,提高获取训练样本的效率,从而提高获得神经网络模型的效率,最终提高通过神经网络模型对输入文本进行核心要素提取的效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的核心要素提取方法的流程示意图;
图2是本发明实施例提供的神经网络模型训练的流程示意图;
图2a是本发明实施例提供的神经网络模型的结构示意图;
图2b是本发明实施例提供的另一种核心要素提取方法的流程示意图;
图3是本发明实施例提供的核心要素提取装置的结构示意图之一;
图4是本发明实施例提供的核心要素提取装置的结构示意图之二;
图5是本发明实施例提供的核心要素获取子模块的结构示意图;
图6是本发明实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,图1是本发明实施例提供的一种核心要素提取方法的流程图,如图1所示,本发明提供一种核心要素提取方法,应用于电子设备,所述方法包括以下步骤:
步骤101、获取输入文本。
输入文本可包括文字、数字和标点符号中的一种或多种。输入文本可由用户输入,例如,用户需要查询某个信息时,将输入文本输入至电子设备,核心要素提取装置在获取到输入文本后,对输入文本进行核心要素提取。
步骤102、通过神经网络模型对所述输入文本进行核心要素提取,以得到所述输入文本的核心要素,其中,所述神经网络模型的训练样本集包括多个训练样本,所述训练样本包括文本句子,以及所述文本句子所属的标注信息。
具体的,神经网络模型的训练样本集包括多个训练样本。训练样本包括文本句子。文本句子可视为由词语和单个的字组成,能表达一个完整意思,如“这段时间晚上睡不好觉,导致早上起来眼睛肿得厉害,应该去哪个科室看?”表达的就是一个完整的意思。在本实施例中,训练样本包括一个文本句子,以及文本句子所属的标注信息。可通过人工标注的方式为文本句子设置标注信息,当训练样本较多时,对少量的文本句子的标注信息进行人工标注,然后通过训练的方式来获得更多文本句子的标注信息,对文本句子标记标注信息的方式在此不做限定。
本实施例中的训练样本,是对文本句子进行标注,每个训练样本包括一个文本句子,每个文本句子对应一个标注信息,也就是说,每个训练样本只包括一个标注信息,这样,可减少训练样本标注的时间成本,提高获取训练样本的效率,从而提高获得神经网络模型的效率,最终提高通过神经网络模型对输入文本进行核心要素提取的效率。
将输入文本输入至神经网络模型,经过神经网络模型处理后,输出输入文本的核心要素。
本发明实施例中,电子设备可以为手机、平板电脑(Tablet Personal Computer)、膝上型电脑(Laptop Computer)、个人数字助理(personal digital assistant,简称PDA)、移动上网装置(Mobile Internet Device,简称MID)或可穿戴式设备(Wearable Device)等。
本实施例的核心要素提取方法,通过获取输入文本,然后通过神经网络模型对所述输入文本进行核心要素提取,以得到所述输入文本的核心要素,其中,所述神经网络模型的训练样本集包括多个训练样本,所述训练样本包括文本句子,以及所述文本句子所属的标注信息。这样,每个训练样本包括一个文本句子,每个文本句子对应一个标注信息,可减少训练样本标注的时间成本,提高获取训练样本的效率,从而提高获得神经网络模型的效率,最终提高通过神经网络模型对输入文本进行核心要素提取的效率。
在本发明一个实施例中,如图2所示,所述神经网络模型的获取过程包括:
步骤201、对所述多个训练样本的文本句子分别进行分词处理,以获得每个文本句子包括的分词单元,其中,所述分词单元包括词语和/或字。
在本实施例中,神经网络模型的训练过程可在个人计算机或者云服务器等等上执行,在此不做限定。
在获取到训练样本后,对训练样本的文本句子通过分词工具进行分词处理,获得文本句子包括的分词单元,其中,分词单元包括词语和/或字。在本实施例中,词语可理解为由至少两个字组成,字可理解为单个的字。另外,文本句子中可能包括有特殊字符,例如,“@”“#”“&”等等无意义的符号,特殊字符可根据神经网络模型的应用场景进行定义,在此不做限定。在对文本句子进行分词之前,对文本句子中的特殊字符进行过滤,以滤除特殊字符,以减少特殊字符对分词处理的干扰。
分词处理后的文本句子,包括一个或多个词语,或者一个或多个字,或者既包括词语也包括字。
步骤202、将所述多个训练样本的文本句子包括的分词单元转换为数值型数据,以获得每个训练样本的数值型数据。
在获取分词单元后,将分词单元转换为数值型数据。若预先设置有分词单元与数值型数据之间的对应关系,那么,在将分词单元转换为数值型数据时,通过该对应关系即可将分词单元转换为数值型数据。
若预先未设置有分词单元与数值型数据之间的对应关系,那么,在将所述多个训练样本的文本句子包括的分词单元转换为数值型数据,包括:
对所述多个训练样本的文本句子包括的分词单元进行遍历,为不同的分词单元设置不同的数值型数据,为相同的分词单元设置相同的数值型数据。
在本实施例中,若预先未设置有分词单元与数值型数据之间的对应关系,那么在获取分词单元之后,为分词单元设置数值型数据。
在将分词单元转换为数值型数据时,可对多个训练样本的文本句子包括的分词单元进行遍历,并为分词单元设置数值型数据。在对分词单元进行遍历时,数值型数据可从0开始,依次增大,例如,对于“眼睛肿”,设置的数值型数据为0;对于“睡不着觉”设置的数值型数据为1。数值型数据的设置方式在此不做限定。在对分词单元进行转换时,为不同的分词单元设置不同的数值型数据,为相同的分词单元设置相同的数值型数据,这样,可使得同一分词单元具有相同的数值型数据,不同的分词单元具有不同的数值型数据,使得分词单元与数值型数据之间具有一一对应关系。
在本步骤中,通过为分词单元设置数值型数据,可构建一个词级别(即词语-ID,表示词语与ID之间的对应关系,ID表示数值型数据)和字级别(即字-ID,表示字与ID之间的对应关系)的映射词典,在该映射词典中,词语与数值型数据之间具有一一对应关系,字与数值型数据之间具有一一对应关系。
训练样本的文本句子包括一个或多个词语,或者一个或多个字,或者既包括词语也包括字,这样,将文本句子转换为数值型数据之后,每个文本句子对应的数值型数据的个数为一个或多个。在文本句子对应的数值型数据为多个时,这多个数值型数据所属标注信息均为文本句子所属的标注信息。
步骤203、依据所述多个训练样本的标注信息和数值型数据对基础模型进行训练,以获得所述神经网络模型。
基础模型可为循环神经网络(Recurrent Neural Network,简称RNN)模型,或者长短记忆神经网络(Long Short-Term Memory,简称LSTM)模型,当然,基础模型也可选择其他适应模型,在此不做限定。
如图2a所示,基础模型的第一层为网络模型的输入层,如图2a中c1-cn、w1-w4所在的层,输入至输入层的是训练样本的文本句子所对应的数值型数据和训练样本的标注信息。基础模型的第二层是词嵌入层(Embedding层)。词嵌入层将每个数值型数据转化为一个向量。基础模型的第三层是RNN层或者LSTM层。这一层对向量进行组合、归一、合并等计算操作,得到输出向量;基础模型的第四层是注意力层(即Attention层),这一层赋予了网络模型中每个词和字的权重。权重的大小,由其在任务中的重要性决定。基础模型的第五层是输出层,结合Attention层中每个词的权重,计算Softmax函数的值,从而预测出标注信息,与标注信息相比,计算Loss,通过梯度学习算法反向传播梯度,更新网络中的权重,从而学习整个网络的参数。
通过训练样本对基础模型进行训练,可获得训练好的神经网络模型。
在本实施例中,通过训练样本对基础模型进行训练,获得神经网络模型,由于每个训练样本包括一个文本句子,每个文本句子对应一个标注信息,可减少训练样本标注的时间成本,提高获取训练样本的效率,从而提高获得神经网络模型的效率,最终提高通过神经网络模型对输入文本进行核心要素提取的效率。
如图2b所示,本发明实施例提供的一种核心要素提取方法的流程图,本发明实施例提供的核心要素提取方法包括:
步骤11、训练样本输入。其中,样本需要标注上类别信息(即标识信息)。
步骤12、数据清洗。包括训练样本的构建,特殊字符的过滤等。
步骤13、特征构建。这一步需要将文本格式的训练样本转换为数值型数据,包括对训练样本的分词、分字,然后分别对其编码等。这里的做法是,先利用分词工具,对训练样本进行分词,然后遍历整个训练样本集,分别构建一个词级别(词语-ID)和字级别(字-ID)的映射词典。根据映射词典,对输入样本中的词和字分别进行数字编码,将输入样本转化为数值型数据。
步骤14、网络构建及训练网络参数。如图2a所示,第一层是网络的输入层,输入的是第12步中的数值型数据;第二层是词嵌入层(Embedding层),将每个数字ID转化为一个向量;第三层是RNN层/LSTM层,这一层对向量进行组合、归一、合并等其他计算操作,得到输出向量;第四层是Attention层,这一层赋予了网络中的每个词和字一个权重,根据其在任务中的重要性,决定权重的大小。比如:上述例子中,在分科任务中,“睡不好觉”的权重比“眼睛肿”的权重高;第五层是输出层,结合Attention层中每个词的权重,计算Softmax函数的值,从而预测出科室标签,与真实科室标签相比计算Loss,通过梯度学习算法反向传播梯度,更新网络中的权重,从而学习整个网络的参数。
步骤15、输出核心要素。这一步是输出输入文本中的哪些词语或字是核心要素。经过步骤14,可获得一个训练好的网络,这个网络的输出包含了每个词和字在分类任务上的权重,根据权重排序,将权重大的词作为核心要素输出,或者,将权重大的字,根据其在文本中的相互距离进行合并成词或单独成词,最后去重,作为核心要素输出。
上述神经网络模型借助深度学习中的注意力机制(Attention机制),采用字词联合网络结构,提取出输入文本的核心要素。
例如,对于医疗领域,用户常常需要咨询应挂哪个科室,此时,本实施例提供的核心要素提取方法需要根据神经网络模型,从用户输入的输入文本(输入文本可理解为主诉文本)中提取出分科相关的核心要素。
例如,用户主诉“这段时间晚上睡不好觉,导致早上起来眼睛肿得厉害,应该去哪个科室看?”。通过本实施例的方法对核心要素进行提取,获得在分科任务上的核心要素是“睡不好觉”,而不是“眼睛肿”,虽然在医学上来说,这两个短语都是医学相关的症状词,但是根据用户主诉的内容来看,应该建议用户去睡眠中心或者神经内科挂号,而不是去眼科挂号,此时,核心要素应是“睡不着觉”,“眼睛肿”并不是上述主诉的核心要素。
在本发明另一个实施例中,步骤102,通过神经网络模型对所述输入文本进行核心要素提取,以得到所述输入文本的核心要素,包括:
对所述输入文本进行所述分词处理,以获得所述输入文本的分词单元,并将所述输入文本的分词单元转换为数值型数据;
将所述输入文本的数值型数据输入至所述神经网络模型,得到所述输入文本的核心要素。
具体的,采用分词工具将输入文本进行分词处理,获得输入文本的分词单元,然后将输入文本的分词单元转换成数值型数据。在将输入文本的分词单元转换成数值型数据时,根据将训练样本的分词单元转换成数值型数据时,分词单元与数值型数据之间的对应关系,对输入文本的分词单元进行转换。若将训练样本的分词单元转换成数值型数据时,采用的是预先设置的分词单元与数值型数据之间的对应关系,那么,采用该对应关系对输入文本的分词单元进行转换。若将训练样本的分词单元转换成数值型数据时,是通过为分词单元设置数值型数据进行转换,那么,采用为分词单元设置数值型数据时,构建的词级别(即词语-ID)和字级别(即字-ID)的映射词典对输入文本的分词单元进行转换。
本实施例中,将输入文本转换成数值型数据后,输入至神经网络模型中,并根据神经网络模型的输出获得输入文本的核心要素。神经网络模型对随意性输入文本的包容性较大,可对不规范的输入文本进行核心要素提取。
在本发明一个实施例中,所述将所述输入文本的数值型数据输入至所述神经网络模型,得到所述输入文本的核心要素,包括:
将所述输入文本的数值型数据输入至所述神经网络模型,获取输入文本中权重大于预设阈值的目标数值型数据,并将所述目标数值型数据对应的分词单元作为核心要素。
具体的,将输入文本的数值型数据输入至神经网络模型中,神经网络模型的输出包含了输入文本的分词单元的每个词语和字在标注信息(标注信息可视为分类信息)上的权重。例如,对于输入文本“这段时间晚上睡不好觉,导致早上起来眼睛肿得厉害,应该去哪个科室看?”中的“睡不好觉”和“眼睛肿”,在神经内科(神经内科作为标注信息)上的权重中,“睡不好觉”所对应的数值型数据的权重大于“眼睛肿”所对应的数值型数据的权重。
权重大的数值型数据所对应的分词单元,比权重小的数值型数据所对应的分词单元更有可能成为核心要素,因此,在本步骤中,获取输入文本包括的数值型数据中,权重大于预设阈值的目标数值型数据,并将所述目标数值型数据对应的分词单元作为核心要素。预设阈值可根据实际情况进行设置,在此不做限定。
在本实施例中,通过将所述输入文本的数值型数据输入至所述神经网络模型,获取输入文本中权重大于预设阈值的目标数值型数据,并将所述目标数值型数据对应的分词单元作为核心要素。这样,将权重大于预设阈值的数值型数据所对应的分词单元作为核心要素,可提高核心要素提取的准确率。
在本发明又一个实施例中,将所述目标数值型数据对应的分词单元作为核心要素,包括:
在所述目标数值型数据对应的分词单元包括词语和多个字的情况下,根据所述多个字中各字在所述输入文本中的位置,对所述多个字中的字进行合并处理,以获得合并词语集;
对所述合并词语集中的词语和权重大于预设阈值的词语进行去重处理,以获得核心词语集;
将所述多个字中未进行合并处理的字和所述核心词语集中的词语作为核心要素。
具体的,若目标数值型数据对应的分词单元包括多个字,那么可根据所述多个字中的各字在输入文本中的位置进行合并。若多个字包括第一字和第二字,根据第一字与第二字在输入文本中的距离进行合并。例如,对于输入文本“这段时间晚上睡不好觉,导致早上起来眼睛肿得厉害,应该去哪个科室看?”,目标数值型数据对应的分词单元包括的多个字为“好”、“觉”、“肿”,由于“好”和“觉”在输入文本中处于相邻位置,也就是说“好”和“觉”距离很近,此时,可将“好”和“觉”进行合并,获得词语“好觉”。由于“觉”和“肿”在输入文本中相隔的字符大于预设字符阈值(预设字符阈值可根据实际情况进行设置,在此不做限定),不会将“觉”和“肿”进行合并。
合并词语集为进行合并处理后获得的词语。对合并词语集中的词语和权重大于预设阈值的词语进行去重处理,可理解为,对词语集进行去重处理,词语集包括合并词语集中的词语和权重大于预设阈值的词语。进行去重处理后的词语集即为核心词语集。最后,将所述多个字中未进行合并处理的字和所述核心词语集中的词语作为核心要素。
在本实施例中,在所述目标数值型数据对应的分词单元包括词语和多个字的情况下,根据所述多个字中各字在所述输入文本中的位置,对所述多个字中的字进行合并处理,以获得合并词语集;对所述合并词语集中的词语和权重大于预设阈值的词语进行去重处理,以获得核心词语集;将所述多个字中未进行合并处理的字和所述核心词语集中的词语作为核心要素,可提高核心要素提取的准确率。
参见图3,图3是本发明实施例提供的深度学习装置的结构图,如图3所示,核心要素提取装置300,包括:
输入文本获取模块301,用于获取输入文本;
核心要素获取模块302,用于通过神经网络模型对所述输入文本进行核心要素提取,以得到所述输入文本的核心要素,其中,所述神经网络模型的训练样本集包括多个训练样本,所述训练样本包括文本句子,以及所述文本句子所属的标注信息。
进一步的,所述神经网络模型的获取过程包括:
对所述多个训练样本的文本句子分别进行分词处理,以获得每个文本句子包括的分词单元,其中,所述分词单元包括词语和/或字;
将所述多个训练样本的文本句子包括的分词单元转换为数值型数据,以获得每个训练样本的数值型数据;
依据所述多个训练样本的标注信息和数值型数据对基础模型进行训练,以获得所述神经网络模型。
进一步的,所述将所述多个训练样本的文本句子包括的分词单元转换为数值型数据,包括:
对所述多个训练样本的文本句子包括的分词单元进行遍历,为不同的分词单元设置不同的数值型数据,为相同的分词单元设置相同的数值型数据。
进一步的,如图4所示,所述核心要素获取模块302,包括:
分词子模块3021,用于对所述输入文本进行所述分词处理,以获得所述输入文本的分词单元;
转换子模块3022,用于将所述输入文本的分词单元转换为数值型数据;
核心要素获取子模块3023,用于将所述输入文本的数值型数据输入至所述神经网络模型,得到所述输入文本的核心要素。
进一步的,如图5所示,所述核心要素获取子模块3023,包括:
第一获取单元30231,用于将所述输入文本的数值型数据输入至所述神经网络模型,获取输入文本中权重大于预设阈值的目标数值型数据;
第二获取单元30232,用于将所述目标数值型数据对应的分词单元作为核心要素。
进一步的,所述第二获取单元30232,用于:
在所述目标数值型数据对应的分词单元包括词语和多个字的情况下,根据所述多个字中各字在所述输入文本中的位置,对所述多个字中的字进行合并处理,以获得合并词语集;
对所述合并词语集中的词语和权重大于预设阈值的词语进行去重处理,以获得核心词语集;
将所述多个字中未进行合并处理的字和所述核心词语集中的词语作为核心要素。
本发明实施例提供的核心要素提取装置300能够实现图1所示方法实施例中电子设备实现的各个过程,为避免重复,这里不再赘述。
本实施例的核心要素提取装置,通过获取输入文本,然后通过神经网络模型对所述输入文本进行核心要素提取,以得到所述输入文本的核心要素,其中,所述神经网络模型的训练样本集包括多个训练样本,所述训练样本包括文本句子,以及所述文本句子所属的标注信息。这样,每个训练样本包括一个文本句子,每个文本句子对应一个标注信息,可减少训练样本标注的时间成本,提高获取训练样本的效率,从而提高获得神经网络模型的效率,最终提高通过神经网络模型对输入文本进行核心要素提取的效率。
参见图6,图6是本发明实施例提供的一种电子设备的结构示意图。如图6所示,电子设备600包括:处理器601、存储器602及存储在所述存储器602上并可在所述处理器上运行的计算机程序,电子设备600中的各个组件通过总线系统603耦合在一起。可理解,总线系统603用于实现这些组件之间的连接通信。
其中,处理器601,用于获取输入文本;
通过神经网络模型对所述输入文本进行核心要素提取,以得到所述输入文本的核心要素,其中,所述神经网络模型的训练样本集包括多个训练样本,所述训练样本包括文本句子,以及所述文本句子所属的标注信息。
进一步的,所述神经网络模型的获取过程包括:
对所述多个训练样本的文本句子分别进行分词处理,以获得每个文本句子包括的分词单元,其中,所述分词单元包括词语和/或字;
将所述多个训练样本的文本句子包括的分词单元转换为数值型数据,以获得每个训练样本的数值型数据;
依据所述多个训练样本的标注信息和数值型数据对基础模型进行训练,以获得所述神经网络模型。
进一步的,所述将所述多个训练样本的文本句子包括的分词单元转换为数值型数据,包括:
对所述多个训练样本的文本句子包括的分词单元进行遍历,为不同的分词单元设置不同的数值型数据,为相同的分词单元设置相同的数值型数据。
进一步的,处理器601,还用于:
对所述输入文本进行所述分词处理,以获得所述输入文本的分词单元,并将所述输入文本的分词单元转换为数值型数据;
将所述输入文本的数值型数据输入至所述神经网络模型,得到所述输入文本的核心要素。
进一步的,处理器601,还用于:
将所述输入文本的数值型数据输入至所述神经网络模型,获取输入文本中权重大于预设阈值的目标数值型数据,并将所述目标数值型数据对应的分词单元作为核心要素。
进一步的,处理器601,还用于:
在所述目标数值型数据对应的分词单元包括词语和多个字的情况下,根据所述多个字中各字在所述输入文本中的位置,对所述多个字中的字进行合并处理,以获得合并词语集;
对所述合并词语集中的词语和权重大于预设阈值的词语进行去重处理,以获得核心词语集;
将所述多个字中未进行合并处理的字和所述核心词语集中的词语作为核心要素。
电子设备600能够实现前述实施例中电子设备实现的各个过程,为避免重复,这里不再赘述。
本发明实施例的电子设备600,通过获取输入文本,然后通过神经网络模型对所述输入文本进行核心要素提取,以得到所述输入文本的核心要素,其中,所述神经网络模型的训练样本集包括多个训练样本,所述训练样本包括文本句子,以及所述文本句子所属的标注信息。这样,每个训练样本包括一个文本句子,每个文本句子对应一个标注信息,可减少训练样本标注的时间成本,提高获取训练样本的效率,从而提高获得神经网络模型的效率,最终提高通过神经网络模型对输入文本进行核心要素提取的效率。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述核心要素提取方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (12)

1.一种核心要素提取方法,其特征在于,包括:
获取输入文本;
通过神经网络模型对所述输入文本进行核心要素提取,以得到所述输入文本的核心要素,其中,所述神经网络模型的训练样本集包括多个训练样本,所述训练样本包括文本句子,以及所述文本句子所属的标注信息;
所述神经网络模型的获取过程包括:
对所述多个训练样本的文本句子分别进行分词处理,以获得每个文本句子包括的分词单元,其中,所述分词单元包括词语和/或字;
将所述多个训练样本的文本句子包括的分词单元转换为数值型数据,以获得每个训练样本的数值型数据;
依据所述多个训练样本的标注信息和数值型数据对基础模型进行训练,以获得所述神经网络模型。
2.根据权利要求1所述的方法,其特征在于,所述将所述多个训练样本的文本句子包括的分词单元转换为数值型数据,包括:
对所述多个训练样本的文本句子包括的分词单元进行遍历,为不同的分词单元设置不同的数值型数据,为相同的分词单元设置相同的数值型数据。
3.根据权利要求2所述的方法,其特征在于,所述通过神经网络模型对所述输入文本进行核心要素提取,以得到所述输入文本的核心要素,包括:
对所述输入文本进行所述分词处理,以获得所述输入文本的分词单元,并将所述输入文本的分词单元转换为数值型数据;
将所述输入文本的数值型数据输入至所述神经网络模型,得到所述输入文本的核心要素。
4.根据权利要求3所述的方法,其特征在于,所述将所述输入文本的数值型数据输入至所述神经网络模型,得到所述输入文本的核心要素,包括:
将所述输入文本的数值型数据输入至所述神经网络模型,获取输入文本中权重大于预设阈值的目标数值型数据,并将所述目标数值型数据对应的分词单元作为核心要素。
5.根据权利要求4所述的方法,其特征在于,将所述目标数值型数据对应的分词单元作为核心要素,包括:
在所述目标数值型数据对应的分词单元包括词语和多个字的情况下,根据所述多个字中各字在所述输入文本中的位置,对所述多个字中的字进行合并处理,以获得合并词语集;
对所述合并词语集中的词语和权重大于预设阈值的词语进行去重处理,以获得核心词语集;
将所述多个字中未进行合并处理的字和所述核心词语集中的词语作为核心要素。
6.一种核心要素提取装置,其特征在于,包括:
输入文本获取模块,用于获取输入文本;
核心要素获取模块,用于通过神经网络模型对所述输入文本进行核心要素提取,以得到所述输入文本的核心要素,其中,所述神经网络模型的训练样本集包括多个训练样本,所述训练样本包括文本句子,以及所述文本句子所属的标注信息;
所述神经网络模型的获取过程包括:
对所述多个训练样本的文本句子分别进行分词处理,以获得每个文本句子包括的分词单元,其中,所述分词单元包括词语和/或字;
将所述多个训练样本的文本句子包括的分词单元转换为数值型数据,以获得每个训练样本的数值型数据;
依据所述多个训练样本的标注信息和数值型数据对基础模型进行训练,以获得所述神经网络模型。
7.根据权利要求6所述的装置,其特征在于,所述将所述多个训练样本的文本句子包括的分词单元转换为数值型数据,包括:
对所述多个训练样本的文本句子包括的分词单元进行遍历,为不同的分词单元设置不同的数值型数据,为相同的分词单元设置相同的数值型数据。
8.根据权利要求7所述的装置,其特征在于,所述核心要素获取模块,包括:
分词子模块,用于对所述输入文本进行所述分词处理,以获得所述输入文本的分词单元;
转换子模块,用于将所述输入文本的分词单元转换为数值型数据;
核心要素获取子模块,用于将所述输入文本的数值型数据输入至所述神经网络模型,得到所述输入文本的核心要素。
9.根据权利要求8所述的装置,其特征在于,所述核心要素获取子模块,包括:
第一获取单元,用于将所述输入文本的数值型数据输入至所述神经网络模型,获取输入文本中权重大于预设阈值的目标数值型数据;
第二获取单元,用于将所述目标数值型数据对应的分词单元作为核心要素。
10.根据权利要求9所述的装置,其特征在于,所述第二获取单元,用于:
在所述目标数值型数据对应的分词单元包括词语和多个字的情况下,根据所述多个字中各字在所述输入文本中的位置,对所述多个字中的字进行合并处理,以获得合并词语集;
对所述合并词语集中的词语和权重大于预设阈值的词语进行去重处理,以获得核心词语集;
将所述多个字中未进行合并处理的字和所述核心词语集中的词语作为核心要素。
11.一种电子设备,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至5中任一项所述的核心要素提取方法的步骤。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的核心要素提取方法的步骤。
CN201910288812.3A 2019-04-11 2019-04-11 一种核心要素提取方法、装置及电子设备 Active CN110019758B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910288812.3A CN110019758B (zh) 2019-04-11 2019-04-11 一种核心要素提取方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910288812.3A CN110019758B (zh) 2019-04-11 2019-04-11 一种核心要素提取方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN110019758A CN110019758A (zh) 2019-07-16
CN110019758B true CN110019758B (zh) 2021-07-06

Family

ID=67191014

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910288812.3A Active CN110019758B (zh) 2019-04-11 2019-04-11 一种核心要素提取方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN110019758B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110610003B (zh) * 2019-08-15 2023-09-15 创新先进技术有限公司 用于辅助文本标注的方法和系统
CN111078823A (zh) * 2019-12-13 2020-04-28 北京明略软件系统有限公司 文本要素提取方法、装置及电子设备
CN111639177B (zh) * 2020-06-04 2023-06-02 虎博网络技术(上海)有限公司 文本提取方法和装置
CN111898363B (zh) * 2020-07-27 2023-07-28 平安科技(深圳)有限公司 文本长难句的压缩方法、装置、计算机设备及存储介质
CN112989031B (zh) * 2021-04-28 2021-08-03 成都索贝视频云计算有限公司 基于深度学习的广播电视新闻事件要素抽取方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095749A (zh) * 2016-06-03 2016-11-09 杭州量知数据科技有限公司 一种基于深度学习的文本关键词提取方法
CN106776562A (zh) * 2016-12-20 2017-05-31 上海智臻智能网络科技股份有限公司 一种关键词提取方法和提取系统
WO2018023356A1 (en) * 2016-08-01 2018-02-08 Microsoft Technology Licensing, Llc Machine translation method and apparatus
CN108334489A (zh) * 2017-01-19 2018-07-27 百度在线网络技术(北京)有限公司 文本核心词识别方法和装置
CN108664473A (zh) * 2018-05-11 2018-10-16 平安科技(深圳)有限公司 文本关键信息的识别方法、电子装置及可读存储介质
CN108806785A (zh) * 2018-05-29 2018-11-13 四川长虹电器股份有限公司 一种基于卷积神经网络的诊疗科室推荐方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241424B (zh) * 2018-08-29 2019-08-27 陕西师范大学 一种推荐方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095749A (zh) * 2016-06-03 2016-11-09 杭州量知数据科技有限公司 一种基于深度学习的文本关键词提取方法
WO2018023356A1 (en) * 2016-08-01 2018-02-08 Microsoft Technology Licensing, Llc Machine translation method and apparatus
CN106776562A (zh) * 2016-12-20 2017-05-31 上海智臻智能网络科技股份有限公司 一种关键词提取方法和提取系统
CN108334489A (zh) * 2017-01-19 2018-07-27 百度在线网络技术(北京)有限公司 文本核心词识别方法和装置
CN108664473A (zh) * 2018-05-11 2018-10-16 平安科技(深圳)有限公司 文本关键信息的识别方法、电子装置及可读存储介质
CN108806785A (zh) * 2018-05-29 2018-11-13 四川长虹电器股份有限公司 一种基于卷积神经网络的诊疗科室推荐方法及系统

Also Published As

Publication number Publication date
CN110019758A (zh) 2019-07-16

Similar Documents

Publication Publication Date Title
CN110019758B (zh) 一种核心要素提取方法、装置及电子设备
CN110705301B (zh) 实体关系抽取方法及装置、存储介质、电子设备
CN111680159B (zh) 数据处理方法、装置及电子设备
CN110633577B (zh) 文本脱敏方法以及装置
CN111445898B (zh) 语种识别方法、装置、电子设备和存储介质
JP2018025874A (ja) テキスト解析装置及びプログラム
CN111753082A (zh) 基于评论数据的文本分类方法及装置、设备和介质
CN112860896A (zh) 语料泛化方法及用于工业领域的人机对话情感分析方法
CN113450759A (zh) 语音生成方法、装置、电子设备以及存储介质
CN112463942A (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
CN111191463A (zh) 情感分析方法、装置、电子设备及存储介质
CN113553412A (zh) 问答处理方法、装置、电子设备和存储介质
CN114462385A (zh) 一种文本分段方法及装置
CN113094478A (zh) 表情回复方法、装置、设备及存储介质
CN113239668B (zh) 关键词智能提取方法、装置、计算机设备及存储介质
CN115357710B (zh) 表格描述文本生成模型的训练方法、装置及电子设备
CN111241843A (zh) 基于复合神经网络的语义关系推断系统和方法
CN115565186A (zh) 文字识别模型的训练方法、装置、电子设备和存储介质
CN114138954A (zh) 用户咨询问题推荐方法、系统、计算机设备及存储介质
CN114064873A (zh) 保险领域faq知识库构建方法、装置及电子设备
CN114118062A (zh) 客户特征提取方法、装置、电子设备及存储介质
CN113705194A (zh) 简称抽取方法及电子设备
CN112765993A (zh) 语义解析方法、系统、设备及可读存储介质
CN110232328A (zh) 一种征信报告解析方法、装置及计算机可读存储介质
CN111274382A (zh) 文本分类方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant