CN113486146A - 一种文本处理方法、装置、电子设备及计算机可读介质 - Google Patents
一种文本处理方法、装置、电子设备及计算机可读介质 Download PDFInfo
- Publication number
- CN113486146A CN113486146A CN202110761342.5A CN202110761342A CN113486146A CN 113486146 A CN113486146 A CN 113486146A CN 202110761342 A CN202110761342 A CN 202110761342A CN 113486146 A CN113486146 A CN 113486146A
- Authority
- CN
- China
- Prior art keywords
- text
- relation
- word
- extracted
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了文本处理方法、装置、电子设备及计算机可读介质,涉及人工智能技术领域,具体涉及机器学习、深度学习和自然语言处理技术领域,一具体实施方式包括获取待提取关系文本,确定待提取关系文本中的目标文本;从待提取关系文本中,确定目标文本对应的动作相关词;调用语义模型,进而基于预设的关系词库,以将动作相关词与预设的关系词库中的每一个关系词进行匹配;响应于确定动作相关词与预设的关系词库中的一个关系词匹配,将一个关系词确定为目标文本相对于待提取关系文本的文本关系,从而实现可以快速、准确地确定出目标文本相对于待提取关系文本的文本关系,以便于基于文本关系对待提取关系文本进行更快速、便捷的处理。
Description
技术领域
本申请涉及人工智能技术领域,具体涉及机器学习、深度学习和自然语言处理技术领域,尤其涉及一种文本处理方法、装置、电子设备及计算机可读介质。
背景技术
目前,对于政务公文的处理,可以从一篇政务公文中抽取出此政务公文中出现的其他公文与该篇政务公文之间的关系。具体可以使用传统的关系抽取模型,基于上下文直接进行关系的抽取,这样会面临需要判断的实体与实体之间相隔太长,导致关系提取困难。
在实现本申请过程中,发明人发现现有技术中至少存在如下问题:
在从政务公文中抽取出此政务公文中出现的其他公文与该篇政务公文之间的关系时,使用传统的关系抽取模型,基于上下文直接进行关系的抽取,从而面临需要判断的实体与实体之间相隔太长,导致关系提取困难的问题。
发明内容
有鉴于此,本申请实施例提供一种文本处理方法、装置、电子设备及计算机可读介质,能够解决现有的在从政务公文中抽取出此政务公文中出现的其他公文与该篇政务公文之间的关系时,使用传统的关系抽取模型,基于上下文直接进行关系的抽取,从而面临需要判断的实体与实体之间相隔太长,导致关系提取困难的问题。
为实现上述目的,根据本申请实施例的一个方面,提供了一种文本处理方法,包括:
获取待提取关系文本,确定待提取关系文本中的目标文本;
从待提取关系文本中,确定目标文本对应的动作相关词;
调用语义模型,进而基于预设的关系词库,以将动作相关词与预设的关系词库中的每一个关系词进行匹配;
响应于确定动作相关词与预设的关系词库中的一个关系词匹配,将一个关系词确定为目标文本相对于待提取关系文本的文本关系,以基于文本关系对待提取关系文本进行处理。
可选地,确定述待提取关系文本中的目标文本,包括:
确定待提取关系文本中的目标区域,用目标文本替换目标区域中的文本。
可选地,确定目标文本对应的动作相关词,包括:
从待提取关系文本中,分别确定目标文本之前和目标文本之后的动词、副词和状词,进而将动词、副词和状词确定为目标文本对应的动作相关词。
可选地,将动作相关词与预设的关系词库中的每一个关系词进行匹配,包括:
将动作相关词转换为对应的动作相关词向量;
将预设的关系词库中的各预设的关系词转换为对应的预设的关系词向量;
分别计算动作相关词向量和各预设的关系词向量之间的相似度。
可选地,响应于确定动作相关词与预设的关系词库中的一个关系词匹配,将一个关系词确定为目标文本相对于待提取关系文本的文本关系,包括:
将最大相似度对应的预设的关系词向量对应的预设关系词确定为目标文本相对于待提取关系文本的文本关系。
可选地,在调用语义模型之前,方法还包括:
获取初始神经网络模型;
获取训练样本集,训练样本集包括各种文本以及标注的各种文本对应的关系词;
将各种文本作为初始神经网络模型的输入,将标注的各种文本对应的关系词作为期望输出,对初始神经网络模型进行训练,进而得到中间神经网络模型。
可选地,在调用语义模型之前,方法还包括:
获取测试样本集,测试样本集包括文本集合以及基于规则的模型对文本集合中的各文本进行分类的分类标注结果集合;
将文本集合输入至中间神经网络模型,输出对应的分类结果集合;
对于分类结果集合中的每一个分类结果,将该分类结果与对应的文本所对应的分类标注结果集合中的分类标注结果进行对比,响应于确定分类结果与分类标注结果不一致,纠正分类结果,进而基于纠正的分类结果更新训练样本集,再次对中间神经网络模型进行训练;
响应于确定分类结果集合中的各分类结果均与对应的文本所对应的分类标注结果集合中的分类标注结果一致,生成语义模型。
另外,本申请还提供了一种文本处理装置,包括:
获取单元,被配置成获取待提取关系文本,确定待提取关系文本中的目标文本;
动作相关词确定单元,被配置成从待提取关系文本中,确定目标文本对应的动作相关词;
匹配单元,被配置成调用语义模型,进而基于预设的关系词库,以将动作相关词与预设的关系词库中的每一个关系词进行匹配;
文本关系输出单元,被配置成响应于确定动作相关词与预设的关系词库中的一个关系词匹配,将一个关系词确定为目标文本相对于待提取关系文本的文本关系,以基于文本关系对待提取关系文本进行处理。
可选地,获取单元进一步被配置成:
确定待提取关系文本中的目标区域,用目标文本替换目标区域中的文本。
可选地,动作相关词确定单元进一步被配置成:
从待提取关系文本中,分别确定目标文本之前和目标文本之后的动词、副词和状词,进而将动词、副词和状词确定为目标文本对应的动作相关词。
可选地,匹配单元进一步被配置成:
将动作相关词转换为对应的动作相关词向量;
将预设的关系词库中的各预设的关系词转换为对应的预设的关系词向量;
分别计算动作相关词向量和各预设的关系词向量之间的相似度。
可选地,文本关系输出单元进一步被配置成:
将最大相似度对应的预设的关系词向量对应的预设关系词确定为目标文本相对于待提取关系文本的文本关系。
可选地,文本处理装置还包括训练单元,被配置成:
获取初始神经网络模型;
获取训练样本集,训练样本集包括各种文本以及标注的各种文本对应的关系词;
将各种文本作为初始神经网络模型的输入,将标注的各种文本对应的关系词作为期望输出,对初始神经网络模型进行训练,进而得到中间神经网络模型。
可选地,训练单元进一步被配置成:
获取测试样本集,测试样本集包括文本集合以及基于规则的模型对文本集合中的各文本进行分类的分类标注结果集合;
将文本集合输入至中间神经网络模型,输出对应的分类结果集合;
对于分类结果集合中的每一个分类结果,将该分类结果与对应的文本所对应的分类标注结果集合中的分类标注结果进行对比,响应于确定分类结果与分类标注结果不一致,纠正分类结果,进而基于纠正的分类结果更新训练样本集,再次对中间神经网络模型进行训练;
响应于确定分类结果集合中的各分类结果均与对应的文本所对应的分类标注结果集合中的分类标注结果一致,生成语义模型。
另外,本申请还提供了一种文本处理电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上述的文本处理方法。
另外,本申请还提供了一种计算机可读介质,其上存储有计算机程序,程序被处理器执行时实现如上述的文本处理方法。
上述发明中的一个实施例具有如下优点或有益效果:本申请通过获取待提取关系文本,确定待提取关系文本中的目标文本;从待提取关系文本中,确定目标文本对应的动作相关词;调用语义模型,进而基于预设的关系词库,以将动作相关词与预设的关系词库中的每一个关系词进行匹配;响应于确定动作相关词与预设的关系词库中的一个关系词匹配,将一个关系词确定为目标文本相对于待提取关系文本的文本关系,从而实现可以快速、准确地确定出目标文本相对于待提取关系文本的文本关系,以便于基于文本关系对待提取关系文本进行更快速、便捷的处理。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本申请,不构成对本申请的不当限定。其中:
图1是根据本申请第一实施例的文本处理方法的主要流程的示意图;
图2是根据本申请第二实施例的文本处理方法的主要流程的示意图;
图3是根据本申请第三实施例的文本处理方法的应用场景示意图;
图4是根据本申请实施例的文本处理装置的主要单元的示意图;
图5是本申请实施例可以应用于其中的示例性系统架构图;
图6是适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本申请第一实施例的文本处理方法的主要流程的示意图,如图1所示,文本处理方法包括:
步骤S101,获取待提取关系文本,确定待提取关系文本中的目标文本。
本实施例中,文本处理方法的执行主体(例如,可以是服务器)可以通过有线连接或无线连接的方式,从新闻或者政务公文中获取待提取关系文本,具体可以是新闻或者政务公文中的一部分用户感兴趣的文本。本申请对待提取关系文本的来源不做具体限定。待提取关系文本中的目标文本,可以是待提取关系文本中的书名或者政策名,本申请对目标文本的具体内容不做限定。示例的,待提取关系文本可以为:
“A部B市和C局关于应对D做好事业单位公开招聘高校毕业生的通知:
各部,各区和局,各委、办、局人事(组织)处,市属高等院校,各直属事业单位:
为贯彻落实E对做好高校毕业生就业工作的重要指示精神,根据F办公厅《关于应对D做好事业单位公开招聘高校毕业生工作的通知》(H厅发[2020]27号)要求,现就B市应对D做好事业单位公开招聘高校毕业生工作有关事项通知如下。”
则上述待提取关系文本中的目标文本就是《关于应对D做好事业单位公开招聘高校毕业生工作的通知》。
待提取的关系可以是:《A部B市和C局关于应对D做好事业单位公开招聘高校毕业生的通知》是根据《关于应对D做好事业单位公开招聘高校毕业生工作的通知》(H厅发[2020]27号)这个关系。
步骤S102,从待提取关系文本中,确定目标文本对应的动作相关词。
本实施例中,目标文本对应的动作相关词可以是待提取关系文本中的目标文本之前的词性为'P','VV','VE','VC'(副词,其它动词,动词,系动词)的词,记作“pre_pv”,提取待提取关系文本中的目标文本之后的词性为'P','VV','VE','VC'(副词,其它动词,动词,系动词)的词记作“pre_pv”。示例的,动作相关词即关系词可以是根据、废止、修订、提及、复函、贯彻落实、转发。
步骤S103,调用语义模型,进而基于预设的关系词库,以将动作相关词与预设的关系词库中的每一个关系词进行匹配。
预设的关系词库中可以包括各个关系词,例如根据、废止、修订、提及、复函、贯彻落实、转发。
本实施例中,将目标文本对应的动作相关词与预设的关系词库中的每一个关系词进行匹配,包括:
将动作相关词转换为对应的动作相关词向量;
将预设的关系词库中的各预设的关系词转换为对应的预设的关系词向量;
分别计算动作相关词向量和各预设的关系词向量之间的相似度,具体地,该相似度可以是余弦相似度。将最大相似度对应的预设的关系词向量对应的预设关系词(例如,根据)确定为待提取关系文本相对于目标文本的关系,例如:根据关系。也就是说,待提取关系文本是根据目标文本的关系。
本实施例中,在调用语义模型之前,方法还包括:
获取初始神经网络模型。
获取训练样本集,训练样本集包括各种文本以及标注的各种文本对应的关系词。示例的,各种文本可以包括(1)训练语料:根据省政府制版的《目标政策》,我们废止了《其他政策》。标注的各种文本对应的关系词可以是对应的预测标签:根据。各种文本可以包括(2)训练语料:根据省政府制版的《其它政策》,我们废止了《目标标策》。标注的各种文本对应的关系词可以是对应的预测标签:废止。训练样本集可以包括多条训练语料和对应的预测标签,本申请对具体条数不做限定。
将各种文本作为初始神经网络模型的输入,将标注的各种文本对应的关系词作为期望输出,对初始神经网络模型进行训练,进而得到中间神经网络模型。
在调用语义模型之前,方法还包括:
获取测试样本集,测试样本集包括文本集合以及基于规则的模型对文本集合中的各文本进行分类的分类标注结果集合;
将文本集合输入至中间神经网络模型,输出对应的分类结果集合;
对于分类结果集合中的每一个分类结果,将该分类结果与对应的文本所对应的分类标注结果集合中的分类标注结果进行对比,响应于确定分类结果与分类标注结果不一致,纠正分类结果,进而基于纠正的分类结果更新训练样本集,再次对中间神经网络模型进行训练;
响应于确定分类结果集合中的各分类结果均与对应的文本所对应的分类标注结果集合中的分类标注结果一致,生成语义模型。
本实施例中,执行主体可以使用基于主动学习的BERT模型来进行文本处理。
示例的,对于文本分类任务,执行主体可以使用预训练的语义模型BERT来搭建语义模型,同时为了解决数据标注的问题,可以使用基于规则的模型(例如句法依存模型)来协助“标注数据”,即基于主动学习来训练模型。
使用基于规则的模型对所有掩码后的目标文本进行推理,可以得到很多标注数据,标注准确率约为60%。执行主体可以将这一批标注数据集记为A。执行主体可以使用主动学习的方法,引进预训练语言模型BERT自带的语义先验信息,进行深度学习。
首先从上一步推理完成的标注数据集A中,对于每一类关系进行审核。为了保证标准样本的均衡性,执行主体可以对于每一类关系都标注10个样本。为了加快标注方式,执行主体可以选择使用python的input()进行快速标注:当数据集A中的一条样本正确时,按回车放入正确池中;否则按正确的标注label进行标注,输入0-6。其中,0-6分别表示:根据、废止、修订、提及、复函、贯彻落实、转发,这7种关系,数字和关系一一对应即可。伪代码如下:
while not 7类关系正确样本均大于10:
print(句法依存的标注的一条样本)
input("标注是否正确?若正确按回车,否则请输入正确的标注序号(0-6)")
if input==”:
推入正确标注结果
else:
推入更新过的标注结果
更新此类关系正确样本计数
标注完成一轮后,执行主体可以将正确的样本池记作T。执行主体可以使用BERT模型对这几十条样本,分为训练集、测试集进行训练(第一轮数据共计70条,一共49条训练集,21条验证集)。
由于BERT复杂的网络结构,对于这几十条样本T可以很快的拟合到一个较好的验证集表现。执行主体可以使用这个模型对数据集A中所有的目标文本进行推理,然后开始审核两个模型(句法依存模型和BERT模型)标注不同的部分,记作B_1。对于B_1中的样本,重复快速标记的流程,对于每一类再进行标记,然后更新样本池T,并重新进行BERT模型训练。当标注样本到1900个左右时,两个模型(句法依存模型和BERT模型)推理结果不一致时,已经全部是BERT模型正确,停止标注,并使用这1900个样本完整训练BERT模型,以得到语义模型以供调用。
步骤S104,响应于确定动作相关词与预设的关系词库中的一个关系词匹配,将一个关系词确定为目标文本相对于待提取关系文本的文本关系,以基于文本关系对待提取关系文本进行处理。
本实施例中,响应于确定动作相关词与预设的关系词库中的一个关系词匹配,将一个关系词确定为目标文本相对于待提取关系文本的文本关系,包括:
将最大相似度对应的预设的关系词向量对应的预设关系词确定为目标文本相对于待提取关系文本的文本关系。
本实施例通过获取待提取关系文本,确定待提取关系文本中的目标文本;从待提取关系文本中,确定目标文本对应的动作相关词;调用语义模型,进而基于预设的关系词库,以将动作相关词与预设的关系词库中的每一个关系词进行匹配;响应于确定动作相关词与预设的关系词库中的一个关系词匹配,将一个关系词确定为目标文本相对于待提取关系文本的文本关系,从而实现可以快速、准确地确定出目标文本相对于待提取关系文本的文本关系,以便于基于文本关系对待提取关系文本进行更快速、便捷的处理。
图2是根据本申请第二实施例的文本处理方法的主要流程示意图,如图2所示,文本处理方法包括:
步骤S201,获取待提取关系文本,确定待提取关系文本中的目标文本。
步骤S201的原理与步骤S101的原理类似,此处不再赘述。
具体地,步骤S201还可以通过步骤S2011来实现:
步骤S2011,确定待提取关系文本中的目标区域,用目标文本替换目标区域中的文本。
为了准确判断句子对于句子中每个政策的关系,执行主体可以对目标区域中的文本进行掩码操作。即将目标区域中的所有文字均用“目标文本”四个字来进行替换,以缩短句子长度。首先,把具体的公文替换为“目标文本”是为了减短句子长度;另外一句话中可能会包含多个目标区域,执行主体可以一一找到它们和发文之间的关系。例如,一句话中包含A,B两个目标区域,当研究A目标区域中的文本和发文之间的关系时,A目标区域中的文本作为“目标文本”,B目标区域中的文本作为其他文本;同理,研究B目标区域中的文本和发文之间的关系时,将B目标区域中的文本作为“目标文本”,A目标区域中的文本作为其他文本。
本实施例通过用目标文本四个字替换目标区域中的文本,可以缩短句子长度,使得待提取关系文本中各目标区域中的文本之间的关系更明确,以提升文本处理速度。
步骤S202,从待提取关系文本中,确定目标文本对应的动作相关词。
步骤S202的原理与步骤S102的原理类似,此处不再赘述。
具体地,步骤S202还可以通过步骤S2021来实现:
步骤S2021,执行主体可以通过语义依存分析,从待提取关系文本中,分别确定目标文本之前和目标文本之后的动词、副词和状词,进而将动词、副词和状词确定为目标文本对应的动作相关词。
步骤S203,调用语义模型,进而基于预设的关系词库,以将动作相关词与预设的关系词库中的每一个关系词进行匹配。
步骤S204,响应于确定动作相关词与预设的关系词库中的一个关系词匹配,将一个关系词确定为目标文本相对于待提取关系文本的文本关系,以基于文本关系对待提取关系文本进行处理。
步骤S203~步骤S204的原理与步骤S103~步骤S104的原理类似,此处不再赘述。
图3是根据本申请第三实施例的文本处理方法的应用场景示意图。本申请的文本处理方法,可以应用于从一篇政务公文中抽取出此公文中出现的其它公文,以及该篇公文与抽取出的公文的关系的场景。例如,该政务公文可以是一篇待提取关系的文本,如图3所示,服务器303获取待提取关系文本301,确定待提取关系文本301中的目标文本302。服务器303从待提取关系文本301中,确定目标文本302对应的动作相关词304。服务器303调用语义模型305,进而基于预设的关系词库306,以将动作相关词304与预设的关系词库306中的每一个关系词进行匹配。服务器303响应于确定动作相关词304与预设的关系词库306中的一个关系词307匹配,将一个关系词307确定为目标文本302相对于待提取关系文本301的文本关系308,以使用户基于文本关系308对待提取关系文本301进行处理。
本申请实施例可以实现将公文的关系抽取任务转化成文本分类任务,并使用分类模型进行训练。区别于传统的关系抽取,本申请实施例中可以将整篇公文虚拟为一个实体,判断该实体与公文中出现的政策实体之间的关系,转化成一个分类问题,输入为一条包含政策的句子,输出为这条句子对于该条句子中的各目标政策是怎么样一种语义。使用了基于主动学习的方法,在小批量数据上,结合人工标注的方法,训练拟合BERT模型。使用基于规则的模型进行辅助,由专家来审核不确定的标注数据,加快了数据标注效率,节省成本。基于句法依存规则生成标注数据,并结合人工标注,通过基于主动学习的方式,来训练BERT模型,节省了人力成本,并且能够在较少的标注数据下,达到比较高的准确率。
示例的,执行主体可以将抽取出来的包含政策实体的关系进行汇总,定义政策关系为:
根据
根据省政府法制办《目标政策》要求,省水利厅对涉及的规范性文件进行了清理,决定对《a省水利工程建设管理办法》《a省水利工程建设项目招标投标行政监督管理办法》《a省生产建设项目水土保持方案编报评审管理办法》3件规范性文件部分条款进行修改并重新公布。
为了规范和加强b市市级行政事业单位国有资产配置管理,推进资产管理与预算管理相结合,根据财政部《目标政策》、《其它政策》,结合c市工作实际,d局对原《b市市级行政事业单位固定资产配置管理暂行办法》进行了修订。
废止
原中国保险监督管理委员会2010年5月12日发布的《目标政策》、2010年6月2日发布的《其它政策》同时废止。
第二十四条本办法自2020年1月1日起施行,《目标政策》、《其它政策》同时废止。
修订
为做好老旧机动车淘汰更新补助资金发放工作,根据《其它政策》要求,现对《目标政策》修订如下:
d局对《目标政策》进行了修订。
十二、本公告自发布之日起施行,《目标政策》第三条第六项规定同时废止。
《目标政策》中附件1《生猪产地检疫规程》,《其它政策》中附件1《生猪屠宰检疫规程》同时废止。
提及
2017年4月,e部、f部联合印发《目标政策》,废止了《暂行办法》。四、清理整顿工作的监督检查近年来,g院和有关部门制定了一系列有关行政事业单位银行开户的法规和纪律规定,如《其它政策》、《其它政策》、《目标政策》和《其它政策》等,对违反银行账户管理规定的行为及其处罚作了明确具体的规定。
复函
各省、自治区、直辖市人民政府,g院各部委、各直属机构:h委《目标政策》收悉。
发展改革委、财政部:《目标政策》收悉。
a省人民政府:a省《其它政策》、《目标政策》收悉
贯彻落实
为深入贯彻落实《目标政策》,进一步做好新形势下为农民工服务工作,切实解决农民工面临的突出问题,结合本市实际,提出如下实施意见。
为贯彻i局《目标政策》精神,做好“守合同重信用”企业推荐工作,现就有关要求通知如下:
转发
为促进文化事业发展,g部、k局印发了《目标政策》,现转发,请遵照执行。
2014年12月,m部印发了《目标政策》,现转发,请遵照执行,并就本市相关工作通知如下。
图4是根据本申请实施例的文本处理装置的主要模块的示意图。
如图4所示,文本处理装置包括获取单元401、动作相关词确定单元402、匹配单元403和文本关系输出单元404。
获取单元401,被配置成获取待提取关系文本,确定待提取关系文本中的目标文本。
动作相关词确定单元402,被配置成从待提取关系文本中,确定目标文本对应的动作相关词。
匹配单元403,被配置成调用语义模型,进而基于预设的关系词库,以将动作相关词与预设的关系词库中的每一个关系词进行匹配;
文本关系输出单元404,被配置成响应于确定动作相关词与预设的关系词库中的一个关系词匹配,将一个关系词确定为目标文本相对于待提取关系文本的文本关系,以基于文本关系对待提取关系文本进行处理。
在一些实施例中,获取单元401进一步被配置成:确定待提取关系文本中的目标区域,用目标文本替换目标区域中的文本。
在一些实施例中,动作相关词确定单元402进一步被配置成:从待提取关系文本中,分别确定目标文本之前和目标文本之后的动词、副词和状词,进而将动词、副词和状词确定为目标文本对应的动作相关词。
在一些实施例中,匹配单元403进一步被配置成:将动作相关词转换为对应的动作相关词向量;将预设的关系词库中的各预设的关系词转换为对应的预设的关系词向量;分别计算动作相关词向量和各预设的关系词向量之间的相似度。
在一些实施例中,文本关系输出单元404进一步被配置成:将最大相似度对应的预设的关系词向量对应的预设关系词确定为目标文本相对于待提取关系文本的文本关系。
在一些实施例中,文本处理装置还包括训练单元,被配置成:获取初始神经网络模型;获取训练样本集,训练样本集包括各种文本以及标注的各种文本对应的关系词;将各种文本作为初始神经网络模型的输入,将标注的各种文本对应的关系词作为期望输出,对初始神经网络模型进行训练,进而得到中间神经网络模型。
在一些实施例中,训练单元进一步被配置成:获取测试样本集,测试样本集包括文本集合以及基于规则的模型对文本集合中的各文本进行分类的分类标注结果集合;将文本集合输入至中间神经网络模型,输出对应的分类结果集合;对于分类结果集合中的每一个分类结果,将该分类结果与对应的文本所对应的分类标注结果集合中的分类标注结果进行对比,响应于确定分类结果与分类标注结果不一致,纠正分类结果,进而基于纠正的分类结果更新训练样本集,再次对中间神经网络模型进行训练;响应于确定分类结果集合中的各分类结果均与对应的文本所对应的分类标注结果集合中的分类标注结果一致,生成语义模型。
需要说明的是,在本申请文本处理方法和文本处理装置在具体实施内容上具有相应关系,故重复内容不再说明。
图5示出了可以应用本申请实施例的文本处理方法或文本处理装置的示例性系统架构500。
如图5所示,系统架构500可以包括终端设备501、502、503,网络504和服务器505。网络504用以在终端设备501、502、503和服务器505之间提供通信链路的介质。网络504可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备501、502、503通过网络504与服务器505交互,以接收或发送消息等。终端设备501、502、503上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备501、502、503可以是具有文本处理屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器505可以是提供各种服务的服务器,例如对用户利用终端设备501、502、503所提交的待提取关系文本提供支持的后台管理服务器(仅为示例)。后台管理服务器可以获取待提取关系文本,确定待提取关系文本中的目标文本;从待提取关系文本中,确定目标文本对应的动作相关词;调用语义模型,进而基于预设的关系词库,以将动作相关词与预设的关系词库中的每一个关系词进行匹配;响应于确定动作相关词与预设的关系词库中的一个关系词匹配,将一个关系词确定为目标文本相对于待提取关系文本的文本关系,以基于文本关系对待提取关系文本进行处理。从而实现可以快速、准确地确定出目标文本相对于待提取关系文本的文本关系,以便于基于文本关系对待提取关系文本进行更快速、便捷的处理。
需要说明的是,本申请实施例所提供的文本处理方法一般由服务器505执行,相应地,文本处理装置一般设置于服务器505中。
应该理解,图5中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图6,其示出了适于用来实现本申请实施例的终端设备的计算机系统600的结构示意图。图6示出的终端设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图6所示,计算机系统600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM603中,还存储有计算机系统600操作所需的各种程序和数据。CPU601、ROM602以及RAM603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶征信授权查询处理器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本申请公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时,执行本申请的系统中限定的上述功能。
需要说明的是,本申请所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括获取单元、动作相关词确定单元、匹配单元和文本关系输出单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备获取待提取关系文本,确定待提取关系文本中的目标文本;从待提取关系文本中,确定目标文本对应的动作相关词;调用语义模型,进而基于预设的关系词库,以将动作相关词与预设的关系词库中的每一个关系词进行匹配;响应于确定动作相关词与预设的关系词库中的一个关系词匹配,将一个关系词确定为目标文本相对于待提取关系文本的文本关系,以基于文本关系对待提取关系文本进行处理。
根据本申请实施例的技术方案,实现可以快速、准确地确定出目标文本相对于待提取关系文本的文本关系,以便于基于文本关系对待提取关系文本进行更快速、便捷的处理。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (10)
1.一种文本处理方法,其特征在于,包括:
获取待提取关系文本,确定所述待提取关系文本中的目标文本;
从所述待提取关系文本中,确定所述目标文本对应的动作相关词;
调用语义模型,进而基于预设的关系词库,以将所述动作相关词与所述预设的关系词库中的每一个关系词进行匹配;
响应于确定所述动作相关词与所述预设的关系词库中的一个关系词匹配,将所述一个关系词确定为所述目标文本相对于所述待提取关系文本的文本关系,以基于所述文本关系对所述待提取关系文本进行处理。
2.根据权利要求1所述的方法,其特征在于,所述确定述待提取关系文本中的目标文本,包括:
确定所述待提取关系文本中的目标区域,用目标文本替换所述目标区域中的文本。
3.根据权利要求1所述的方法,其特征在于,所述确定所述目标文本对应的动作相关词,包括:
从所述待提取关系文本中,分别确定所述目标文本之前和所述目标文本之后的动词、副词和状词,进而将所述动词、副词和状词确定为所述目标文本对应的动作相关词。
4.根据权利要求1所述的方法,其特征在于,所述将所述动作相关词与所述预设的关系词库中的每一个关系词进行匹配,包括:
将所述动作相关词转换为对应的动作相关词向量;
将所述预设的关系词库中的各预设的关系词转换为对应的预设的关系词向量;
分别计算所述动作相关词向量和各所述预设的关系词向量之间的相似度。
5.根据权利要求4所述的方法,其特征在于,所述响应于确定所述动作相关词与所述预设的关系词库中的一个关系词匹配,将所述一个关系词确定为所述目标文本相对于所述待提取关系文本的文本关系,包括:
将最大相似度对应的预设的关系词向量对应的预设关系词确定为所述目标文本相对于所述待提取关系文本的文本关系。
6.根据权利要求1所述的方法,其特征在于,在所述调用语义模型之前,所述方法还包括:
获取初始神经网络模型;
获取训练样本集,所述训练样本集包括各种文本以及标注的所述各种文本对应的关系词;
将所述各种文本作为所述初始神经网络模型的输入,将标注的所述各种文本对应的关系词作为期望输出,对所述初始神经网络模型进行训练,进而得到中间神经网络模型。
7.根据权利要求6所述的方法,其特征在于,在所述调用语义模型之前,所述方法还包括:
获取测试样本集,所述测试样本集包括文本集合以及基于规则的模型对所述文本集合中的各文本进行分类的分类标注结果集合;
将所述文本集合输入至所述中间神经网络模型,输出对应的分类结果集合;
对于所述分类结果集合中的每一个分类结果,将该分类结果与对应的文本所对应的分类标注结果集合中的分类标注结果进行对比,响应于确定所述分类结果与所述分类标注结果不一致,纠正所述分类结果,进而基于纠正的分类结果更新所述训练样本集,再次对所述中间神经网络模型进行训练;
响应于确定所述分类结果集合中的各分类结果均与对应的文本所对应的分类标注结果集合中的分类标注结果一致,生成所述语义模型。
8.一种文本处理装置,其特征在于,包括:
获取单元,被配置成获取待提取关系文本,确定所述待提取关系文本中的目标文本;
动作相关词确定单元,被配置成从所述待提取关系文本中,确定所述目标文本对应的动作相关词;
匹配单元,被配置成调用语义模型,进而基于预设的关系词库,以将所述动作相关词与所述预设的关系词库中的每一个关系词进行匹配;
文本关系输出单元,被配置成响应于确定所述动作相关词与所述预设的关系词库中的一个关系词匹配,将所述一个关系词确定为所述目标文本相对于所述待提取关系文本的文本关系,以基于所述文本关系对所述待提取关系文本进行处理。
9.一种文本处理电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110761342.5A CN113486146A (zh) | 2021-07-06 | 2021-07-06 | 一种文本处理方法、装置、电子设备及计算机可读介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110761342.5A CN113486146A (zh) | 2021-07-06 | 2021-07-06 | 一种文本处理方法、装置、电子设备及计算机可读介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113486146A true CN113486146A (zh) | 2021-10-08 |
Family
ID=77940449
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110761342.5A Pending CN113486146A (zh) | 2021-07-06 | 2021-07-06 | 一种文本处理方法、装置、电子设备及计算机可读介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113486146A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023169301A1 (zh) * | 2022-03-10 | 2023-09-14 | 北京有竹居网络技术有限公司 | 一种文本处理方法、装置及电子设备 |
-
2021
- 2021-07-06 CN CN202110761342.5A patent/CN113486146A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023169301A1 (zh) * | 2022-03-10 | 2023-09-14 | 北京有竹居网络技术有限公司 | 一种文本处理方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110737758B (zh) | 用于生成模型的方法和装置 | |
US20190122145A1 (en) | Method, apparatus and device for extracting information | |
Nguyen et al. | NEU-chatbot: Chatbot for admission of National Economics University | |
CN112184525B (zh) | 通过自然语义分析实现智能匹配推荐的系统及方法 | |
CN107861954B (zh) | 基于人工智能的信息输出方法和装置 | |
US20190171713A1 (en) | Semantic parsing method and apparatus | |
US20220300546A1 (en) | Event extraction method, device and storage medium | |
US11651015B2 (en) | Method and apparatus for presenting information | |
US11954173B2 (en) | Data processing method, electronic device and computer program product | |
CN113268560A (zh) | 用于文本匹配的方法和装置 | |
CN111143505A (zh) | 文档处理方法、装置、介质及电子设备 | |
CN112528654A (zh) | 自然语言处理方法、装置及电子设备 | |
Mutiara et al. | Improving the accuracy of text classification using stemming method, a case of non-formal Indonesian conversation | |
CN113724057A (zh) | 基于大数据的财政预算填报方法、系统、设备及介质 | |
CN113486146A (zh) | 一种文本处理方法、装置、电子设备及计算机可读介质 | |
Shelke et al. | A novel approach for named entity recognition on Hindi language using residual bilstm network | |
Yong et al. | Prompting large language models to generate code-mixed texts: The case of south east asian languages | |
CN111126073B (zh) | 语义检索方法和装置 | |
CN116048463A (zh) | 基于标签管理的需求项内容智能推荐方法及装置 | |
CN115620726A (zh) | 语音文本生成方法、语音文本生成模型的训练方法、装置 | |
CN115470790A (zh) | 一种识别文件中的命名实体的方法和装置 | |
CN114417974A (zh) | 模型训练方法、信息处理方法、装置、电子设备和介质 | |
Rehman et al. | Automatically solving two‐variable linear algebraic word problems using text mining | |
Mo et al. | Syllable-Based Neural Named Entity Recognition for Myanmar Language | |
CN114330345B (zh) | 命名实体识别方法、训练方法、装置、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |