CN110866107A - 素材语料的生成方法、装置、计算机设备和存储介质 - Google Patents

素材语料的生成方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN110866107A
CN110866107A CN201910969599.2A CN201910969599A CN110866107A CN 110866107 A CN110866107 A CN 110866107A CN 201910969599 A CN201910969599 A CN 201910969599A CN 110866107 A CN110866107 A CN 110866107A
Authority
CN
China
Prior art keywords
corpus
sentences
article
sentence
classification model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910969599.2A
Other languages
English (en)
Inventor
王旭东
沈强
王小统
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Dasou Vehicle Software Technology Co Ltd
Original Assignee
Zhejiang Dasou Vehicle Software Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Dasou Vehicle Software Technology Co Ltd filed Critical Zhejiang Dasou Vehicle Software Technology Co Ltd
Priority to CN201910969599.2A priority Critical patent/CN110866107A/zh
Publication of CN110866107A publication Critical patent/CN110866107A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种素材语料的生成方法、装置、计算机设备和存储介质。所述方法包括:获取目标类型的文章数据;将所述文章数据按句筛选、切分和清洗后得到多个素材语句;通过分类模型识别所述素材语句,输出与所述素材语句对应的类别标签。采用本方法能够解决现有技术中不能自动产出素材语句的类别标签的技术问题,可以通过训练分类模型给语料自动标记类别标签,形成一条完整语料自动存数据库中。可以自动产出带类别标签的素材语句,自动收集用于直接撰写伪原创文章的素材语句,减少了人工成本,提高了产出效率。

Description

素材语料的生成方法、装置、计算机设备和存储介质
技术领域
本申请涉及人工智能技术领域,特别是涉及一种素材语料的生成方法、装置、计算机设备和存储介质。
背景技术
编写原创文章的过程非常繁琐,并且经常要求作者查询大量信息以进行文章内容的检索和验证。在完成一篇原创文章时,至少会需要长达几个小时或者几天的时间才能完成。对于汽车领域文章编辑的要求,更需要有专业的汽车背景,普通编辑写出一篇汽车内容需要更多的时间。所以提出了一种伪原创的撰写方式,通过搜罗和组合现有文章的语料,进而撰写组合成一个新的文章。
文章的伪原创工具需要海量的素材语料支持,用以撰写文章。相关技术在获取语料时,首先需要对素材语料进行分类,才能基于海量的语料撰写成合乎逻辑,通顺的文章,由于原始文章的复杂性,通常一篇原始文章对应多个类别标签,文章有的段落甚至会同时对应多个类别标签,导致现有技术中素材语料都是人工打标签,非常费时费力,自动化程度低。
针对相关技术中存在的上述问题,目前尚未发现有效的解决方案。
发明内容
基于此,有必要针对上述技术问题,提供一种能够解决现有技术中不能自动产出素材语句的类别标签的技术问题的素材语料的生成方法、装置、计算机设备和存储介质。
一种素材语料的生成方法,所述方法包括:
获取目标类型的文章数据;
将所述文章数据按句筛选、切分和清洗后得到多个素材语句;
通过分类模型识别所述素材语句,输出与所述素材语句对应的类别标签。
在其中一个实施例中,将所述文章数据按句筛选、切分和清洗后得到多个素材语句包括:按照预设条件过滤所述文章数据;将过滤后的文章数据以句子为最小单位进行切分,得到若干个文章语句;对所述若干个文章语句按照关键字和/或字符数进行清洗,得到符合条件的素材语句。
在其中一个实施例中,将过滤后的文章数据以句子为最小单位进行切分包括以下至少之一:采用切分规则切分过滤后的文章数据,其中,所述切分规则包括以下之一:通过句字符组合的正则表达式、分号符;采用句符号切分过滤后的文章数据。
在其中一个实施例中,在输出与所述素材语句对应的类别标签之后,所述方法还包括:将所述素材语句对应的文章标识,所述类别标签,以及所述素材语句组合成语料字段后存储在语料数据库,其中,所述语料数据库用于响应基于所述类别标签的查询请求并输出所述素材语句。
在其中一个实施例中,在输出与所述素材语句对应的类别标签之后,所述方法还包括:判断当前素材语句与相邻素材语句的类别标签是否一致;在一致时,将所述当前素材语句和所述相邻素材语句合并为一条素材语句。
在其中一个实施例中,在通过分类模型识别所述素材语句之前,所述方法还包括:采集原始数据;根据所述原始数据生成多个训练语料,其中,所述训练语料包括:文本语料、分类标签;基于所述多个训练语料构建所述分类模型。
在其中一个实施例中,基于所述多个训练语料构建所述分类模型包括:根据语料字典基于字或词将所述多个训练语料映射成多个二维张量;将所述多个二维向量输入神经网络模型,并迭代计算输出的类别向量和真实类别向量的损失量,根据反向传播算法更新模型参数,直到所述神经网络模型达到迭代次数或者损失函数小于设定值。
在其中一个实施例中,根据语料字典基于字或词将所述多个训练语料映射成多个二维张量包括:按照语料字典将所述多个训练语料分别映射成一组字典序号,其中,所述语料字典中的每一个字典序号对应一个字或字符;将每组字典序号转化为长为字典字符数宽为向量维度的二维张量。
在其中一个实施例中,通过分类模型识别所述素材语句包括以下之一:通过基于卷积神经网络的分类模型识别所述素材语句;通过基于循环神经网络RNN的分类模型识别所述素材语句;通过基于长短期记忆循环神经网络LSTM的分类模型识别所述素材语句;通过基于支持向量机SVM的分类模型识别所述素材语句。
一种素材语料的生成装置,所述装置包括:
获取模块,用于获取目标类型的文章数据;
处理模块,用于将所述文章数据按句筛选、切分和清洗后得到多个素材语句;
输出模块,用于通过分类模型识别所述素材语句,输出与所述素材语句对应的类别标签。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取目标类型的文章数据;
将所述文章数据按句筛选、切分和清洗后得到多个素材语句;
通过分类模型识别所述素材语句,输出与所述素材语句对应的类别标签。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取目标类型的文章数据;
将所述文章数据按句筛选、切分和清洗后得到多个素材语句;
通过分类模型识别所述素材语句,输出与所述素材语句对应的类别标签。
上述素材语料的生成方法、装置、计算机设备和存储介质,获取目标类型的文章数据,然后将所述文章数据按句筛选、切分和清洗后得到多个素材语句,最后通过分类模型识别所述素材语句,输出与所述素材语句对应的类别标签,通过将文章数据按句预处理并采用神经网络模型识别,避免了一个素材对应多个类别标签的问题,解决了现有技术中不能自动产出素材语句的类别标签的技术问题,可以通过训练分类模型给语料自动标记类别标签,形成一条完整语料自动存数据库中。可以自动产出带类别标签的素材语句,自动收集用于直接撰写伪原创文章的素材语句,减少了人工成本,提高了产出效率。
附图说明
图1为一个实施例中素材语料的生成方法的应用环境图;
图2为一个实施例中素材语料的生成方法的流程示意图;
图3是本发明实施例的完整方案的流程图;
图4为一个实施例中素材语料的生成装置的结构框图;
图5为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的素材语料的生成方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信,(终端102通过网络从网站服务器中收集文章数据,将素材语句以及对应的类别标签输出至服务器上的语料数据库等)。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种素材语料的生成方法,以该方法应用于图1中的终端为例进行说明,包括以下步骤:
步骤202,获取目标类型的文章数据。
其中,本实施例的中的文章数据为文章内容以及与文章相关的数据,包括:文章链接、文章所处的频道板块及其子板块、文章发布时间、原始文章的标签、文章标题、作者、文章内容等。
具体地,可以通过爬虫从各个数据源网上爬取文章数据。
步骤204,将所述文章数据按句筛选、切分和清洗后得到多个素材语句。
其中,本实施例的中的素材语句为单个句子,可以直接用于构建文章。
步骤206,通过分类模型识别所述素材语句,输出与所述素材语句对应的类别标签。
其中,本实施例的类别标签用于标记素材语句所属内容的唯一分类。
上述素材语料的生成方法中,获取目标类型的文章数据,然后将所述文章数据按句筛选、切分和清洗后得到多个素材语句,最后通过分类模型识别所述素材语句,输出与所述素材语句对应的类别标签,通过将文章数据按句预处理并采用神经网络模型识别,避免了一个素材对应多个类别标签的问题,解决了现有技术中不能自动产出素材语句的类别标签的技术问题,可以通过训练分类模型给语料自动标记类别标签,形成一条完整语料自动存数据库中。可以自动产出带类别标签的素材语句,自动收集用于直接撰写伪原创文章的素材语句,减少了人工成本,提高了产出效率。
在本实施例的一个实施方式中,将所述文章数据按句筛选、切分和清洗后得到多个素材语句包括:
S11,按照预设条件过滤所述文章数据;
由于本实施例获取的原始数据为全量爬取,可能存在一些不适合构建语料的文章数据(比如说,汽车类型的文章语料中不需要“概念车”的文章),这些文章数据会生成无效语料,影响文章的撰写效果。所以,本实施例对获取到的原始文章数据进行过滤,留下可以构建语料的文章数据。同时,原始文章数据是不能直接用来构建语料的,需要进行切分清洗。经过以上预处理后,会得到每篇网络文章的未标记句子素材集合。
在过滤文章数据时,可以按照多个维度进行过滤。
发布时间过滤:例如,限定2016年1月1日以前的筛掉;
具体类型过滤:例如,车型对比类文章,“多车”的筛掉,只选“单车”;例如,服装类型的,“秋冬”的筛掉,“春夏”的保留。
板块过滤:例如“互动话题”板块的筛掉;
标题过滤:例如标题中含有“谍照、申报图、测评组周报”的筛掉;
文章标签过滤:例如车型标签带“概念车”不要;
在一个示例中:
发布时间2015-1-1之前的文章不要
文章类型为='单车'时,车型标签带“概念车”不要
文章类型为='单车'时,标题名称带“谍照”、“申报图”、“评测组周报”不要。
S12,将过滤后的文章数据以句子为最小单位进行切分,得到若干个文章语句;
如果以段落等其他单位切分,可能会出现一个语料对应多种类型的情况,从而导致语料库类型关系复杂化,影响撰写效果,撰写的文章逻辑混乱,可读性不高。基于此,本方案语料基于句子为单位处理保存,因此需要对过滤后的文章数据切分成句子段。本实施例将语料以句子为单位保存,保证了语料类型的唯一性,撰写出的文章可读性较好。
切分规则:
切分粒度:句子
切分标准:以如下符号对文章进行句子切分,
全角符号:句号(。)、问号(?)、感叹号(!)、分号(;)
半角符号:问号(?)、感叹号(!)、分号(;)
通用符号:unix换行符(\n)
在本实施例在实现时,可以利用正则表达式编写切分规则实现。或者用符号判别法进行判断切分。可选的,将过滤后的文章数据以句子为最小单位进行切分可以但不限于为:采用切分规则切分过滤后的文章数据,其中,所述切分规则为通过句字符组合的正则表达式;采用句符号切分过滤后的文章数据。
本实施例除了基于句进行切分外,也可以使用基于换行符的段落的切分方案。
S13,对所述若干个文章语句按照关键字和/或字符数进行清洗,得到符合条件的素材语句。
由于语料中包含诸如作者名等不可用噪声文本,可以将噪声句子和词汇滤除掉,保证文本的可用性。
清洗规则包括:剔除作者/编辑、网站标签、字符数小于预定数的句子。
在一个示例中:
·舍弃内容:“文/汽车之家耿源”;
·舍弃内容:“了解更多资讯请下载易车APP”。
本实施例可以利用正则表达式编写清洗规则实现。或者采用基于符号模式匹配的方法进行剔除,将匹配到的语料进行剔除。
数据预处理后会得到每篇网络文章的未标记句子素材集合。
在本实施例的一个实施方式中,在输出与所述素材语句对应的类别标签之后,还包括:将所述素材语句对应的文章标识,所述类别标签,以及所述素材语句组合成语料字段后存储在语料数据库,其中,所述语料数据库用于响应基于所述类别标签的查询请求并输出所述素材语句。
在一个示例中,可以将同一篇文章前后两句标签一致的语料连接起来,形成一条语料存入语料数据库,保证文本语料的连贯性。
本实施例对原始文章进行了清洗后,获得了可用来构建文章的语料,但是这些语料繁杂,类型多样,如果没有对语料标记明确的类型标签,后续自动撰写过程中将无法使用这些语料或者说这样写出的文章逻辑混乱、可读性差。本实施例对清洗后的语料做分类并且标记类别标签。由于标签类型种类有限,这个标记类型标签问题在本方法中被转化为一个分类问题,而分类问题的第一步,就是定义分类标签。
以汽车导购类文章为例:
所有的语料段可以分为八个大类,21个子类:
定义如表1所示:
表1
Figure BDA0002231625760000071
Figure BDA0002231625760000081
输出结果示例如表2所示:
表2
Figure BDA0002231625760000082
本实施例在为了保证分类效果的准确度和稳定性,分类方法采用有监督学习,即模型训练数据为带有标签的数据,在使用样本进行模型训练之前,先采用人工方法标记数据获得训练数据,用作模型训练。在通过分类模型识别所述素材语句之前,还包括:
S21,采集原始数据;
S22,根据所述原始数据生成多个训练语料,其中,所述训练语料包括:文本语料、分类标签;
本实施例在训练阶段生成训练语料的步骤与上述生成素材语句的方法类似,区别在与训练语料的类别标签是已知的。
S23,基于所述多个训练语料构建所述分类模型。
在本实施例的一个实施方式中,基于所述多个训练语料构建所述分类模型包括:根据语料字典基于字或词将所述多个训练语料映射成多个二维张量;将所述多个二维向量输入神经网络模型,并迭代计算输出的类别向量和真实类别向量的损失量,根据反向传播算法更新模型参数,直到所述神经网络模型达到迭代次数或者损失函数小于设定值。
本实施例的分类模型由神经网络构建,在一个示例中,首先要定义神经网络层的激活函数(例如Relu激活函数),模型分为卷积神经网络(Convolutional NeuralNetworks,CNN)、池化层,抽取文本特征,在经过全连接层、dropout层,通过归一化指数函数(Softmax函数),得到一个概率分布向量,取概率最大的类为1,其余的为0,输出为一个独热码向量,再根据输出得到对应的类别标签。
本实施例为了实现模型的自动训练,在一个示例中,分类模型采用反向传播算法,定义损失函数为交叉熵损失函数,将模型输出类别向量和真实类别向量计算损失(Loss),对神经元参数计算梯度,定义网络学习率,实现神经元参数更新。设定训练迭代次数,和损失函数最小值。当模型达到迭代次数或者损失函数小于设定值时,模型结束训练,并保存模型。
本实施例的文本分类模型和识别模型除了采用本实施例的卷积神经网络作为特征提取器,还可以使用循环神经网络(RNN)、长短期记忆循环神经网络(LSTM)、支持向量机(SVM)等作为特征提取方法。由于卷积神经网络运行速度快,效果突出,故本方法使用卷积神经网络作为特征提取器。
可选的,根据语料字典基于字或词将所述多个训练语料映射成多个二维张量包括:按照语料字典将所述多个训练语料分别映射成一组字典序号,其中,所述语料字典中的每一个字典序号对应一个字或字符;将每组字典序号转化为长为字典字符数宽为向量维度的二维张量。文本向量化本方法采用的是基于字的向量编码方案,也可以采用基于词的编码方案,即对语料先分词,训练词向量,对词进行编码。
文本向量化除了采用的是基于字的向量编码方案,也可以采用基于词的编码方案,即对语料先分词,训练词向量,对词进行编码。
可选的,在输出与所述素材语句对应的类别标签之后,还包括:判断当前素材语句与相邻素材语句的类别标签是否一致;在一致时,将所述当前素材语句和所述相邻素材语句合并为一条素材语句。可以将同一篇文章前后两句标签一致的语料连接起来,形成一条语料存入数据库,保证文本语料的连贯性。
图3是本发明实施例的完整方案的流程图,包括分类模型的训练流程和后续文章数据的标签输出流程,首先爬取指定类型的文章数据,通过对获取到的文章数据进行预处理,形成句子素材;进一步地将形成的句子素材作为训练语料,基于分类模型,实现文章的自动撰写。流程包括:
S100、获取原始数据:通过爬虫爬取指定类型的文章数据。
其中,文章数据包括:文章链接、文章所处的频道板块及其子板块、文章发布时间、原始文章的标签、文章标题、作者、文章内容。
指定类型例如服装类型、汽车类型等等。以汽车类型为例,可以去汽车之家、易车、车主之家等汽车资讯网站上爬取相关文章数据,形成下表记录的数据:
Button为板块、type为汽车类型、title为文章标题、content内容等。
S200、对获取到的文章数据预处理;
步骤S100爬取的原始数据为全量爬取,可能存在一些不适合构建语料的文章数据(比如说,汽车类型的文章语料中不需要“概念车”的文章),这些文章数据会生成无效语料,影响文章的撰写效果。所以,本实施例对获取到的原始文章数据进行过滤,留下可以构建语料的文章数据。同时,原始文章数据是不能直接用来构建语料的,需要进行切分清洗。经过以上预处理后,会得到每篇网络文章的未标记句子素材集合。
S210、过滤文章数据;
发布时间过滤:例如,限定2016年1月1日以前的筛掉;
具体类型过滤:例如,车型对比类文章,“多车”的筛掉,只选“单车”;例如,服装类型的,“秋冬”的筛掉,“春夏”的保留。
板块过滤:例如“互动话题”板块的筛掉;
标题过滤:例如标题中含有“谍照、申报图、测评组周报”的筛掉;
文章标签过滤:例如车型标签带“概念车”不要;
例如:
发布时间2015-1-1之前的文章不要
文章类型为='单车'时,车型标签带“概念车”不要
文章类型为='单车'时,标题名称带“谍照”、“申报图”、“评测组周报”不要。
技术实现上,可以利用正则表达式编写筛选规则实现。或者是通过字段判别进行筛选。
S220、切分过滤后的文章数据;
如果以段落等其他单位切分,可能会出现一个语料对应多种类型的情况,从而导致语料库类型关系复杂化,影响撰写效果,撰写的文章逻辑混乱,可读性不高。基于此,本方案语料基于句子为单位处理保存,因此需要对过滤后的文章数据切分成句子段。以句子为单位保存的话,保证了语料类型的唯一性,撰写出的文章可读性较好。
切分规则:
切分粒度:句子
切分标准:以如下符号对文章进行句子切分,
全角符号:句号(。)、问号(?)、感叹号(!)、分号(;)
半角符号:问号(?)、感叹号(!)、分号(;)
通用符号:unix换行符(\n)
技术实现时,可以利用正则表达式编写切分规则实现。或者用符号判别法进行判断切分。
S230、清洗切分后的数据。
语料中包含诸如作者名等不可用噪声文本,需要将噪声句子和词汇滤除掉,保证文本的可用性。
清洗标准:剔除作者/编辑、网站标签、字符数小于10的句子
示例:
·舍弃内容:“文/汽车之家耿源”
·舍弃内容:“了解更多资讯请下载易车APP”。
技术实现时,可以利用正则表达式编写清洗规则实现。或者采用基于符号模式匹配的方法进行剔除,将匹配到的语料进行剔除。
数据产出:数据预处理后会得到每篇网络文章的未标记句子素材集合。
S300、生成分类标签以及训练语料
S310、定义语料标签
在具体实现的时候,S200对原始文章进行了清洗,获得了可用来构建文章的语料,但是这些语料繁杂,类型多样,如果没有对语料标记明确的类型标签,后续自动撰写过程中将无法使用这些语料或者说这样写出的文章逻辑混乱、可读性差。因此,需要对清洗后的语料做分类并且标记类别标签。由于标签类型种类有限,这个标记类型标签问题在本方法中被转化为一个分类问题,而分类问题的第一步,就是定义分类标签。
S320、获取训练语料
为了保证分类效果的准确度和稳定性,分类方法采用有监督学习,即模型训练数据为带有标签的数据,这就需要在模型训练之前,先采用人工方法标记数据获得训练数据,用作模型训练。
S400、基于训练语料,构建分类模型。
S410、文本数据向量化
文本数据无法被计算机等数字逻辑运算器处理,并且由于中文表达千变万化,难以直接对语料编码,本方法采用的解决方案为:
S411、语料词典构建:取常用字、字符(标点符号)和未登录字符(PAD)构成一个字典,通过统计所有语料中字的出现频率,将字典中字和字符按照词频从高到低排列。
S412、文本语料和标签向量化:将文本语料中的每一个映射成字典中字所在的序号,由于序号是唯一的,不会产生歧义问题。另外,设置语料长度,将超过语料长度的部分截掉,不够语料长度的用未登录符(PAD)填充。定义向量维度,数值化的语料经过词嵌层,转化为长为字典字符数,宽为向量维度的二维张量。(字典字符个数,向量维度)
标签采用独热码编码,方便模型计算类的分布概率值
S420、模型构建
分类模型由神经网络构建,首先要定义神经网络层的激活函数(例如Relu激活函数),模型分为卷积神经网络(CNN)、池化层,抽取文本特征,在经过全连接层、dropout层,通过归一化指数函数(Softmax函数),得到一个概率分布向量,取概率最大的类为1,其余的为0,输出为一个独热码向量,再根据输出得到对应的类别标签。
S430、模型训练
为了实现模型的自动训练,分类模型采用反向传播算法,定义损失函数为交叉熵损失函数,将模型输出类别向量和真实类别向量计算损失(Loss),对神经元参数计算梯度,定义网络学习率,实现神经元参数更新。
设定训练迭代次数,和损失函数最小值。当模型达到迭代次数或者损失函数小于训练值时,模型结束训练,并保存模型。
S500、新语料自动标记及保存
S510、模型训练好之后,当新的未标记语料产生后,直接送入训练好的神经网络模型中,经过S420中以下步骤,输出一个语料所对应的类别标签。
S520、将文章ID,语料,类别标签三个字段形成一条记录,存入制定的语料数据库中,实现整个流程的自动化。
应该理解的是,虽然图2-3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-3中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图4所示,提供了一种素材语料的生成装置,包括:获取模块40、处理模块42和输出模块44,其中:
获取模块40,用于获取目标类型的文章数据;
处理模块42,用于将所述文章数据按句筛选、切分和清洗后得到多个素材语句;
输出模块44,用于通过分类模型识别所述素材语句,输出与所述素材语句对应的类别标签。
在其中一个实施例中,所述处理模块包括:过滤单元,用于按照预设条件过滤所述文章数据;切分单元,用于将过滤后的文章数据以句子为最小单位进行切分,得到若干个文章语句;清洗单元,用于对所述若干个文章语句按照关键字和/或字符数进行清洗,得到符合条件的素材语句。
在其中一个实施例中,所述切分单元包括以下至少之一:第一切分子单元,用于采用切分规则切分过滤后的文章数据,其中,所述切分规则为通过句字符组合的正则表达式;第二切分子单元,用于采用句符号切分过滤后的文章数据。
在其中一个实施例中,所述装置还包括:存储模块,用于在所述输出模块输出与所述素材语句对应的类别标签之后,将所述素材语句对应的文章标识,所述类别标签,以及所述素材语句组合成语料字段后存储在语料数据库,其中,所述语料数据库用于响应基于所述类别标签的查询请求并输出所述素材语句。
在其中一个实施例中,所述装置还包括:采集模块,用于在所述输出模块通过分类模型识别所述素材语句之前,采集原始数据;生成模块,用于根据所述原始数据生成多个训练语料,其中,所述训练语料包括:文本语料、分类标签;构建模块,用于基于所述多个训练语料构建所述分类模型。
在其中一个实施例中,所述构建模块包括:映射单元,用于根据语料字典基于字或词将所述多个训练语料映射成多个二维张量;训练单元,用于将所述多个二维向量输入神经网络模型,并迭代计算输出的类别向量和真实类别向量的损失量,根据反向传播算法更新模型参数,直到所述神经网络模型达到迭代次数或者损失函数小于设定值。
在其中一个实施例中,所述映射单元包括:映射子单元,用于按照语料字典将所述多个训练语料分别映射成一组字典序号,其中,所述语料字典中的每一个字典序号对应一个字或字符;转换子单元,用于将每组字典序号转化为长为字典字符数宽为向量维度的二维张量。
关于素材语料的生成装置的具体限定可以参见上文中对于素材语料的生成方法的限定,在此不再赘述。上述素材语料的生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种素材语料的生成方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取目标类型的文章数据;
将所述文章数据按句筛选、切分和清洗后得到多个素材语句;
通过分类模型识别所述素材语句,输出与所述素材语句对应的类别标签。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
按照预设条件过滤所述文章数据;将过滤后的文章数据以句子为最小单位进行切分,得到若干个文章语句;对所述若干个文章语句按照关键字和/或字符数进行清洗,得到符合条件的素材语句。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
采用切分规则切分过滤后的文章数据,其中,所述切分规则为通过句字符组合的正则表达式;采用句符号切分过滤后的文章数据。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
将所述素材语句对应的文章标识,所述类别标签,以及所述素材语句组合成语料字段后存储在语料数据库,其中,所述语料数据库用于响应基于所述类别标签的查询请求并输出所述素材语句。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
采集原始数据;根据所述原始数据生成多个训练语料,其中,所述训练语料包括:文本语料、分类标签;基于所述多个训练语料构建所述分类模型。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
根据语料字典基于字或词将所述多个训练语料映射成多个二维张量;将所述多个二维向量输入神经网络模型,并迭代计算输出的类别向量和真实类别向量的损失量,根据反向传播算法更新模型参数,直到所述神经网络模型达到迭代次数或者损失函数小于设定值。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
按照语料字典将所述多个训练语料分别映射成一组字典序号,其中,所述语料字典中的每一个字典序号对应一个字或字符;将每组字典序号转化为长为字典字符数宽为向量维度的二维张量。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取目标类型的文章数据;
将所述文章数据按句筛选、切分和清洗后得到多个素材语句;
通过分类模型识别所述素材语句,输出与所述素材语句对应的类别标签。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
按照预设条件过滤所述文章数据;将过滤后的文章数据以句子为最小单位进行切分,得到若干个文章语句;对所述若干个文章语句按照关键字和/或字符数进行清洗,得到符合条件的素材语句。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
采用切分规则切分过滤后的文章数据,其中,所述切分规则为通过句字符组合的正则表达式;采用句符号切分过滤后的文章数据。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
将所述素材语句对应的文章标识,所述类别标签,以及所述素材语句组合成语料字段后存储在语料数据库,其中,所述语料数据库用于响应基于所述类别标签的查询请求并输出所述素材语句。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
采集原始数据;根据所述原始数据生成多个训练语料,其中,所述训练语料包括:文本语料、分类标签;基于所述多个训练语料构建所述分类模型。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
根据语料字典基于字或词将所述多个训练语料映射成多个二维张量;将所述多个二维向量输入神经网络模型,并迭代计算输出的类别向量和真实类别向量的损失量,根据反向传播算法更新模型参数,直到所述神经网络模型达到迭代次数或者损失函数小于设定值。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
按照语料字典将所述多个训练语料分别映射成一组字典序号,其中,所述语料字典中的每一个字典序号对应一个字或字符;将每组字典序号转化为长为字典字符数宽为向量维度的二维张量。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (12)

1.一种素材语料的生成方法,其特征在于,所述方法包括:
获取目标类型的文章数据;
将所述文章数据按句筛选、切分和清洗后得到多个素材语句;
通过分类模型识别所述素材语句,输出与所述素材语句对应的类别标签。
2.根据权利要求1所述的方法,其特征在于,将所述文章数据按句筛选、切分和清洗后得到多个素材语句包括:
按照预设条件过滤所述文章数据;
将过滤后的文章数据以句子为最小单位进行切分,得到若干个文章语句;
对所述若干个文章语句按照关键字和/或字符数进行清洗,得到符合条件的素材语句。
3.根据权利要求2所述的方法,其特征在于,将过滤后的文章数据以句子为最小单位进行切分包括以下至少之一:
采用切分规则切分过滤后的文章数据,其中,所述切分规则包括以下之一:通过句字符组合的正则表达式、分号符;
采用句符号切分过滤后的文章数据。
4.根据权利要求1至3任一项所述的方法,其特征在于,在输出与所述素材语句对应的类别标签之后,所述方法还包括:
将所述素材语句对应的文章标识,所述类别标签,以及所述素材语句组合成语料字段后存储在语料数据库,其中,所述语料数据库用于响应基于所述类别标签的查询请求并输出所述素材语句。
5.根据权利要求1至3任一项所述的方法,其特征在于,在输出与所述素材语句对应的类别标签之后,所述方法还包括:
判断当前素材语句与相邻素材语句的类别标签是否一致;
在一致时,将所述当前素材语句和所述相邻素材语句合并为一条素材语句。
6.根据权利要求1至3任一项所述的方法,其特征在于,在通过分类模型识别所述素材语句之前,所述方法还包括:
采集原始数据;
根据所述原始数据生成多个训练语料,其中,所述训练语料包括:文本语料、分类标签;
基于所述多个训练语料构建所述分类模型。
7.根据权利要求6所述的方法,其特征在于,基于所述多个训练语料构建所述分类模型包括:
根据语料字典基于字或词将所述多个训练语料映射成多个二维张量;
将所述多个二维向量输入神经网络模型,并迭代计算输出的类别向量和真实类别向量的损失量,根据反向传播算法更新模型参数,直到所述神经网络模型达到迭代次数或者损失函数小于设定值。
8.根据权利要求7所述的方法,其特征在于,根据语料字典基于字或词将所述多个训练语料映射成多个二维张量包括:
按照语料字典将所述多个训练语料分别映射成一组字典序号,其中,所述语料字典中的每一个字典序号对应一个字或字符;
将每组字典序号转化为长为字典字符数宽为向量维度的二维张量。
9.根据权利要求1所述的方法,其特征在于,通过分类模型识别所述素材语句包括以下之一:
通过基于卷积神经网络的分类模型识别所述素材语句;
通过基于循环神经网络RNN的分类模型识别所述素材语句;
通过基于长短期记忆循环神经网络LSTM的分类模型识别所述素材语句;
通过基于支持向量机SVM的分类模型识别所述素材语句。
10.一种素材语料的生成装置,其特征在于,所述装置包括:
获取模块,用于获取目标类型的文章数据;
处理模块,用于将所述文章数据按句筛选、切分和清洗后得到多个素材语句;
输出模块,用于通过分类模型识别所述素材语句,输出与所述素材语句对应的类别标签。
11.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至9中任一项所述方法的步骤。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的方法的步骤。
CN201910969599.2A 2019-10-12 2019-10-12 素材语料的生成方法、装置、计算机设备和存储介质 Pending CN110866107A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910969599.2A CN110866107A (zh) 2019-10-12 2019-10-12 素材语料的生成方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910969599.2A CN110866107A (zh) 2019-10-12 2019-10-12 素材语料的生成方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN110866107A true CN110866107A (zh) 2020-03-06

Family

ID=69652468

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910969599.2A Pending CN110866107A (zh) 2019-10-12 2019-10-12 素材语料的生成方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN110866107A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111586071A (zh) * 2020-05-19 2020-08-25 上海飞旗网络技术股份有限公司 一种基于循环神经网络模型的加密攻击检测方法及装置
CN112016297A (zh) * 2020-08-27 2020-12-01 深圳壹账通智能科技有限公司 意图识别模型测试方法、装置、计算机设备和存储介质
CN112151080A (zh) * 2020-10-28 2020-12-29 成都启英泰伦科技有限公司 一种录制和处理训练语料的方法
CN112364131A (zh) * 2020-11-10 2021-02-12 中国平安人寿保险股份有限公司 一种语料处理方法及其相关装置
CN112417856A (zh) * 2020-11-27 2021-02-26 北京明略昭辉科技有限公司 提升机器写作质量的方法、系统、计算机设备及存储介质
CN112989187A (zh) * 2021-02-25 2021-06-18 平安科技(深圳)有限公司 创作素材的推荐方法、装置、计算机设备及存储介质
CN114547360A (zh) * 2022-02-24 2022-05-27 特赞(上海)信息科技有限公司 一种素材自动打标方法、装置及存储介质
CN115952461A (zh) * 2023-03-15 2023-04-11 北京澜舟科技有限公司 一种预训练语料清洗方法、系统及存储介质
CN117743573A (zh) * 2023-12-11 2024-03-22 中国科学院文献情报中心 一种语料自动标注的方法、装置、存储介质及电子设备
CN118644155A (zh) * 2024-07-31 2024-09-13 北京拓普丰联信息科技股份有限公司 工作内容处理方法、装置、电子设备以及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107133305A (zh) * 2017-04-28 2017-09-05 上海斐讯数据通信技术有限公司 一种聊天机器人知识库自动构建装置及其方法
CN107153664A (zh) * 2016-03-04 2017-09-12 同方知网(北京)技术有限公司 一种基于组合特征加权的科技文献标注精简研究结论的方法流程
CN108153803A (zh) * 2017-11-17 2018-06-12 北京奇艺世纪科技有限公司 一种数据获取方法、装置及电子设备
CN109271631A (zh) * 2018-09-12 2019-01-25 广州多益网络股份有限公司 分词方法、装置、设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107153664A (zh) * 2016-03-04 2017-09-12 同方知网(北京)技术有限公司 一种基于组合特征加权的科技文献标注精简研究结论的方法流程
CN107133305A (zh) * 2017-04-28 2017-09-05 上海斐讯数据通信技术有限公司 一种聊天机器人知识库自动构建装置及其方法
CN108153803A (zh) * 2017-11-17 2018-06-12 北京奇艺世纪科技有限公司 一种数据获取方法、装置及电子设备
CN109271631A (zh) * 2018-09-12 2019-01-25 广州多益网络股份有限公司 分词方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
曹宇等: "情感词典扩充的微博文本多元情感分类研究", 《情报杂志》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111586071A (zh) * 2020-05-19 2020-08-25 上海飞旗网络技术股份有限公司 一种基于循环神经网络模型的加密攻击检测方法及装置
CN111586071B (zh) * 2020-05-19 2022-05-20 上海飞旗网络技术股份有限公司 一种基于循环神经网络模型的加密攻击检测方法及装置
CN112016297A (zh) * 2020-08-27 2020-12-01 深圳壹账通智能科技有限公司 意图识别模型测试方法、装置、计算机设备和存储介质
CN112016297B (zh) * 2020-08-27 2023-03-28 深圳壹账通智能科技有限公司 意图识别模型测试方法、装置、计算机设备和存储介质
CN112151080B (zh) * 2020-10-28 2021-08-03 成都启英泰伦科技有限公司 一种录制和处理训练语料的方法
CN112151080A (zh) * 2020-10-28 2020-12-29 成都启英泰伦科技有限公司 一种录制和处理训练语料的方法
CN112364131A (zh) * 2020-11-10 2021-02-12 中国平安人寿保险股份有限公司 一种语料处理方法及其相关装置
CN112364131B (zh) * 2020-11-10 2024-05-17 中国平安人寿保险股份有限公司 一种语料处理方法及其相关装置
CN112417856A (zh) * 2020-11-27 2021-02-26 北京明略昭辉科技有限公司 提升机器写作质量的方法、系统、计算机设备及存储介质
CN112989187A (zh) * 2021-02-25 2021-06-18 平安科技(深圳)有限公司 创作素材的推荐方法、装置、计算机设备及存储介质
CN114547360A (zh) * 2022-02-24 2022-05-27 特赞(上海)信息科技有限公司 一种素材自动打标方法、装置及存储介质
CN115952461A (zh) * 2023-03-15 2023-04-11 北京澜舟科技有限公司 一种预训练语料清洗方法、系统及存储介质
CN117743573A (zh) * 2023-12-11 2024-03-22 中国科学院文献情报中心 一种语料自动标注的方法、装置、存储介质及电子设备
CN117743573B (zh) * 2023-12-11 2024-10-18 中国科学院文献情报中心 一种语料自动标注的方法、装置、存储介质及电子设备
CN118644155A (zh) * 2024-07-31 2024-09-13 北京拓普丰联信息科技股份有限公司 工作内容处理方法、装置、电子设备以及存储介质

Similar Documents

Publication Publication Date Title
CN110866107A (zh) 素材语料的生成方法、装置、计算机设备和存储介质
CN109493977B (zh) 文本数据处理方法、装置、电子设备及计算机可读介质
CN107808011B (zh) 信息的分类抽取方法、装置、计算机设备和存储介质
CN114238573B (zh) 基于文本对抗样例的信息推送方法及装置
CN109740152B (zh) 文本类目的确定方法、装置、存储介质和计算机设备
CN112818093A (zh) 基于语义匹配的证据文档检索方法、系统及存储介质
CN112633002A (zh) 样本标注、模型训练、命名实体识别方法和装置
CN111462752A (zh) 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法
CN112347254B (zh) 新闻文本的分类方法、装置、计算机设备和存储介质
CN111666766A (zh) 数据处理方法、装置和设备
CN111639500A (zh) 语义角色标注方法、装置、计算机设备及存储介质
CN112199954B (zh) 基于语音语义的疾病实体匹配方法、装置及计算机设备
CN116701303B (zh) 基于深度学习的电子文件分类方法、系统及可读存储介质
CN111581972A (zh) 文本中症状和部位对应关系识别方法、装置、设备及介质
CN111339777A (zh) 基于神经网络的医学相关意图识别方法及系统
Bhattacharjee et al. Bengali abstractive news summarization (BANS): a neural attention approach
CN113722507B (zh) 基于知识图谱的住院费用预测方法、装置及计算机设备
CN117725458A (zh) 一种获取威胁情报样本数据生成模型的方法及装置
CN115714002B (zh) 抑郁风险检测模型训练方法、抑郁症状预警方法及相关设备
CN114842982B (zh) 一种面向医疗信息系统的知识表达方法、装置及系统
CN116089605A (zh) 基于迁移学习和改进词袋模型的文本情感分析方法
CN114996400A (zh) 裁判文书处理方法、装置、电子设备及存储介质
CN114328894A (zh) 文档处理方法、装置、电子设备及介质
Bhattacharya et al. Developing an agriculture ontology for extracting relationships from texts using Natural Language Processing to enhance semantic understanding
Patel et al. Optimized Text Summarization Using Abstraction and Extraction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200306