CN113806533B - 比喻句式特征词语提取方法、装置、介质及设备 - Google Patents

比喻句式特征词语提取方法、装置、介质及设备 Download PDF

Info

Publication number
CN113806533B
CN113806533B CN202110998208.7A CN202110998208A CN113806533B CN 113806533 B CN113806533 B CN 113806533B CN 202110998208 A CN202110998208 A CN 202110998208A CN 113806533 B CN113806533 B CN 113806533B
Authority
CN
China
Prior art keywords
sentence
metaphorical
metaphor
word extraction
trained
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110998208.7A
Other languages
English (en)
Other versions
CN113806533A (zh
Inventor
常永炷
毛晓曦
范长杰
胡志鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Netease Hangzhou Network Co Ltd
Original Assignee
Netease Hangzhou Network Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Netease Hangzhou Network Co Ltd filed Critical Netease Hangzhou Network Co Ltd
Priority to CN202110998208.7A priority Critical patent/CN113806533B/zh
Publication of CN113806533A publication Critical patent/CN113806533A/zh
Application granted granted Critical
Publication of CN113806533B publication Critical patent/CN113806533B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例提供一种比喻句式特征词语提取方法、装置、存储介质及终端设备,该方法包括:通过获取比喻句式特征词语组合;基于比喻句式特征词语组合进行比喻句式扩充处理,得到包含比喻句式特征词语组合的新增语句;对新增语句设置标签,将设置标签的新增语句作为比喻句式特征词语提取新增的第一训练样本,以迭代训练比喻句式特征词语提取模型,通过训练完成的比喻句式特征词语提取模型对待处理语句进行比喻句式特征词语组合的提取。本申请实施例能够不断更新迭代,提升模型自身的鲁棒性和识别比喻句式的准确性,同时,本申请实施例不需要依赖人工获取训练样本,降低了训练样本的获取难度,节省了人工成本。

Description

比喻句式特征词语提取方法、装置、介质及设备
技术领域
本申请涉及电子通信技术领域,尤其涉及一种比喻句式特征词语提取技术领域,特别涉及一种比喻句式特征词语提取方法、装置、介质及设备。
背景技术
比喻句式在文学和诗歌中有着非常广泛的应用,可以激发读者的想象力,比喻句一般是将一个对象(本体)比喻为另一个对象(喻体),所以比喻句中包含本体和喻体构成的比喻句式特征词语组合。通过比喻句式特征词语组合的提示,可以让用户写出富有创造力的内容。
目前,存在可以识别比喻句式特征词语组合的检测模型,但是该检测模型的训练需要大量带有标签的训练样本。也即相关技术中需要人工阅读大量语句挑选出数量较多的比喻句作为样本,再设置样本中的比喻句式特征词语组合作为样本标签,才能训练出检测效果比较好的检测模型,所以相关技术中训练样本的获取难度不仅大,而且还增加了人工成本。
发明内容
本申请实施例提供一种比喻句式特征词语提取方法、装置、介质及设备,能够解决现有的训练样本获取方式需要依赖人工获取,训练样本的获取难度不仅大,而且还增加了人工成本的问题。
本申请实施例一方面提供了一种比喻句式特征词语提取方法,包括:
获取比喻句式特征词语组合;
基于所述比喻句式特征词语组合进行比喻句式扩充处理,得到包含所述比喻句式特征词语组合的新增语句;
对所述新增语句设置标签,所述标签用于表示所述新增语句包含比喻句式特征词语组合,将设置所述标签的新增语句作为预训练的比喻句式特征词语提取模型新增的第一训练样本,以迭代训练所述预训练的比喻句式特征词语提取模型,得到训练完成的比喻句式特征词语提取模型,以通过所述训练完成的比喻句式特征词语提取模型对待处理语句进行比喻句式特征词语组合的提取。
在本申请实施例所述的比喻句式特征词语提取方法中,所述比喻句式特征词语组合包括本体词语及喻体词语。
在本申请实施例所述的比喻句式特征词语提取方法中,所述获取比喻句式特征词语组合,包括:
获取预先构建的比喻句式特征词语组合;或者
通过预训练的比喻句式特征词语提取模型识别第二训练样本是否包含所述比喻句式特征词语组合,若是,则获取所述第二训练样本中的比喻句式特征词语组合。
在本申请实施例所述的比喻句式特征词语提取方法中,在所述通过预训练的比喻句式特征词语提取模型识别第二训练样本是否包含所述比喻句式特征词语组合之前,所述方法还包括:
获取待训练的比喻句式特征词语提取的第三训练样本,所述第三训练样本包括设置有标签的第一语句,所述标签用于指示所述第一语句中是否包含比喻句式特征词语组合;
通过所述待训练的比喻句式特征词语提取模型对所述第三训练样本中的第一语句进行特征提取得到与所述第一语句对应的第一文本特征向量;
通过所述待训练的比喻句式特征词语提取模型,基于所述第一文本特征向量判断所述第三训练样本中的第一语句中是否包含比喻句式特征词语组合,得到所述第一语句的第一识别结果;
基于所述第一识别结果及所述第一语句的标签,调整所述待训练的比喻句式特征词语提取的参数,得到所述预训练的比喻句式特征词语提取模型。
在本申请实施例所述的比喻句式特征词语提取方法中,所述基于所述比喻句式特征词语组合进行比喻句扩充处理,得到包含所述比喻句式特征词语组合的新增语句,包括:
根据所述比喻句式特征词语组合从语料库中进行语句匹配,确定出所述语料库的语料数据中包含所述比喻句式特征词语组合的第二语句;
通过预训练的比喻判别器从所述第二语句中筛选出按照第一预设编排规则编排的第三语句;
通过预训练的比喻蕴含分类器从所述第三语句中筛选出按照第二预设编排规则编排的第四语句;
将所述第四语句作为所述新增语句。
在本申请实施例所述的比喻句式特征词语提取方法中,在所述通过预训练的比喻判别器从所述第二语句中筛选出按照第一预设编排规则编排的第三语句之前,所述方法还包括:
获取待训练的比喻判别器的第四训练样本,所述第四训练样本包括设置有标签的第五语句,所述标签用于指示所述第五语句是否为按照第一预设编排规则编排;
通过所述待训练的比喻判别器对所述第四训练样本中的第五语句进行特征提取得到与所述第五语句对应的第四文本特征向量;
通过所述待训练的比喻判别器,基于所述第二文本特征向量判断所述第四训练样本中的第五语句是否为按照所述第一预设编排规则编排,得到与所述第五语句对应的第二识别结果;
基于所述第二识别结果及所述第四训练样本的标签,调整所述待训练的比喻判别器的参数,得到预训练的所述比喻判别器。
在本申请实施例所述的比喻句式特征词语提取方法中,在所述通过预训练的比喻蕴含分类器从所述第三语句中筛选出句式类型为比喻句式的第四语句之前,所述方法还包括:
获取待训练的比喻蕴含分类器的第五训练样本,所述第五训练样本包括设置有标签的第六语句,所述标签用于指示所述语句是否为按照第一预设编排规则编排;
通过所述待训练的比喻蕴含分类器对所述第五训练样本中的语句进行特征提取得到与所述语句对应的第三文本特征向量;
通过所述待训练的比喻蕴含分类器,基于所述第五文本特征向量判断所述第五训练样本中的第六语句是否为按照所述第二预设编排规则编排,得到与所述第六语句对应的第三识别结果;
基于所述第三识别结果及所述第六语句的标签,调整所述待训练的比喻蕴含分类器的参数,得到预训练的所述比喻蕴含分类器。
在本申请实施例所述的比喻句式特征词语提取方法中,所述编排格式规则包括:每个所述第一语句中包含的所述比喻句式特征词语组合的数量为1,且所述比喻句式词语组中的本体词语数量为1,所述喻体词语的数量至少为1。
在本申请实施例所述的比喻句式特征词语提取方法中,所述第二编排格式规则包括:每个所述第三语句中的所述比喻句式特征词语组合为预先构建的给定特征词语组,且所述比喻句式特征词语组合中的本体与喻体排列顺序为按照预先设置的给定排列顺序。
相应的,本申请实施例另一方面还提供了一种比喻句式特征词语提取装置,包括:
数据获取模块,用于获取比喻句式特征词语组合,每个所述比喻句式特征词语组合包括至少两个体现比喻句式特征的词语;
语句扩充模块,用于基于所述比喻句式特征词语组合进行比喻句式扩充处理,得到包含所述比喻句式特征词语组合的新增语句;
语句识别模块,用于通过预训练的比喻句式特征词语提取识别所述新增语句是否为比喻句式,得到所述新增语句的第一识别结果;
模型迭代模块,用于基于所述第一识别结果对所述新增语句设置标签,所述标签用于表示所述新增语句包含比喻句式特征词语组合,将设置所述标签的新增语句作为预训练的比喻句式特征词语提取模型新增的第一训练样本,以迭代训练所述预训练的比喻句式特征词语提取模型,得到训练完成的比喻句式特征词语提取模型,以通过所述训练完成的比喻句式特征词语提取模型对待处理语句进行比喻句式特征词语组合的提取。
相应的,本申请实施例另一方面还提供了一种存储介质,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行如上所述的比喻句式特征词语提取方法。
相应的,本申请实施例另一方面还提供了一种终端设备,包括处理器和存储器,所述存储器存储有多条指令,所述处理器加载所述指令以执行如上所述的比喻句式特征词语提取方法。
本申请实施例提供了一种比喻句式特征词语提取方法、装置、介质及设备,该方法通过获取比喻句式特征词语组合;基于所述比喻句式特征词语组合进行比喻句式扩充处理,得到包含所述比喻句式特征词语组合的新增语句;对所述新增语句设置标签,所述标签用于表示所述新增语句包含比喻句式特征词语组合,将设置所述标签的新增语句作为预训练的比喻句式特征词语提取模型新增的第一训练样本,以迭代训练所述预训练的比喻句式特征词语提取模型,得到训练完成的比喻句式特征词语提取模型,以通过所述训练完成的比喻句式特征词语提取模型对待处理语句进行比喻句式特征词语组合的提取。本申请实施例不需要依赖人工获取训练样本,降低了训练样本的获取难度,节省了人工成本。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的比喻句式特征词语提取方法的流程示意图。
图2为本申请实施例提供的比喻句式特征词语提取装置的结构示意图。
图3为本申请实施例提供的比喻句式特征词语提取装置的另一种结构示意图。
图4为本申请实施例提供的终端设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本申请的保护范围。
本申请实施例提供一种比喻句式特征词语提取方法,所述比喻句式特征词语提取方法可以应用于终端设备中。所述终端设备可以是智能手机、平板电脑等设备。
比喻句式在文学和诗歌中有着非常广泛的应用,可以激发读者的想象力,比喻句一般是将一个对象(本体)比喻为另一个对象(喻体),所以比喻句中包含本体和喻体构成的比喻句式特征词语组合。通过比喻句式特征词语组合的提示,可以让用户写出富有创造力的内容。
目前,存在可以识别比喻句式特征词语组合的检测模型,但是该检测模型的训练需要大量带有标签的训练样本。也即相关技术中需要人工阅读大量语句挑选出数量较多的比喻句作为样本,再设置样本中的比喻句式特征词语组合作为样本标签,才能训练出检测效果比较好的检测模型,所以相关技术中训练样本的获取难度不仅大,而且还增加了人工成本。
为了解决上述技术问题,本申请实施例提供一种比喻句式特征词语提取方法。利用本申请实施例提供的比喻句式特征词语提取方法,能够根据比喻句式特征词语组合进行比喻句式扩充处理,得到包含比喻句式特征词语组合的新增语句,并为新增语句打上标签后,自动将打上标签的新增语句作为比喻句式特征词语提取新增的第一训练样本,以迭代训练比喻句式判断模型,使得本申请实施例能够不断更新迭代,提升模型自身的鲁棒性和识别比喻句式的准确性,同时,本申请实施例不需要依赖人工获取训练样本,降低了训练样本的获取难度,节省了人工成本。
请参阅图1,图1为本申请实施例提供的比喻句式特征词语提取方法的流程示意图。所述比喻句式特征词语提取方法,应用于终端设备中,所述方法可以包括以下步骤:
步骤101,获取比喻句式特征词语组合。
在本实施例中,比喻句式特征词语组合指的是包括至少两个能够体现比喻句式特征的词语,也称为命名主体,同一个比喻句式特征词语组合包括的至少两个词语之间具有较强的关联性。在本申请中,体现比喻句式的词语主要指的是比喻句式中的本体词语和喻体词语。本体词语可以理解为主语,通常是一个名词词组、或者称为逻辑对象,例如“云朵”。喻体词语是指本体词语的比较对象,通常也是名词词组,例如“棉花糖”。除了本体词语与喻体词语之外,还包含比较词,例如“像”、“仿佛”等将本体词语与喻体词语关联起来的词语。按照比喻句式构建规则生成的比喻句式可以是:“云朵像棉花糖”。
其中,比喻句式特征词语组合的获取来源包括以下步骤:
获取预先构建的比喻句式特征词语组合,即通过人为构建包括本体词语及喻体词语的比喻句式特征词语组合,或者依赖经验从已有的文学作品中摘取包括本体词语及喻体词语的比喻句式特征词语组合。举例来说,“云朵,棉花糖”就是构成一个比喻句式特征词语组合;
在另一实施例中,比喻句式特征词语组合的获取来源还可以包括以下步骤:
通过预训练的比喻句式特征词语提取识别第二训练样本是否包含所述比喻句式特征词语组合,若是,则获取所述第二训练样本中的比喻句式特征词语组合。
在另一实施例中,比喻句式特征词语组合的获取来源还可以包括上述两种情况的结合。
需要解释的是,在通过预训练的比喻句式特征词语提取识别第二训练样本是否包含所述比喻句式特征词语组合之前,所述方法还包括以下步骤(此为解释上述预训练的比喻句式特征词语提取的训练过程):
获取待训练的比喻句式特征词语提取模型的第三训练样本,所述第三训练样本包括设置有标签的第一语句,所述标签用于指示所述第一语句中是否包含比喻句式特征词语组合;
通过所述待训练的比喻句式特征词语提取模型对所述第三训练样本中的第一语句进行特征提取得到与所述第一语句对应的第一文本特征向量;
通过所述待训练的比喻句式特征词语提取模型,基于所述第一文本特征向量判断所述第三训练样本中的第一语句中是否包含比喻句式特征词语组合,得到所述第一语句的第一识别结果;
基于所述第一识别结果及所述第一语句的标签,调整所述待训练的比喻句式特征词语提取的参数,得到预训练的所述比喻句式特征词语提取模型。
需要说明的是,本方案中“待训练的比喻句式特征词语提取模型”指的是最原始的神经网络模型,还未进行样本训练。“预训练的比喻句式特征词语提取模型”指的是通过少量有标签的样本进行训练得到具备一定词语提取功能的中间模型,其精确度较弱。“完成训练的比喻句式特征词语提取模型”指的是基于新增样本得到大量有标签的样本进行训练得到词语提取功能更佳的目标模型。
步骤102,基于所述比喻句式特征词语组合进行比喻句式扩充处理,得到包含所述比喻句式特征词语组合的新增语句。
在本实施例中,为了解决现有神经网络模型中训练样本数量不易获取或数量少的问题,本申请通过基于获取到的比喻句式特征词语进行比喻句式扩充处理,得到包含比喻句式特征词语组合的新增语句。
其中,所述基于所述比喻句式特征词语组合进行比喻句扩充处理,得到包含所述比喻句式特征词语组合的新增语句的具体过程,包括:
根据所述比喻句式特征词语组合从语料库中进行语句匹配,确定出所述语料库的语料数据中包含所述比喻句式特征词语组合的第二语句。比喻句式特征词语组合以“云朵,棉花糖”为例,假如语料库中包含大量语料数据,例如语句A:“云朵如同棉花糖一样”、语句B:“这朵花像棉花糖”、语句C:“湖面像一面镜子”,语句D:“棉花糖好像云朵”、语句E:“云朵很好看”等。
通过预训练的比喻判别器从所述第二语句中筛选出按照第一预设编排规则编排的第三语句。预训练的比喻判别器具备从大量第二语句中筛选出按照第一预设编排规则编排的第三语句的功能,第一预设编排规则包括:每个第二语句中的比喻句式特征词语组合的数量为1,且比喻句式词语组中的本体词语数量为1,所述喻体词语的数量至少为1。符合第一预设编排规则的语句只有语句A、B、C、D四个语句。
由于只有语句A和D包含了比喻句式特征词语组合以“云朵,棉花糖”。
通过预训练的比喻蕴含分类器从所述第三语句中筛选出按照第二预设编排规则编排的第四语句。预训练的比喻蕴含分类器具有从大量第三语句中筛选出按照第二预设编排规则编排的第四语句的功能。第二编排格式规则包括:每个第三语句中的比喻句式特征词语组合为预先构建的给定特征词语组,且比喻句式特征词语组合中的本体与喻体排列顺序为按照预先设置的给定排列顺序。具体地说,以比喻句式特征词语组合“云朵,棉花糖”作为给定特征词语组,同时限定云朵在语句中出现的顺序是在棉花糖之前,即给定排列顺序。符合第二预设编排规则的语句只有语句A:“云朵如同棉花糖一样”。
将所述第四语句作为所述新增语句,即上述比喻句式。
需要解释的是,预训练的比喻判别器的训练过程具体包括:
获取待训练的比喻判别器的第四训练样本,所述第四训练样本包括设置有标签的第五语句,所述标签用于指示所述第五语句是否为按照第一预设编排规则编排;
通过所述待训练的比喻判别器对所述第四训练样本中的第五语句进行特征提取得到与所述第五语句对应的第二文本特征向量;
通过所述待训练的比喻判别器,基于所述第二文本特征向量判断所述第四训练样本中的第五语句是否为按照所述第一预设编排规则编排,得到与所述第五语句对应的第二识别结果;
基于所述第二识别结果及所述第五语句的标签,调整所述待训练的比喻判别器的参数,得到预训练的所述比喻判别器。
预训练的比喻蕴含分类器的训练过程具体包括:
获取待训练的比喻蕴含分类器的第五训练样本,所述第五训练样本包括设置有标签的第六语句,所述标签用于指示所述语句是否为按照第一预设编排规则编排;
通过所述待训练的比喻蕴含分类器对所述第五训练样本中的语句进行特征提取得到与所述语句对应的第三文本特征向量;
通过所述待训练的比喻蕴含分类器,基于所述第三文本特征向量判断所述第五训练样本中的第六语句是否为按照所述第二预设编排规则编排,得到与所述第六语句对应的第三识别结果;
基于所述第三识别结果及所述第六语句的标签,调整所述待训练的比喻蕴含分类器的参数,得到预训练的所述比喻蕴含分类器。
步骤103,对所述新增语句设置标签,所述标签用于表示所述新增语句包含比喻句式特征词语组合,将设置所述标签的新增语句作为预训练的比喻句式特征词语提取模型新增的第一训练样本,以迭代训练所述预训练的比喻句式特征词语提取模型,得到训练完成的比喻句式特征词语提取模型,以通过所述训练完成的比喻句式特征词语提取模型对待处理语句进行比喻句式特征词语组合的提取。
在本实施例中,得到新增语句后,给新增语句设置标签(即标识为比喻句式),将设置标签的新增语句作为比喻句式特征词语提取新增的第一训练样本,以迭代训练比喻句式特征词语提取,以通过训练完成的比喻句式特征词语提取模型对待处理语句进行比喻句式特征词语组合的提取。
上述所有可选技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。
具体实施时,本申请不受所描述的各个步骤的执行顺序的限制,在不产生冲突的情况下,某些步骤还可以采用其它顺序进行或者同时进行。
由上可知,本申请实施例提供的比喻句式特征词语提取方法通过获取比喻句式特征词语组合;基于所述比喻句式特征词语组合进行比喻句式扩充处理,得到包含所述比喻句式特征词语组合的新增语句;对所述新增语句设置标签,所述标签用于表示所述新增语句包含比喻句式特征词语组合,将设置所述标签的新增语句作为预训练的比喻句式特征词语提取模型新增的第一训练样本,以迭代训练所述预训练的比喻句式特征词语提取模型,得到训练完成的比喻句式特征词语提取模型,以通过所述训练完成的比喻句式特征词语提取模型对待处理语句进行比喻句式特征词语组合的提取。本申请实施例能够根据比喻句式特征词语组合进行比喻句式扩充处理,得到包含比喻句式特征词语组合的新增语句,并为新增语句打上标签后,自动将打上标签的新增语句作为比喻句式特征词语提取新增的第一训练样本,以迭代训练比喻句式判断模型,使得本申请实施例能够不断更新迭代,提升模型自身的鲁棒性和识别比喻句式的准确性,同时,本申请实施例不需要依赖人工获取训练样本,降低了训练样本的获取难度,节省了人工成本。
本申请实施例还提供一种比喻句式特征词语提取装置,所述比喻句式特征词语提取装置可以集成在终端设备中。所述终端设备可以是智能手机、平板电脑等设备。
请参阅图2,图2为本申请实施例提供的比喻句式特征词语提取装置的结构示意图。比喻句式特征词语提取装置30可以包括:
数据获取模块31,用于获取比喻句式特征词语组合;
语句扩充模块32,用于基于所述比喻句式特征词语组合进行比喻句式扩充处理,得到包含所述比喻句式特征词语组合的新增语句;
模型迭代模块33,用于对所述新增语句设置标签,所述标签用于表示所述新增语句包含比喻句式特征词语组合,将设置所述标签的新增语句作为预训练的比喻句式特征词语提取模型新增的第一训练样本,以迭代训练所述预训练的比喻句式特征词语提取模型,得到训练完成的比喻句式特征词语提取模型,以通过所述训练完成的比喻句式特征词语提取模型对待处理语句进行比喻句式特征词语组合的提取。
在一些实施例中,所述数据获取模块31,用于获取预先构建的比喻句式特征词语组合;或者通过预训练的比喻句式特征词语提取识别第二训练样本是否包含所述比喻句式特征词语组合,若是,则获取所述第二训练样本中的比喻句式特征词语组合。
在一些实施例中,所述装置还包括第一预训练模块,用于获取待训练的比喻句式特征词语提取的第三训练样本,所述第三训练样本包括设置有标签的第一语句,所述标签用于指示所述第一语句中是否包含比喻句式特征词语组合;通过所述待训练的比喻句式特征词语提取模型对所述第三训练样本中的第一语句进行特征提取得到与所述第一语句对应的第一文本特征向量;通过所述待训练的比喻句式特征词语提取模型,基于所述第一文本特征向量判断所述第三训练样本中的第一语句中是否包含比喻句式特征词语组合,得到所述第一语句的第一识别结果;基于所述第一识别结果及所述第一语句的标签,调整所述待训练的比喻句式特征词语提取的参数,得到预训练的所述比喻句式特征词语提取模型。
在一些实施例中,所述语句扩充模块32,用于根据所述比喻句式特征词语组合从语料库中进行语句匹配,确定出所述语料库的语料数据中包含所述比喻句式特征词语组合的第二语句;通过预训练的比喻判别器从所述第二语句中筛选出按照第一预设编排规则编排的第三语句;通过预训练的比喻蕴含分类器从所述第三语句中筛选出按照第二预设编排规则编排的第四语句;将所述第四语句作为所述新增语句。
在一些实施例中,所述装置还包括第二预训练模块,用于获取待训练的比喻判别器的第四训练样本,所述第四训练样本包括设置有标签的第五语句,所述标签用于指示所述第五语句是否为按照第一预设编排规则编排;通过所述待训练的比喻判别器对所述第四训练样本中的第五语句进行特征提取得到与所述第五语句对应的第二文本特征向量;通过所述待训练的比喻判别器,基于所述第二文本特征向量判断所述第四训练样本中的第五语句是否为按照所述第一预设编排规则编排,得到与所述第五语句对应的第二识别结果;基于所述第二识别结果及所述第二训练样本的标签,调整所述待训练的比喻判别器的参数,得到预训练的所述比喻判别器。
在一些实施例中,所述装置还包括第三预训练模块,用于通过所述待训练的比喻蕴含分类器对所述第三训练样本中的语句进行特征提取得到与所述语句对应的第三文本特征向量;通过所述待训练的比喻蕴含分类器,基于所述第三文本特征向量判断所述第五训练样本中的第六语句是否为按照所述第二预设编排规则编排,得到与所述第六语句对应的第三识别结果;基于所述第三识别结果及所述第五训练样本的标签,调整所述待训练的比喻蕴含分类器的参数,得到预训练的所述比喻蕴含分类器。
具体实施时,以上各个模块可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现。
由上可知,本申请实施例提供的比喻句式特征词语提取装置30,通过数据获取模块31获取比喻句式特征词语组合;语句扩充模块32基于所述比喻句式特征词语组合进行比喻句式扩充处理,得到包含所述比喻句式特征词语组合的新增语句;模型迭代模块33对所述新增语句设置标签,所述标签用于表示所述新增语句包含比喻句式特征词语组合,将设置所述标签的新增语句作为预训练的比喻句式特征词语提取模型新增的第一训练样本,以迭代训练所述预训练的比喻句式特征词语提取模型,得到训练完成的比喻句式特征词语提取模型,以通过所述训练完成的比喻句式特征词语提取模型对待处理语句进行比喻句式特征词语组合的提取。
请参阅图3,图3为本申请实施例提供的比喻句式特征词语提取装置的另一结构示意图,振动比喻句式特征词语提取装置30包括存储器120、一个或多个处理器180、以及一个或多个应用程序,其中该一个或多个应用程序被存储于该存储器120中,并配置为由该处理器180执行;该处理器180可以包括数据获取模块31,语句扩充模块32,以及模型迭代模块33。例如,以上各个部件的结构和连接关系可以如下:
存储器120可用于存储应用程序和数据。存储器120存储的应用程序中包含有可执行代码。应用程序可以组成各种功能模块。处理器180通过运行存储在存储器120的应用程序,从而执行各种功能应用以及数据处理。此外,存储器120可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器120还可以包括存储器控制器,以提供处理器180对存储器120的访问。
处理器180是装置的控制中心,利用各种接口和线路连接整个终端的各个部分,通过运行或执行存储在存储器120内的应用程序,以及调用存储在存储器120内的数据,执行装置的各种功能和处理数据,从而对装置进行整体监控。可选的,处理器180可包括一个或多个处理核心;优选的,处理器180可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等。
具体在本实施例中,处理器180会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行代码加载到存储器120中,并由处理器180来运行存储在存储器120中的应用程序,从而实现各种功能:
数据获取模块31,用于获取比喻句式特征词语组合;
语句扩充模块32,用于基于所述比喻句式特征词语组合进行比喻句式扩充处理,得到包含所述比喻句式特征词语组合的新增语句;
模型迭代模块33,用于对所述新增语句设置标签,所述标签用于表示所述新增语句包含比喻句式特征词语组合,将设置所述标签的新增语句作为预训练的比喻句式特征词语提取模型新增的第一训练样本,以迭代训练所述预训练的比喻句式特征词语提取模型,得到训练完成的比喻句式特征词语提取模型,以通过所述训练完成的比喻句式特征词语提取模型对待处理语句进行比喻句式特征词语组合的提取。
在一些实施例中,所述数据获取模块31,用于获取预先构建的比喻句式特征词语组合;或者通过预训练的比喻句式特征词语提取识别第二训练样本是否包含所述比喻句式特征词语组合,若是,则获取所述第二训练样本中的比喻句式特征词语组合。
在一些实施例中,所述装置还包括第一预训练模块,用于获取待训练的比喻句式特征词语提取的第三训练样本,所述第三训练样本包括设置有标签的第一语句,所述标签用于指示所述第一语句中是否包含比喻句式特征词语组合;通过所述待训练的比喻句式特征词语提取模型对所述第三训练样本中的第一语句进行特征提取得到与所述第一语句对应的第一文本特征向量;通过所述待训练的比喻句式特征词语提取模型,基于所述第一文本特征向量判断所述第三训练样本中的第一语句中是否包含比喻句式特征词语组合,得到所述第一语句的第一识别结果;基于所述第一识别结果及所述第一语句的标签,调整所述待训练的比喻句式特征词语提取的参数,得到预训练的所述比喻句式特征词语提取模型。
在一些实施例中,所述语句扩充模块32,用于根据所述比喻句式特征词语组合从语料库中进行语句匹配,确定出所述语料库的语料数据中包含所述比喻句式特征词语组合的第二语句;通过预训练的比喻判别器从所述第二语句中筛选出按照第一预设编排规则编排的第三语句;通过预训练的比喻蕴含分类器从所述第三语句中筛选出按照第二预设编排规则编排的第四语句;将所述第四语句作为所述新增语句。
在一些实施例中,所述装置还包括第二预训练模块,用于获取待训练的比喻判别器的第四训练样本,所述第四训练样本包括设置有标签的第五语句,所述标签用于指示所述第五语句是否为按照第一预设编排规则编排;通过所述待训练的比喻判别器对所述第四训练样本中的第五语句进行特征提取得到与所述第五语句对应的第二文本特征向量;通过所述待训练的比喻判别器,基于所述第二文本特征向量判断所述第四训练样本中的第五语句是否为按照所述第一预设编排规则编排,得到与所述第五语句对应的第二识别结果;基于所述第二识别结果及所述第二训练样本的标签,调整所述待训练的比喻判别器的参数,得到预训练的所述比喻判别器。
在一些实施例中,所述装置还包括第三预训练模块,用于通过所述待训练的比喻蕴含分类器对所述第三训练样本中的语句进行特征提取得到与所述语句对应的第三文本特征向量;通过所述待训练的比喻蕴含分类器,基于所述第三文本特征向量判断所述第五训练样本中的第六语句是否为按照所述第二预设编排规则编排,得到与所述第六语句对应的第三识别结果;基于所述第三识别结果及所述第五训练样本的标签,调整所述待训练的比喻蕴含分类器的参数,得到预训练的所述比喻蕴含分类器。
本申请实施例还提供一种终端设备。所述终端设备可以是智能手机、电脑、平板电脑等设备。
请参阅图4,图4示出了本申请实施例提供的终端设备的结构示意图,该终端设备可以用于实施上述实施例中提供的比喻句式特征词语提取方法。该终端设备1200可以为智能手机或平板电脑。
如图4所示,终端设备1200可以包括RF(Radio Frequency,射频)电路110、包括有一个或一个以上(图中仅示出一个)计算机可读存储介质的存储器120、输入单元130、显示单元140、传感器150、音频电路160、传输模块170、包括有一个或者一个以上(图中仅示出一个)处理核心的处理器180以及电源190等部件。本领域技术人员可以理解,图4中示出的终端设备1200结构并不构成对终端设备1200的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
RF电路110用于接收以及发送电磁波,实现电磁波与电信号的相互转换,从而与通讯网络或者其他设备进行通讯。RF电路110可包括各种现有的用于执行这些功能的电路元件,例如,天线、射频收发器、数字信号处理器、加密/解密芯片、用户身份模块(SIM)卡、存储器等等。RF电路110可与各种网络如互联网、企业内部网、无线网络进行通讯或者通过无线网络与其他设备进行通讯。
存储器120可用于存储软件程序以及模块,如上述实施例中比喻句式特征词语提取方法对应的程序指令/模块,处理器180通过运行存储在存储器120内的软件程序以及模块,从而执行各种功能应用以及数据处理,可以根据终端设备所处的当前场景来自动选择振动提醒模式来进行比喻句式特征词语提取,既能够保证会议等场景不被打扰,又能保证用户可以感知来电,提升了终端设备的智能性。存储器120可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器120可进一步包括相对于处理器180远程设置的存储器,这些远程存储器可以通过网络连接至终端设备1200。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入单元130可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,输入单元130可包括触敏表面131以及其他输入设备132。触敏表面131,也称为触摸显示屏或者触控板,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面131上或在触敏表面131附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触敏表面131可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器180,并能接收处理器180发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面131。除了触敏表面131,输入单元130还可以包括其他输入设备132。具体地,其他输入设备132可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元140可用于显示由用户输入的信息或提供给用户的信息以及终端设备1200的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元140可包括显示面板141,可选的,可以采用LCD(Liquid CrystalDisplay,液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板141。进一步的,触敏表面131可覆盖显示面板141,当触敏表面131检测到在其上或附近的触摸操作后,传送给处理器180以确定触摸事件的类型,随后处理器180根据触摸事件的类型在显示面板141上提供相应的视觉输出。虽然在图4中,触敏表面131与显示面板141是作为两个独立的部件来实现输入和输出功能,但是在某些实施例中,可以将触敏表面131与显示面板141集成而实现输入和输出功能。
终端设备1200还可包括至少一种传感器150,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板141的亮度,接近传感器可在终端设备1200移动到耳边时,关闭显示面板141和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于终端设备1200还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路160、扬声器161,传声器162可提供用户与终端设备1200之间的音频接口。音频电路160可将接收到的音频数据转换后的电信号,传输到扬声器161,由扬声器161转换为声音信号输出;另一方面,传声器162将收集的声音信号转换为电信号,由音频电路160接收后转换为音频数据,再将音频数据输出处理器180处理后,经RF电路110以发送给比如另一终端,或者将音频数据输出至存储器120以便进一步处理。音频电路160还可能包括耳塞插孔,以提供外设耳机与终端设备1200的通信。
终端设备1200通过传输模块170(例如Wi-Fi模块)可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图4示出了传输模块170,但是可以理解的是,其并不属于终端设备1200的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器180是终端设备1200的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器120内的软件程序和/或模块,以及调用存储在存储器120内的数据,执行终端设备1200的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器180可包括一个或多个处理核心;在一些实施例中,处理器180可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器180中。
终端设备1200还包括给各个部件供电的电源190,在一些实施例中,电源可以通过电源管理系统与处理器180逻辑相连,从而通过电源管理系统实现管理放电、以及功耗管理等功能。电源190还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
尽管未示出,终端设备1200还可以包括摄像头(如前置摄像头、后置摄像头)、蓝牙模块等,在此不再赘述。具体在本实施例中,终端设备1200的显示单元140是触摸屏显示器,终端设备1200还包括有存储器120,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器120中,且经配置以由一个或者一个以上处理器180执行一个或者一个以上程序包含用于进行以下操作的指令:
数据获取指令,用于获取比喻句式特征词语组合;
语句扩充指令,用于基于所述比喻句式特征词语组合进行比喻句式扩充处理,得到包含所述比喻句式特征词语组合的新增语句;
模型迭代指令,用于对所述新增语句设置标签,所述标签用于表示所述新增语句包含比喻句式特征词语组合,将设置所述标签的新增语句作为预训练的比喻句式特征词语提取模型新增的第一训练样本,以迭代训练所述预训练的比喻句式特征词语提取模型,得到训练完成的比喻句式特征词语提取模型,以通过所述训练完成的比喻句式特征词语提取模型对待处理语句进行比喻句式特征词语组合的提取。
在一些实施例中,所述数据获取指令,用于获取预先构建的比喻句式特征词语组合;或者通过预训练的比喻句式特征词语提取识别第二训练样本是否包含所述比喻句式特征词语组合,若是,则获取所述第二训练样本中的比喻句式特征词语组合。
在一些实施例中,所述装置还包括第一预训练指令,用于获取待训练的比喻句式特征词语提取的第三训练样本,所述第三训练样本包括设置有标签的第一语句,所述标签用于指示所述第一语句中是否包含比喻句式特征词语组合;通过所述待训练的比喻句式特征词语提取模型对所述第三训练样本中的第一语句进行特征提取得到与所述第一语句对应的第一文本特征向量;通过所述待训练的比喻句式特征词语提取模型,基于所述第一文本特征向量判断所述第三训练样本中的第一语句中是否包含比喻句式特征词语组合,得到所述第一语句的第一识别结果;基于所述第一识别结果及所述第一语句的标签,调整所述待训练的比喻句式特征词语提取的参数,得到预训练的所述比喻句式特征词语提取模型。
在一些实施例中,所述语句扩充指令,用于根据所述比喻句式特征词语组合从语料库中进行语句匹配,确定出所述语料库的语料数据中包含所述比喻句式特征词语组合的第二语句;通过预训练的比喻判别器从所述第二语句中筛选出按照第一预设编排规则编排的第三语句;通过预训练的比喻蕴含分类器从所述第三语句中筛选出按照第二预设编排规则编排的第四语句;将所述第四语句作为所述新增语句。
在一些实施例中,所述装置还包括第二预训练指令,用于获取待训练的比喻判别器的第四训练样本,所述第四训练样本包括设置有标签的第五语句,所述标签用于指示所述第五语句是否为按照第一预设编排规则编排;通过所述待训练的比喻判别器对所述第四训练样本中的第五语句进行特征提取得到与所述第五语句对应的第二文本特征向量;通过所述待训练的比喻判别器,基于所述第二文本特征向量判断所述第四训练样本中的第五语句是否为按照所述第一预设编排规则编排,得到与所述第五语句对应的第二识别结果;基于所述第二识别结果及所述第二训练样本的标签,调整所述待训练的比喻判别器的参数,得到预训练的所述比喻判别器。
在一些实施例中,所述装置还包括第三预训练指令,用于通过所述待训练的比喻蕴含分类器对所述第三训练样本中的语句进行特征提取得到与所述语句对应的第三文本特征向量;通过所述待训练的比喻蕴含分类器,基于所述第三文本特征向量判断所述第五训练样本中的第六语句是否为按照所述第二预设编排规则编排,得到与所述第六语句对应的第三识别结果;基于所述第三识别结果及所述第五训练样本的标签,调整所述待训练的比喻蕴含分类器的参数,得到预训练的所述比喻蕴含分类器。
本申请实施例还提供一种终端设备。所述终端设备可以是智能手机、平板电脑等设备。
由上可知,本申请实施例提供了一种终端设备1200,所述终端设备1200执行以下步骤:通过获取比喻句式特征词语组合;基于所述比喻句式特征词语组合进行比喻句式扩充处理,得到包含所述比喻句式特征词语组合的新增语句;对所述新增语句设置标签,所述标签用于表示所述新增语句包含比喻句式特征词语组合,将设置所述标签的新增语句作为预训练的比喻句式特征词语提取模型新增的第一训练样本,以迭代训练所述预训练的比喻句式特征词语提取模型,得到训练完成的比喻句式特征词语提取模型,以通过所述训练完成的比喻句式特征词语提取模型对待处理语句进行比喻句式特征词语组合的提取。本申请实施例能够根据比喻句式特征词语组合进行比喻句式扩充处理,得到包含比喻句式特征词语组合的新增语句,并为新增语句打上标签后,自动将打上标签的新增语句作为比喻句式特征词语提取新增的第一训练样本,以迭代训练比喻句式判断模型,使得通过本申请提供的方法训练得到的比喻句式判断模型能够不断更新迭代,提升模型自身的鲁棒性和识别比喻句式的准确性。
本申请实施例还提供一种存储介质,所述存储介质中存储有计算机程序,当所述计算机程序在计算机上运行时,所述计算机执行上述任一实施例所述的比喻句式特征词语提取方法。
需要说明的是,对本申请所述比喻句式特征词语提取方法而言,本领域普通测试人员可以理解实现本申请实施例所述比喻句式特征词语提取方法的全部或部分流程,是可以通过计算机程序来控制相关的硬件来完成,所述计算机程序可存储于一计算机可读存储介质中,如存储在终端设备的存储器中,并被该终端设备内的至少一个处理器执行,在执行过程中可包括如所述比喻句式特征词语提取方法的实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random AccessMemory)等。
对本申请实施例的所述比喻句式特征词语提取装置而言,其各功能模块可以集成在一个处理芯片中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中,所述存储介质譬如为只读存储器,磁盘或光盘等。
以上对本申请实施例所提供的比喻句式特征词语提取方法、装置、存储介质及终端设备进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (11)

1.一种比喻句式特征词语提取方法,其特征在于,所述方法包括下述步骤:
获取比喻句式特征词语组合;
基于所述比喻句式特征词语组合进行比喻句式扩充处理,得到包含所述比喻句式特征词语组合的新增语句;
对所述新增语句设置标签,所述标签用于表示所述新增语句包含比喻句式特征词语组合,将设置所述标签的新增语句作为预训练的比喻句式特征词语提取模型新增的第一训练样本,以迭代训练所述预训练的比喻句式特征词语提取模型,得到训练完成的比喻句式特征词语提取模型,以通过所述训练完成的比喻句式特征词语提取模型对待处理语句进行比喻句式特征词语组合的提取;
所述基于所述比喻句式特征词语组合进行比喻句扩充处理,得到包含所述比喻句式特征词语组合的新增语句,包括:
根据所述比喻句式特征词语组合在语料库中进行语句匹配,确定出所述语料库中包含所述比喻句式特征词语组合的第二语句;
通过预训练的比喻判别器从所述第二语句中筛选出按照第一预设编排规则编排的第三语句;
通过预训练的比喻蕴含分类器从所述第三语句中筛选出按照第二预设编排规则编排的第四语句;
将所述第四语句作为所述新增语句。
2.如权利要求1所述的比喻句式特征词语提取方法,其特征在于,所述比喻句式特征词语组合包括本体词语及喻体词语。
3.如权利要求2所述的比喻句式特征词语提取方法,其特征在于,所述获取比喻句式特征词语组合,包括:
获取预先构建的比喻句式特征词语组合;或者
通过预训练的比喻句式特征词语提取模型识别第二训练样本是否包含比喻句式特征词语组合,若是,则获取所述第二训练样本中的比喻句式特征词语组合。
4.如权利要求3所述的比喻句式特征词语提取方法,其特征在于,在所述通过预训练的比喻句式特征词语提取模型识别第二训练样本是否包含所述比喻句式特征词语组合之前,所述方法还包括:
获取待训练的比喻句式特征词语提取模型的第三训练样本,所述第三训练样本包括设置有标签的第一语句,所述标签用于指示所述第一语句中是否包含比喻句式特征词语组合;
通过所述待训练的比喻句式特征词语提取模型对所述第三训练样本中的第一语句进行特征提取得到与所述第一语句对应的第一文本特征向量;
通过所述待训练的比喻句式特征词语提取模型,基于所述第一文本特征向量判断所述第三训练样本中的第一语句中是否包含比喻句式特征词语组合,得到所述第一语句的第一识别结果;
基于所述第一识别结果及所述第一语句的标签,调整所述待训练的比喻句式特征词语提取模型的参数,得到所述预训练的比喻句式特征词语提取模型。
5.如权利要求4所述的比喻句式特征词语提取方法,其特征在于,在所述通过预训练的比喻判别器从所述第二语句中筛选出按照第一预设编排规则编排的第三语句之前,所述方法还包括:
获取待训练的比喻判别器的第四训练样本,所述第四训练样本包括设置有标签的第五语句,所述标签用于指示所述第五语句是否为按照第一预设编排规则编排;
通过所述待训练的比喻判别器对所述第四训练样本中的第五语句进行特征提取得到与所述第五语句对应的第二文本特征向量;
通过所述待训练的比喻判别器,基于所述第二文本特征向量判断所述第四训练样本中的第五语句是否为按照所述第一预设编排规则编排,得到与所述第五语句对应的第二识别结果;
基于所述第二识别结果及所述第五语句的标签,调整所述待训练的比喻判别器的参数,得到预训练的所述比喻判别器。
6.如权利要求4所述的比喻句式特征词语提取方法,其特征在于,在所述通过预训练的比喻蕴含分类器从所述第三语句中筛选出句式类型为比喻句式的第四语句之前,所述方法还包括:
获取待训练的比喻蕴含分类器的第五训练样本,所述第五训练样本包括设置有标签的第六语句,所述标签用于指示所述第六语句是否为按照第二预设编排规则编排;
通过所述待训练的比喻蕴含分类器对所述第五训练样本中的语句进行特征提取得到与所述第六语句对应的第三文本特征向量;
通过所述待训练的比喻蕴含分类器,基于所述第三文本特征向量判断所述第五训练样本中的第六语句是否为按照所述第二预设编排规则编排,得到与所述第六语句对应的第三识别结果;
基于所述第三识别结果及所述第六语句的标签,调整所述待训练的比喻蕴含分类器的参数,得到预训练的所述比喻蕴含分类器。
7.如权利要求5所述的比喻句式特征词语提取方法,其特征在于,所述第一预设编排规则包括:待判断语句中的所述比喻句式特征词语组合的数量为1,且所述比喻句式词语组合中的本体词语数量为1,所述喻体词语的数量至少为1。
8.如权利要求6所述的比喻句式特征词语提取方法,其特征在于,所述第二预设编排规则包括:待判断语句中的所述比喻句式特征词语组合为预先构建的给定特征词语组,且所述比喻句式特征词语组合中的本体与喻体排列顺序为按照预先设置的给定排列顺序。
9.一种比喻句式特征词语提取装置,其特征在于,包括:
数据获取模块,用于获取比喻句式特征词语组合;
语句扩充模块,用于基于所述比喻句式特征词语组合进行比喻句式扩充处理,得到包含所述比喻句式特征词语组合的新增语句;
模型迭代模块,用于对所述新增语句设置标签,所述标签用于表示所述新增语句包含比喻句式特征词语组合,将设置所述标签的新增语句作为预训练的比喻句式特征词语提取模型新增的第一训练样本,以迭代训练所述预训练的比喻句式特征词语提取模型,得到训练完成的比喻句式特征词语提取模型,以通过所述训练完成的比喻句式特征词语提取模型对待处理语句进行比喻句式特征词语组合的提取;
所述语句扩充模块,用于根据所述比喻句式特征词语组合在语料库中进行语句匹配,确定出所述语料库中包含所述比喻句式特征词语组合的第二语句;通过预训练的比喻判别器从所述第二语句中筛选出按照第一预设编排规则编排的第三语句;通过预训练的比喻蕴含分类器从所述第三语句中筛选出按照第二预设编排规则编排的第四语句;将所述第四语句作为所述新增语句。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至8任一项所述的比喻句式特征词语提取方法。
11.一种终端设备,其特征在于,包括处理器和存储器,所述存储器存储有多条指令,所述处理器加载所述指令以执行权利要求1至8任一项所述的比喻句式特征词语提取方法。
CN202110998208.7A 2021-08-27 2021-08-27 比喻句式特征词语提取方法、装置、介质及设备 Active CN113806533B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110998208.7A CN113806533B (zh) 2021-08-27 2021-08-27 比喻句式特征词语提取方法、装置、介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110998208.7A CN113806533B (zh) 2021-08-27 2021-08-27 比喻句式特征词语提取方法、装置、介质及设备

Publications (2)

Publication Number Publication Date
CN113806533A CN113806533A (zh) 2021-12-17
CN113806533B true CN113806533B (zh) 2023-08-08

Family

ID=78894267

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110998208.7A Active CN113806533B (zh) 2021-08-27 2021-08-27 比喻句式特征词语提取方法、装置、介质及设备

Country Status (1)

Country Link
CN (1) CN113806533B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106502981A (zh) * 2016-10-09 2017-03-15 广西师范大学 基于词性、句法和词典的比喻修辞句自动分析与判定方法
CN110414556A (zh) * 2019-06-20 2019-11-05 华中师范大学 一种基于Word2Vec和循环神经网络的小学语文作文比喻句和拟人句自动提取方法
KR102081512B1 (ko) * 2018-09-14 2020-02-25 울산대학교 산학협력단 비유법 문장 생성 장치 및 방법
CN111859934A (zh) * 2020-07-02 2020-10-30 大连外国语大学 一种中文语句隐喻识别系统
CN111914544A (zh) * 2020-08-18 2020-11-10 科大讯飞股份有限公司 一种比喻句识别方法、装置、设备及存储介质
CN112906392A (zh) * 2021-03-23 2021-06-04 北京天融信网络安全技术有限公司 一种文本增强方法、文本分类方法及相关装置
WO2021139229A1 (zh) * 2020-07-31 2021-07-15 平安科技(深圳)有限公司 文本修辞句的生成方法、装置、设备及可读存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106502981A (zh) * 2016-10-09 2017-03-15 广西师范大学 基于词性、句法和词典的比喻修辞句自动分析与判定方法
KR102081512B1 (ko) * 2018-09-14 2020-02-25 울산대학교 산학협력단 비유법 문장 생성 장치 및 방법
CN110414556A (zh) * 2019-06-20 2019-11-05 华中师范大学 一种基于Word2Vec和循环神经网络的小学语文作文比喻句和拟人句自动提取方法
CN111859934A (zh) * 2020-07-02 2020-10-30 大连外国语大学 一种中文语句隐喻识别系统
WO2021139229A1 (zh) * 2020-07-31 2021-07-15 平安科技(深圳)有限公司 文本修辞句的生成方法、装置、设备及可读存储介质
CN111914544A (zh) * 2020-08-18 2020-11-10 科大讯飞股份有限公司 一种比喻句识别方法、装置、设备及存储介质
CN112906392A (zh) * 2021-03-23 2021-06-04 北京天融信网络安全技术有限公司 一种文本增强方法、文本分类方法及相关装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
隐喻字面语义表示与生成;王金锦;杨芸;周昌乐;;中文信息学报(第03期);97-104 *

Also Published As

Publication number Publication date
CN113806533A (zh) 2021-12-17

Similar Documents

Publication Publication Date Title
CN107943860B (zh) 模型的训练方法、文本意图的识别方法及装置
CN111061574B (zh) 一种对象分享方法及电子设备
CN110471858B (zh) 应用程序测试方法、装置及存储介质
CN111274777B (zh) 思维导图显示方法及电子设备
CN111339737B (zh) 实体链接方法、装置、设备及存储介质
CN111797148A (zh) 数据处理方法、装置、存储介质及电子设备
CN112230781B (zh) 字符推荐方法、装置及存储介质
CN111240551A (zh) 应用程序控制方法及电子设备
CN113806533B (zh) 比喻句式特征词语提取方法、装置、介质及设备
CN116307394A (zh) 产品用户体验评分方法、装置、介质及设备
CN111027406B (zh) 图片识别方法、装置、存储介质及电子设备
CN113343709B (zh) 意图识别模型的训练方法、意图识别方法、装置及设备
CN113806532B (zh) 比喻句式判断模型的训练方法、装置、介质及设备
CN113761195A (zh) 文本分类方法、装置、计算机设备及计算机可读存储介质
CN109002239B (zh) 一种信息显示方法及终端设备
CN115221888A (zh) 实体提及的识别方法、装置、设备及存储介质
CN111638843A (zh) 信息处理方法、装置及电子设备
CN111652432A (zh) 用户属性信息的确定方法、装置、电子设备及存储介质
CN110909190B (zh) 数据搜索方法、装置、电子设备及存储介质
CN115841181B (zh) 剩余油分布预测方法、装置、设备及存储介质
CN114415903B (zh) 数据录入方法、装置、介质及设备
CN117725244A (zh) 数据搜索方法、装置、介质及设备
CN109614483B (zh) 一种信息分类方法及终端设备
CN109857293B (zh) 显示方法及终端设备
CN109829167B (zh) 一种分词处理方法和移动终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant