CN111126066A - 基于神经网络的中文修辞手法的确定方法和装置 - Google Patents

基于神经网络的中文修辞手法的确定方法和装置 Download PDF

Info

Publication number
CN111126066A
CN111126066A CN201911286437.5A CN201911286437A CN111126066A CN 111126066 A CN111126066 A CN 111126066A CN 201911286437 A CN201911286437 A CN 201911286437A CN 111126066 A CN111126066 A CN 111126066A
Authority
CN
China
Prior art keywords
analyzed
analysis result
determining
speech
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911286437.5A
Other languages
English (en)
Other versions
CN111126066B (zh
Inventor
贠瑞峰
刘粉香
彭翔
张炎红
陆军
王伟威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Internetware Ltd
Original Assignee
Smart Shenzhou Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Smart Shenzhou Beijing Technology Co Ltd filed Critical Smart Shenzhou Beijing Technology Co Ltd
Priority to CN201911286437.5A priority Critical patent/CN111126066B/zh
Publication of CN111126066A publication Critical patent/CN111126066A/zh
Application granted granted Critical
Publication of CN111126066B publication Critical patent/CN111126066B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本申请提供了一种基于神经网络的中文修辞手法的确定方法、装置、存储介质和处理器,该确定方法包括:获取待分析数据,待分析数据包括至少一个待分析语句;对待分析语句进行词性分析和句法分析,得到词性分析结果和句法分析结果;对待分析语句进行实体类别分析,得到实体类别分析结果;采用神经网络模型,且根据词性分析结果、句法分析结果和实体类别分析结果确定待分析语句使用的中文修辞手法。相比于现有技术的方法,本申请的方法在现有神经网络模型的基础上,训练数据中加入了训练句法分析结果和训练实体类别分析结果,大幅提升了神经网络模型的分类效果,避免出现语义歧义和背景知识不足的问题,从而得到准确的修辞手法。

Description

基于神经网络的中文修辞手法的确定方法和装置
技术领域
本申请涉及自然语言处理领域,具体而言,涉及一种基于神经网络的中文修辞手法的确定方法、装置、存储介质和处理器。
背景技术
自动阅卷系统是人工智能领域在教育行业的落地产物,极大的提高了阅卷效率和准确性,把老师从繁复的阅卷工作中解放出来。但是目前绝大多数阅卷系统能够有效地评阅客观题目,却对主观题无能为力,例如作文的自动评分技术还不是特别成熟,主要原因是作文考察点复杂多样——字迹清晰美观,句子通顺,围绕中心点,引用名句,使用多种修辞手法等等。因此作文评分系统需要各种基础技术模块作为支撑,其中修辞手法识别是重要的评分点之一。中文修辞手法一共有64种,例如,比喻、借代、对偶、反问等等。
中文修辞手法识别本质上是自然语言处理中的分类问题,当前有很多算法可以完成语句分类,比如:SVM,CRF,TEXTCNN等等,大规模预训练模型BERT应该是目前最有效的分类模型之一,但是修辞手法识别任务需要大量文学背景知识和较强的句法分析能力才能较好的完成这个任务。BERT表现比其他模型效果优秀,但是还远没有达到可以实用的程度,虽然理论上只要给BERT足够的数据,它也可以完成修辞手法识别任务,但是组织超大规模训练数据人工成本高,另外它需要长时间占用大量机器资源才能完成训练,不利于后续更新和维护,最重要的是BERT本身运算量很大,在一般CPU上识别一个句子大约需要1秒,对于集成系统来说这几乎不可接受。
在背景技术部分中公开的以上信息只是用来加强对本文所描述技术的背景技术的理解,因此,背景技术中可能包含某些信息,这些信息对于本领域技术人员来说并未形成在本国已知的现有技术。
发明内容
本申请的主要目的在于提供一种基于神经网络的中文修辞手法的确定方法、装置、存储介质和处理器,以解决现有技术中中文修辞手法的确定方法不够准确的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种基于神经网络的中文修辞手法的确定方法,包括:获取待分析数据,所述待分析数据包括至少一个待分析语句;对所述待分析语句进行词性分析和句法分析,得到词性分析结果和句法分析结果;对所述待分析语句进行实体类别分析,得到实体类别分析结果;采用神经网络模型,且根据所述词性分析结果、所述句法分析结果和所述实体类别分析结果确定所述待分析语句使用的中文修辞手法。
进一步地,对所述待分析数据进行词性分析和句法分析之前,所述确定方法还包括:对所述待分析语句进行分词处理,得到所述待分析语句的多个词语。
进一步地,对所述待分析语句进行词性分析和句法分析,包括:确定所述词语的词性;确定多个所述词语之间的搭配关系。
进一步地,对所述待分析语句进行实体类别分析,包括:使用前向最长匹配抽取多个所述词语;对所述待分析数据中的多个所述词语进行所述实体类别分析。
进一步地,采用神经网络模型,且根据所述词性分析结果、所述句法分析结果和所述实体类别分析结果确定所述待分析语句使用的中文修辞手法,包括:至少根据所述词性分析结果、所述句法分析结果和所述实体类别分析结果确定所述神经网络模型的输入向量;将所述输入向量输入至所述神经网络模型中,得到所述待分析语句使用的中文修辞手法,其中,所述神经网络模型为使用多组数据通过机器学习训练出的,所述多组数据中的每组数据均包括:训练输入向量和所述训练输入向量对应的中文修辞手法,其中,所述训练输入向量为至少根据训练语句的训练词性分析结果、训练句法分析结果和训练实体类别分析结果确定的。
进一步地,所述词性分析的结果包括至少以下之一:名词、动词、介词、助词、代词,所述句法分析的结果包括至少以下之一:主谓关系、介宾关系、动补结构。
进一步地,所述实体类别包括至少以下之一:动物名称、国家名称、作家名、演员名、电影名。
根据本申请的另一方面,提供了一种基于神经网络的中文修辞手法的确定装置,包括:获取单元,获取待分析数据,所述待分析数据包括至少一个待分析语句;第一分析单元,对所述待分析语句进行词性分析和句法分析,得到词性分析结果和句法分析结果;第二分析单元,对所述待分析语句进行实体类别分析,得到实体类别分析结果;确定单元,采用神经网络模型,且根据所述词性分析结果、所述句法分析结果和所述实体类别分析结果确定所述待分析语句使用的中文修辞手法。
根据本申请的再一方面,提供了一种存储介质,所述存储介质包括存储的程序,其中,所述程序执行任意一种所述的确定方法。
根据本申请的又一方面,提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行任意一种所述的确定方法。
应用本申请的技术方案,上述确定方法中,首先获取包括待分析语句的待分析数据,然后对待分析语句进行词性分析、句法分析和实体类别分析,得到词性分析结果、句法分析结果和实体类别分析结果,最后将词性分析结果、句法分析结果和实体类别分析结果输入神经网络模型,分析得到待分析语句使用的中文修辞手法。该确定方法采用神经网络模型对词性分析结果、句法分析结果和实体类别分析结果进行分析,从而确定待分析语句中的修辞方法。相比于现有技术的方法,本申请的方法在现有神经网络模型的基础上,训练数据中加入了训练句法分析结果和训练实体类别分析结果,大幅提升了神经网络模型的分类效果,避免出现语义歧义和背景知识不足的问题,从而得到准确的修辞手法,提高了中文修辞手法的确定方法准确性。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1示出了根据本申请的一种实施例的基于神经网络的中文修辞手法的确定方法的流程图;以及
图2示出了根据本申请的一种实施例的基于神经网络的中文修辞手法的确定装置的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应该理解的是,当元件(诸如层、膜、区域、或衬底)描述为在另一元件“上”时,该元件可直接在该另一元件上,或者也可存在中间元件。而且,在说明书以及权利要求书中,当描述有元件“连接”至另一元件时,该元件可“直接连接”至该另一元件,或者通过第三元件“连接”至该另一元件。
正如背景技术所介绍的,现有技术中中文修辞手法的确定方法不够准确,为了解决如上问题,本申请提出了一种基于神经网络的中文修辞手法的确定方法、装置、存储介质和处理器。
图1是根据本发明实施例的基于神经网络的中文修辞手法的确定方法的流程图,如图1所示,该确定方法包括如下步骤:
步骤S101,获取待分析数据,上述待分析数据包括至少一个待分析语句;
步骤S102,对上述待分析语句进行词性分析和句法分析,得到词性分析结果和句法分析结果;
步骤S103,对上述待分析语句进行实体类别分析,得到实体类别分析结果;
步骤S104,采用神经网络模型,且根据上述词性分析结果、上述句法分析结果和上述实体类别分析结果确定上述待分析语句使用的中文修辞手法,其中,上述神经网络模型为使用多组数据通过机器学习训练出的,上述多组数据中的每组数据均包括:训练输入向量和上述训练输入向量对应的中文修辞手法,其中,上述训练输入向量为至少根据训练语句的训练词性分析结果、训练句法分析结果和训练实体类别分析结果确定的。
上述确定方法中,首先获取包括待分析语句的待分析数据,然后对待分析语句进行词性分析、句法分析和实体类别分析,得到词性分析结果、句法分析结果和实体类别分析结果,最后将词性分析结果、句法分析结果和实体类别分析结果输入神经网络模型,分析得到待分析语句使用的中文修辞手法。该确定方法采用神经网络模型对词性分析结果、句法分析结果和实体类别分析结果进行分析,从而确定待分析语句中的修辞方法。相比于现有技术的方法,本申请的方法在现有神经网络模型的基础上,训练数据中加入了训练句法分析结果和训练实体类别分析结果,大幅提升了神经网络模型的分类效果,避免出现语义歧义和背景知识不足的问题,从而得到准确的修辞手法,提高了中文修辞手法的确定方法准确性。
本申请的一种实施例中,神经网络模型是使用多种语义特征训练出的,其中多种语义特征除了字词特征外,还包括:句法特征,词性特征,实体词特征。
本申请的一种实施例中,对上述待分析数据进行词性分析和句法分析之前,上述确定方法还包括:对上述待分析语句进行分词处理,得到上述待分析语句的多个词语。上述确定方法将待分析语句分为多个词语,便于后续针对多个词语进行词性分析和句法分析,本申请并不限定具体的分词方法,本领域技术人员可以根据实际情况选择合适的分词方法。
本申请的一种实施例中,对上述待分析语句进行词性分析和句法分析,包括:确定上述词语的词性;确定多个上述词语之间的搭配关系。上述确定方法中,根据词语之间的搭配关系可以初步确定待分析语句的修辞手法,例如,“大白熊龇牙咧嘴地向我扑来”中“大白熊”和“扑”为合理的搭配关系,该语句采用的修辞手法为比喻,而“大白熊勉强答应了我的要求”中“大白熊”和“答应”为不合理的搭配关系,该语句采用的修辞手法为借代。
本申请的一种实施例中,对上述待分析语句进行实体类别分析,包括:使用前向最长匹配抽取多个上述词语;对上述待分析数据中的多个上述词语进行上述实体类别分析。上述确定方法中,采用前向最长匹配抽取词语,以避免出现歧义,进一步提高修辞手法的确定方法的准确性,例如,“鹿晗唱了一首流行歌曲”中,词语“鹿”长度小于词语“鹿晗”的长度,抽取词汇为“鹿晗”,以避免根据“鹿”与“唱”的搭配关系,将该语句的修辞手法确定为拟人。
本申请的一种实施例中,采用神经网络模型,且根据上述词性分析结果、上述句法分析结果和上述实体类别分析结果确定上述待分析语句使用的中文修辞手法,包括:至少根据上述词性分析结果、上述句法分析结果和上述实体类别分析结果确定上述神经网络模型的输入向量;将上述输入向量输入至上述神经网络模型中,得到上述待分析语句使用的中文修辞手法,其中,上述神经网络模型为使用多组数据通过机器学习训练出的,上述多组数据中的每组数据均包括:训练输入向量和上述训练输入向量对应的中文修辞手法,其中,上述训练输入向量为至少根据训练语句的训练词性分析结果、训练句法分析结果和训练实体类别分析结果确定的。上述确定方法中,通过训练神经网络模型,使得神经网络模型可以根据输入向量输出的修辞手法更加准确,提高中文修辞手法的确定方法准确性。
需要说明的是,上述神经网络模型可以借鉴现有技术的句子分类框架,例如,seq2seq,transformer,textCNN等等,句子分类框架用于至少根据上述词性分析结果、上述句法分析结果和上述实体类别分析结果确定上述神经网络模型的输入向量。
本申请的一种具体的实施例中,上述输入向量由词嵌入向量、词语位置向量、父节点向量、词性向量、依存关系向量和词库向量组成,且上述词嵌入向量、上述词语位置向量、上述父节点向量、上述词性向量、上述依存关系向量和上述词库向量由根据词性分析结果、句法分析结果和实体类别分析结果确定。
本申请的一种具体的实施例中,获取上述词嵌入向量的过程包括:建立多个实体词库;根据实体词库的词语数量和词嵌入向量维数进行初始化,得到多个第一矩阵,上述第一矩阵与上述实体词库一一对应,且上述第一矩阵的行向量与上述实体词库的词语一一对应;根据上述第一矩阵确定上述词嵌入向量。上述确定方法将词语在实体词库中的序号映射为一个词嵌入向量,从而可以根据词嵌入向量在实体词库找到对应的词语,例如,实体词库的词语数量为1000,词嵌入向量维数为128,“大白熊”是实体词库中第一个词,即其序号为0,“大白熊”对应的词嵌入向量为第一矩阵的第1行向量,即为(0.112,0.034,...,0.111)。
本申请的一种具体的实施例中,获取上述词语位置向量的过程包括:根据上述待分析语句的最大长度和词语位置向量维数进行初始化,得到多个第二矩阵,上述第二矩阵与上述待分析语句一一对应,且至少部分上述第二矩阵的行向量与上述待分析语句的词语一一对应;根据上述第二矩阵确定上述词语位置向量。上述确定方法将词语在待分析语句中的序号映射为一个词语位置向量,从而可以根据词语位置向量在待分析语句找到对应的词语,例如,待分析语句的最大长度为512,词语位置向量维数为32,“大白熊”在待分析语句中位置序号为0,“大白熊”对应的词语位置向量为第二矩阵的第1行向量,即为(0.005,1.249,...,0.222)。
本申请的一种具体的实施例中,获取上述父节点向量的过程包括:根据上述句法分析结果确定词语的父节点词语;根据上述父节点词语的序号和上述第二矩阵确定上述父节点向量。上述确定方法将词语对应的父节点词语在待分析语句中的序号映射为一个父节点向量,从而可以根据父节点向量在待分析语句找到对应的父节点词语,例如,“大白熊”的父节点词语“扑”在待分析语句中序号是5,“大白熊”对应的父节点向量为第二矩阵的第6行向量,即为(0.005,1.249,...,0.222)。
本申请的一种具体的实施例中,获取上述词性向量的过程包括:根据词性类别的数量和词性向量维数进行初始化,得到一个第三矩阵,且上述第三矩阵的行向量与词性一一对应;根据上述第三矩阵确定上述词性向量。上述确定方法可以根据词性向量确定词语的词性,例如,词性类别个数为100,“大白熊”是名词,名词在词性类别列表中的序号为44,“大白熊”对应的词性向量为第三矩阵的第44行向量,即为(0.321,0.453,...,0.444)。
本申请的一种具体的实施例中,获取上述依存关系向量的过程包括:根据依存关系的数量和依存关系向量维数进行初始化,得到一个第四矩阵,且上述第四矩阵的行向量与依存关系一一对应;根据上述第四矩阵确定上述依存关系向量。上述确定方法可以根据词性向量确定词语的依存关系,例如,依存关系类别数量为200,依存关系向量维数为32,“大白熊”与“扑”的依存关系为主谓关系,主谓关系在依存关系列表中序号为55,“大白熊”对应的依存关系向量为第四矩阵的第55行向量,即为(0.087,0.094,...,0.555)。
本申请的一种具体的实施例中,获取上述词库向量的过程包括:将词语进行检索,得到上述词语对应的实体词库;根据上述实体词库在词库列表中的序号确定上述词库向量。上述确定方法可以根据词库向量确定词语对应的实体词库,例如,词库的数量为100,“大白熊”属于动物词库,动物词库在词库列表中是第100个,那么“大白熊”对应的词库向量为(0,0,...,1)。
具体地,输入向量由词嵌入向量、词语位置向量、父节点向量、词性向量、依存关系向量和词库向量组成,则“大白熊”对应的输入向量为(0.112,0.034,...,0.111,0.005,1.249,...,0.222,0.953,0.012,...,0.333,0.321,0.453,...,0.444,0.087,0.094,...,0.555,0,0,...,1)。
需要说明的是,本领域技术人员可以根据实际情况选择合适的词嵌入向量维数、词语位置向量维数、词性向量维数和依存关系向量维数,并且训练的过程可以不断优化上述第一矩阵、第二矩阵、第三矩阵和第四矩阵,使得神经网络模型可以根据输入向量输出的修辞手法更加准确,提高中文修辞手法的确定方法准确性。
本申请的一种实施例中,上述词性分析的结果包括至少以下之一:名词、动词、介词、助词、代词,上述句法分析的结果包括至少以下之一:主谓关系、介宾关系、动补结构,也就是说,词性包括名词、动词、介词、助词和代词中的至少一个,依存关系包括主谓关系、介宾关系和动补结构的至少一个。例如,待分析语句“大白熊呲牙咧嘴地向我扑来”中,“大白熊”为名词,“呲牙咧嘴”、“扑”和“来”为动词,“地”为助词,“向”为介词,“我”为代词,“大白熊”和“扑”为主谓关系,“向”和“我”介宾关系,“扑”和“来”为动补结构。
需要说明的是,上述词性和上述依存关系不限于此,本领域技术人员可以根据实际情况选择合适的词性和依存关系。
本申请的一种实施例中,上述实体类别包括至少以下之一:动物名称、国家名称、作家名、演员名、电影名,也就是说,实体词库包括动物名称、国家名称、作家名、演员名和电影名的至少一个,本领域技术人员可以根据实际情况建立合适的实体词库。
需要说明的是,上述实体词库不限于此,本领域技术人员可以根据实际情况建立合适的实体词库,另外,后续的维护过程中,可以直接“热更新”词库,而不必重新训练模型,极大提高了模型的适用性。
需要说明的是,这里所谓的“热更新”是指直接更改/添加/删除已有实体词词库的词条(但增加一个新词库不在此列,增加没见过的词库需要重新训练模型),更新词库后立即生效,不需要改变系统的其他模块。
根据本发明实施例还提供了一种基于神经网络的中文修辞手法的确定装置,需要说明的是,本发明实施例的基于神经网络的中文修辞手法的确定装置可以用于执行本发明实施例所提供的基于神经网络的中文修辞手法的确定方法。以下对本发明实施例提供的基于神经网络的中文修辞手法的确定装置进行介绍。
图2是根据本发明实施例的基于神经网络的中文修辞手法的确定装置的示意图,如图2所示,该确定装置包括:
获取单元10,获取待分析数据,上述待分析数据包括至少一个待分析语句;
第一分析单元20,对上述待分析语句进行词性分析和句法分析,得到词性分析结果和句法分析结果;
第二分析单元30,对上述待分析语句进行实体类别分析,得到实体类别分析结果;
确定单元40,采用神经网络模型,且根据上述词性分析结果、上述句法分析结果和上述实体类别分析结果确定上述待分析语句使用的中文修辞手法,其中,上述神经网络模型为使用多组数据通过机器学习训练出的,上述多组数据中的每组数据均包括:训练输入向量和上述训练输入向量对应的中文修辞手法,其中,上述训练输入向量为至少根据练语句的训练词性分析结果、训练句法分析结果和训练实体类别分析结果确定的。
上述确定装置中,获取单元获取包括待分析语句的待分析数据,第一分析单元和第二分析单元对待分析语句进行词性分析、句法分析和实体类别分析,得到词性分析结果、句法分析结果和实体类别分析结果,确定单元将词性分析结果、句法分析结果和实体类别分析结果输入神经网络模型,分析得到待分析语句使用的中文修辞手法。该确定装置采用神经网络模型对词性分析结果、句法分析结果和实体类别分析结果进行分析,从而确定待分析语句中的修辞方法。相比于现有技术的方法,本申请的方法在现有神经网络模型的基础上,训练数据中加入了训练句法分析结果和训练实体类别分析结果,大幅提升了神经网络模型的分类效果,避免出现语义歧义和背景知识不足的问题,从而得到准确的修辞手法,提高了中文修辞手法的确定方法准确性。
本申请的一种实施例中,上述确定装置还包括处理单元,上述处理单元用于对上述待分析数据进行词性分析和句法分析之前,对上述待分析语句进行分词处理,得到上述待分析语句的多个词语。上述确定方法将待分析语句分为多个词语,便于后续针对多个词语进行词性分析和句法分析,本申请并不限定具体的分词方法,本领域技术人员可以根据实际情况选择合适的分词方法。
本申请的一种实施例中,上述第一分析单元包括第一确定模块和第二确定模块,其中,上述第一确定模块用于确定上述词语的词性;上述第二确定模块用于确定多个上述词语之间的搭配关系。上述确定方法中,根据词语之间的搭配关系可以初步确定待分析语句的修辞手法,例如,“大白熊龇牙咧嘴地向我扑来”中“大白熊”和“扑”为合理的搭配关系,该语句采用的修辞手法为比喻,而“大白熊勉强答应了我的要求”中“大白熊”和“答应”为不合理的搭配关系,该语句采用的修辞手法为借代。
本申请的一种实施例中,上述第一分析单元包括第一处理模块和第一分析模块,其中,上述第一处理模块用于使用前向最长匹配抽取多个上述词语;上述第一分析模块用于对上述待分析数据中的多个上述词语进行上述实体类别分析。上述确定方法中,采用前向最长匹配抽取词语,以避免出现歧义,进一步提高修辞手法的确定方法的准确性,例如,“鹿晗唱了一首流行歌曲”中,词语“鹿”长度小于词语“鹿晗”的长度,抽取词汇为“鹿晗”,以避免根据“鹿”与“唱”的搭配关系,将该语句的修辞手法确定为拟人。
本申请的一种实施例中,上述确定单元包括第二确定模块和第二处理模块,其中,上述第二确定模块用于至少根据上述词性分析结果、上述句法分析结果和上述实体类别分析结果确定上述神经网络模型的输入向量;上述第二处理模块用于将上述输入向量输入至上述神经网络模型中,得到上述待分析语句使用的中文修辞手法,其中,上述神经网络模型为使用多组数据通过机器学习训练出的,上述多组数据中的每组数据均包括:训练输入向量和上述训练输入向量对应的中文修辞手法,其中,上述训练输入向量为至少根据练语句的训练词性分析结果、训练句法分析结果和训练实体类别分析结果确定的。上述确定方法中,通过训练神经网络模型,使得神经网络模型可以根据输入向量输出的修辞手法更加准确,提高中文修辞手法的确定方法准确性。
需要说明的是,上述神经网络模型可以借鉴现有技术的句子分类框架,例如,seq2seq,transformer,textCNN等等,句子分类框架用于至少根据上述词性分析结果、上述句法分析结果和上述实体类别分析结果确定上述神经网络模型的输入向量。
本申请的一种具体的实施例中,上述输入向量由词嵌入向量、词语位置向量、父节点向量、词性向量、依存关系向量和词库向量组成,且上述词嵌入向量、上述词语位置向量、上述父节点向量、上述词性向量、上述依存关系向量和上述词库向量由根据词性分析结果、句法分析结果和实体类别分析结果确定。
本申请的一种具体的实施例中,上述第二确定模块包括第一处理子模块、第二处理子模块和第一确定子模块,其中,上述第一处理子模块用于建立多个实体词库;上述第二处理子模块用于根据实体词库的词语数量和词嵌入向量维数进行初始化,得到多个第一矩阵,上述第一矩阵与上述实体词库一一对应,且上述第一矩阵的行向量与上述实体词库的词语一一对应;上述第一确定子模块用于根据上述第一矩阵确定上述词嵌入向量。上述确定方法将词语在实体词库中的序号映射为一个词嵌入向量,从而可以根据词嵌入向量在实体词库找到对应的词语,例如,实体词库的词语数量为1000,词嵌入向量维数为128,“大白熊”是实体词库中第一个词,即其序号为0,“大白熊”对应的词嵌入向量为第一矩阵的第1行向量,即为(0.112,0.034,...,0.111)。
本申请的一种具体的实施例中,上述第二确定模块包括第三处理子模块和第二确定子模块,其中,上述第三处理子模块用于根据上述待分析语句的最大长度和词语位置向量维数进行初始化,得到多个第二矩阵,上述第二矩阵与上述待分析语句一一对应,且至少部分上述第二矩阵的行向量与上述待分析语句的词语一一对应;上述第二确定子模块用于根据上述第二矩阵确定上述词语位置向量。上述确定方法将词语在待分析语句中的序号映射为一个词语位置向量,从而可以根据词语位置向量在待分析语句找到对应的词语,例如,待分析语句的最大长度为512,词语位置向量维数为32,“大白熊”在待分析语句中位置序号为0,“大白熊”对应的词语位置向量为第二矩阵的第1行向量,即为(0.005,1.249,...,0.222)。
本申请的一种具体的实施例中,上述第二确定模块包括第三确定子模块和第四确定子模块,其中,上述第三确定子模块用于根据上述句法分析结果确定词语的父节点词语;上述第四确定子模块用于根据上述父节点词语的序号和上述第二矩阵确定上述父节点向量。上述确定方法将词语对应的父节点词语在待分析语句中的序号映射为一个父节点向量,从而可以根据父节点向量在待分析语句找到对应的父节点词语,例如,“大白熊”的父节点词语“扑”在待分析语句中序号是5,“大白熊”对应的父节点向量为第二矩阵的第6行向量,即为(0.005,1.249,...,0.222)。
本申请的一种具体的实施例中,上述第二确定模块包括第四处理子模块和第五确定子模块,其中,上述第四处理子模块用于根据词性类别的数量和词性向量维数进行初始化,得到一个第三矩阵,且上述第三矩阵的行向量与词性一一对应;上述第五确定子模块用于根据上述第三矩阵确定上述词性向量。上述确定方法可以根据词性向量确定词语的词性,例如,词性类别个数为100,“大白熊”是名词,名词在词性类别列表中的序号为44,“大白熊”对应的词性向量为第三矩阵的第44行向量,即为(0.321,0.453,...,0.444)。
本申请的一种具体的实施例中,上述第二确定模块包括第五处理子模块和第六确定子模块,其中,上述第五处理子模块用于根据依存关系的数量和依存关系向量维数进行初始化,得到一个第四矩阵,且上述第四矩阵的行向量与依存关系一一对应;上述第六确定子模块用于根据上述第四矩阵确定上述依存关系向量。上述确定方法可以根据词性向量确定词语的依存关系,例如,依存关系类别数量为200,依存关系向量维数为32,“大白熊”与“扑”的依存关系为主谓关系,主谓关系在依存关系列表中序号为55,“大白熊”对应的依存关系向量为第四矩阵的第55行向量,即为(0.087,0.094,...,0.555)。
本申请的一种具体的实施例中,上述第二确定模块包括第六处理子模块和第七确定子模块,其中,上述第六处理子模块用于将词语进行检索,得到上述词语对应的实体词库;上述第七确定子模块用于根据上述实体词库在词库列表中的序号确定上述词库向量。上述确定方法可以根据词库向量确定词语对应的实体词库,例如,词库的数量为100,“大白熊”属于动物词库,动物词库在词库列表中是第100个,那么“大白熊”对应的词库向量为(0,0,...,1)。
具体地,输入向量由词嵌入向量、词语位置向量、父节点向量、词性向量、依存关系向量和词库向量组成,则“大白熊”对应的输入向量为(0.112,0.034,...,0.111,0.005,1.249,...,0.222,0.953,0.012,...,0.333,0.321,0.453,...,0.444,0.087,0.094,...,0.555,0,0,...,1)。
需要说明的是,本领域技术人员可以根据实际情况选择合适的词嵌入向量维数、词语位置向量维数、词性向量维数和依存关系向量维数,并且训练的过程可以不断优化上述第一矩阵、第二矩阵、第三矩阵和第四矩阵,使得神经网络模型可以根据输入向量输出的修辞手法更加准确,提高中文修辞手法的确定方法准确性。
本申请的一种实施例中,上述词性分析的结果包括至少以下之一:名词、动词、介词、助词、代词,上述句法分析的结果包括至少以下之一:主谓关系、介宾关系、动补结构,也就是说,词性包括名词、动词、介词、助词和代词中的至少一个,依存关系包括主谓关系、介宾关系和动补结构的至少一个。例如,待分析语句“大白熊呲牙咧嘴地向我扑来”中,“大白熊”为名词,“呲牙咧嘴”、“扑”和“来”为动词,“地”为助词,“向”为介词,“我”为代词,“大白熊”和“扑”为主谓关系,“向”和“我”介宾关系,“扑”和“来”为动补结构。
需要说明的是,上述词性和上述依存关系不限于此,本领域技术人员可以根据实际情况选择合适的词性和依存关系。
本申请的一种实施例中,上述实体类别包括至少以下之一:动物名称、国家名称、作家名、演员名、电影名,也就是说,实体词库包括动物名称、国家名称、作家名、演员名和电影名的至少一个,本领域技术人员可以根据实际情况建立合适的实体词库。
需要说明的是,上述实体词库不限于此,本领域技术人员可以根据实际情况建立合适的实体词库,另外,后续的维护过程中,可以直接“热更新”词库,而不必重新训练模型,极大提高了模型的适用性。
上述基于神经网络的中文修辞手法的确定装置包括处理器和存储器,上述获取单元、第一分析单元、第二分析单元和确定单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来提高中文修辞手法的确定方法的准确性。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现上述Z方法。
本发明实施例提供了一种处理器,上述处理器用于运行程序,其中,上述程序运行时执行上述Z方法。
本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现至少以下步骤:
步骤S101,获取待分析数据,上述待分析数据包括至少一个待分析语句;
步骤S102,对上述待分析语句进行词性分析和句法分析,得到词性分析结果和句法分析结果;
步骤S103,对上述待分析语句进行实体类别分析,得到实体类别分析结果;
步骤S104,采用神经网络模型,且根据上述词性分析结果、上述句法分析结果和上述实体类别分析结果确定上述待分析语句使用的中文修辞手法。
本文中的设备可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有至少如下方法步骤的程序:
步骤S101,获取待分析数据,上述待分析数据包括至少一个待分析语句;
步骤S102,对上述待分析语句进行词性分析和句法分析,得到词性分析结果和句法分析结果;
步骤S103,对上述待分析语句进行实体类别分析,得到实体类别分析结果;
步骤S104,采用神经网络模型,且根据上述词性分析结果、上述句法分析结果和上述实体类别分析结果确定上述待分析语句使用的中文修辞手法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
从以上的描述中,可以看出,本申请上述的实施例实现了如下技术效果:
1)、本申请的确定方法中,首先获取包括待分析语句的待分析数据,然后对待分析语句进行词性分析、句法分析和实体类别分析,得到词性分析结果、句法分析结果和实体类别分析结果,最后将词性分析结果、句法分析结果和实体类别分析结果输入神经网络模型,分析得到待分析语句使用的中文修辞手法。该确定方法采用神经网络模型对词性分析结果、句法分析结果和实体类别分析结果进行分析,从而确定待分析语句中的修辞方法。相比于现有技术的方法,本申请的方法在现有神经网络模型的基础上,训练数据中加入了训练句法分析结果和训练实体类别分析结果,大幅提升了神经网络模型的分类效果,避免出现语义歧义和背景知识不足的问题,从而得到准确的修辞手法,提高了中文修辞手法的确定方法准确性。
2)、本申请的确定装置中,获取单元获取包括待分析语句的待分析数据,第一分析单元和第二分析单元对待分析语句进行词性分析、句法分析和实体类别分析,得到词性分析结果、句法分析结果和实体类别分析结果,确定单元将词性分析结果、句法分析结果和实体类别分析结果输入神经网络模型,分析得到待分析语句使用的中文修辞手法。该确定装置采用神经网络模型对词性分析结果、句法分析结果和实体类别分析结果进行分析,从而确定待分析语句中的修辞方法。相比于现有技术的方法,本申请的方法在现有神经网络模型的基础上,训练数据中加入了训练句法分析结果和训练实体类别分析结果,大幅提升了神经网络模型的分类效果,避免出现语义歧义和背景知识不足的问题,从而得到准确的修辞手法,提高了中文修辞手法的确定方法准确性。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种基于神经网络的中文修辞手法的确定方法,其特征在于,包括:
获取待分析数据,所述待分析数据包括至少一个待分析语句;
对所述待分析语句进行词性分析和句法分析,得到词性分析结果和句法分析结果;
对所述待分析语句进行实体类别分析,得到实体类别分析结果;
采用神经网络模型,且根据所述词性分析结果、所述句法分析结果和所述实体类别分析结果确定所述待分析语句使用的中文修辞手法,其中,所述神经网络模型为使用多组数据通过机器学习训练出的,所述多组数据中的每组数据均包括:训练输入向量和所述训练输入向量对应的中文修辞手法,其中,所述训练输入向量为至少根据训练语句的训练词性分析结果、训练句法分析结果和训练实体类别分析结果确定的。
2.根据权利要求1所述的确定方法,其特征在于,对所述待分析数据进行词性分析和句法分析之前,所述确定方法还包括:
对所述待分析语句进行分词处理,得到所述待分析语句的多个词语。
3.根据权利要求2所述的确定方法,其特征在于,对所述待分析语句进行词性分析和句法分析,包括:
确定所述词语的词性;
确定多个所述词语之间的搭配关系。
4.根据权利要求2所述的确定方法,其特征在于,对所述待分析语句进行实体类别分析,包括:
使用前向最长匹配抽取多个所述词语;
对所述待分析数据中的多个所述词语进行所述实体类别分析。
5.根据权利要求1所述的确定方法,其特征在于,采用神经网络模型,且根据所述词性分析结果、所述句法分析结果和所述实体类别分析结果确定所述待分析语句使用的中文修辞手法,包括:
至少根据所述词性分析结果、所述句法分析结果和所述实体类别分析结果确定所述神经网络模型的输入向量;
将所述输入向量输入至所述神经网络模型中,得到所述待分析语句使用的中文修辞手法。
6.根据权利要求1至5中任一项所述的确定方法,其特征在于,所述词性分析的结果包括至少以下之一:名词、动词、介词、助词、代词,所述句法分析的结果包括至少以下之一:主谓关系、介宾关系、动补结构。
7.根据权利要求1至5中任一项所述的确定方法,其特征在于,所述实体类别包括至少以下之一:
动物名称、国家名称、作家名、演员名、电影名。
8.一种基于神经网络的中文修辞手法的确定装置,其特征在于,包括:
获取单元,获取待分析数据,所述待分析数据包括至少一个待分析语句;
第一分析单元,对所述待分析语句进行词性分析和句法分析,得到词性分析结果和句法分析结果;
第二分析单元,对所述待分析语句进行实体类别分析,得到实体类别分析结果;
确定单元,采用神经网络模型,且根据所述词性分析结果、所述句法分析结果和所述实体类别分析结果确定所述待分析语句使用的中文修辞手法。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序执行权利要求1至7中任意一项所述的确定方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至7中任意一项所述的确定方法。
CN201911286437.5A 2019-12-13 2019-12-13 基于神经网络的中文修辞手法的确定方法和装置 Active CN111126066B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911286437.5A CN111126066B (zh) 2019-12-13 2019-12-13 基于神经网络的中文修辞手法的确定方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911286437.5A CN111126066B (zh) 2019-12-13 2019-12-13 基于神经网络的中文修辞手法的确定方法和装置

Publications (2)

Publication Number Publication Date
CN111126066A true CN111126066A (zh) 2020-05-08
CN111126066B CN111126066B (zh) 2023-05-02

Family

ID=70498922

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911286437.5A Active CN111126066B (zh) 2019-12-13 2019-12-13 基于神经网络的中文修辞手法的确定方法和装置

Country Status (1)

Country Link
CN (1) CN111126066B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111914545A (zh) * 2020-08-18 2020-11-10 科大讯飞股份有限公司 一种拟人句识别方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02289059A (ja) * 1989-03-07 1990-11-29 Agency Of Ind Science & Technol 自然言語の文脈処理装置
CN106815194A (zh) * 2015-11-27 2017-06-09 北京国双科技有限公司 模型训练方法及装置和关键词识别方法及装置
WO2019214145A1 (zh) * 2018-05-10 2019-11-14 平安科技(深圳)有限公司 文本情绪分析方法、装置及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02289059A (ja) * 1989-03-07 1990-11-29 Agency Of Ind Science & Technol 自然言語の文脈処理装置
CN106815194A (zh) * 2015-11-27 2017-06-09 北京国双科技有限公司 模型训练方法及装置和关键词识别方法及装置
WO2019214145A1 (zh) * 2018-05-10 2019-11-14 平安科技(深圳)有限公司 文本情绪分析方法、装置及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
黄明;王慧;梁旭;: "最大熵模型的语义句法分析在陪护机器人中的应用" *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111914545A (zh) * 2020-08-18 2020-11-10 科大讯飞股份有限公司 一种拟人句识别方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN111126066B (zh) 2023-05-02

Similar Documents

Publication Publication Date Title
Zhai et al. Neural models for sequence chunking
Young et al. Recent trends in deep learning based natural language processing
CN106202010B (zh) 基于深度神经网络构建法律文本语法树的方法和装置
CN110457708B (zh) 基于人工智能的词汇挖掘方法、装置、服务器及存储介质
CN111460798A (zh) 近义词推送方法、装置、电子设备及介质
KR20050045822A (ko) 기계번역기법을 이용한 유사문장 식별 시스템
CN109800307A (zh) 产品评价的分析方法、装置、计算机设备及存储介质
CN112185361B (zh) 一种语音识别模型训练方法、装置、电子设备及存储介质
CN112101042A (zh) 文本情绪识别方法、装置、终端设备和存储介质
CN110489559A (zh) 一种文本分类方法、装置及存储介质
CN115544303A (zh) 用于确定视频的标签的方法、装置、设备及介质
CN116304748A (zh) 一种文本相似度计算方法、系统、设备及介质
CN113761868A (zh) 文本处理方法、装置、电子设备及可读存储介质
CN115600605A (zh) 一种中文实体关系联合抽取方法、系统、设备及存储介质
CN111158692A (zh) 智能合约函数相似性的排序方法、系统和存储介质
CN114995903A (zh) 一种基于预训练语言模型的类别标签识别方法及装置
CN109726386B (zh) 一种词向量模型生成方法、装置和计算机可读存储介质
CN111881264B (zh) 一种开放领域问答任务中长文本检索的方法和电子设备
CN111563381A (zh) 文本处理方法和装置
CN113590811A (zh) 文本摘要生成方法、装置、电子设备及存储介质
CN111126066B (zh) 基于神经网络的中文修辞手法的确定方法和装置
Zhao et al. Relation extraction: advancements through deep learning and entity-related features
CN112256841B (zh) 文本匹配和对抗文本识别方法、装置及设备
CN115169370A (zh) 语料数据增强方法、装置、计算机设备及介质
CN114662496A (zh) 信息识别方法、装置、设备、存储介质及产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200803

Address after: 1608, 14 / F, No. 65, Beisihuan West Road, Haidian District, Beijing 100080

Applicant after: BEIJING INTERNETWARE Ltd.

Address before: No. 603, floor 6, No. 9, Shangdi 9th Street, Haidian District, Beijing 100085

Applicant before: Smart Shenzhou (Beijing) Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant