CN111859916B - 古诗关键词提取、诗句生成方法、装置、设备及介质 - Google Patents

古诗关键词提取、诗句生成方法、装置、设备及介质 Download PDF

Info

Publication number
CN111859916B
CN111859916B CN202010738707.8A CN202010738707A CN111859916B CN 111859916 B CN111859916 B CN 111859916B CN 202010738707 A CN202010738707 A CN 202010738707A CN 111859916 B CN111859916 B CN 111859916B
Authority
CN
China
Prior art keywords
poetry
verse
information
poem
constraint
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010738707.8A
Other languages
English (en)
Other versions
CN111859916A (zh
Inventor
刘广
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN202010738707.8A priority Critical patent/CN111859916B/zh
Publication of CN111859916A publication Critical patent/CN111859916A/zh
Application granted granted Critical
Publication of CN111859916B publication Critical patent/CN111859916B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及大数据的数据处理领域,提供一种古诗关键词提取、诗句生成方法、装置、设备及介质,方法包括:获取诗句提取指令中的诗句信息;将诗句信息输入古诗关键词提取模型中基于BERT和古文字典的诗句标注模型中,通过诗句标注模型对诗句信息进行拆分及标注处理,得到诗句序列信息;通过诗句类型识别模型识别出诗句类型;将诗句序列信息输入古诗关键词提取模型中与诗句类型对应的基于CRF的类型约束模型,通过对各诗字序列信息之间进行打标及约束预测处理,得到关键词结果;根据关键词结果,确定古诗关键词。本发明实现通过基于BERT和古文字典的诗句标注模型以及基于CRF的类型约束模型,自动提取诗句信息中的体现诗意的古诗关键词。

Description

古诗关键词提取、诗句生成方法、装置、设备及介质
技术领域
本发明涉及大数据的数据处理领域,尤其涉及一种古诗关键词提取、诗句生成方法、装置、计算机设备及存储介质。
背景技术
目前,人工智能已实现自动生成诗句,大多数都是通过一个关键词生成一个诗句,即生成五言或七言诗句,在现有技术中,往往是通过基于深度学习的作诗模型生成诗句,该技术方案就需要大量的诗句样本,而现在的可用于训练作诗模型的诗句样本十分缺少,并且由于未对诗句样本进行诗意提取关键词,导致训练完成的作诗模型拟合程度不高,通过该作诗模型生成的诗句往往缺乏诗句样本的诗意,也会存在句子不连贯等各种问题,从而导致生成的诗句给用户的满意度低,体验度差等现象。
发明内容
本发明提供一种古诗关键词提取、诗句生成方法、装置、计算机设备及存储介质,实现了通过基于BERT和古文字典的诗句标注模型以及基于CRF的类型约束模型,自动提取诗句信息中的体现诗意的古诗关键词,达到对诗句信息进行文本增强的效果,提高了训练诗句生成模型的生成准确率,同时通过IF-IDF算法提取文本信息中的文本关键词,并通过诗句生成模型生成符合诗意的诗句,提高了用户的满意度和体验度。
一种古诗关键词提取方法,包括:
接收到诗句提取指令,获取所述诗句提取指令中的诗句信息;
将所述诗句信息输入古诗关键词提取模型中基于BERT和古文字典的诗句标注模型中,通过所述诗句标注模型对所述诗句信息进行拆分及标注处理,得到诗句序列信息;所述诗句序列信息包括多个诗字序列信息;
通过所述古诗关键词提取模型中的诗句类型识别模型识别出与所述诗句信息匹配的诗句类型;
将所述诗句序列信息输入所述古诗关键词提取模型中与所述诗句类型对应的基于CRF的类型约束模型,通过与所述诗句类型对应的所述类型约束模型对各所述诗字序列信息进行打标及约束预测处理,得到关键词结果;其中,一个所述诗句类型对应一个所述类型约束模型;
获取所述古诗关键词提取模型根据所述关键词结果输出的最终关键词,将所述最终关键词确定为所述诗句信息的古诗关键词。
一种诗句生成方法,包括:
接收到生成指令,获取所述生成指令中的文本信息;
通过IF-IDF算法,提取出所述文本信息中的文本关键词;
将所述文本关键词输入通过关键词样本进行训练获得的诗句生成模型,得到诗句生成结果;所述诗句生成结果确定为根据所述文本信息生成的诗句;所述关键词样本为通过上述古诗关键词提取方法对所述关键词样本关联的所述诗句标签进行处理获得。
一种古诗关键词提取装置,包括:
接收模块,用于接收到诗句提取指令,获取所述诗句提取指令中的诗句信息;
拆分模块,用于将所述诗句信息输入古诗关键词提取模型中基于BERT和古文字典的诗句标注模型中,通过所述诗句标注模型对所述诗句信息进行拆分及标注处理,得到诗句序列信息;所述诗句序列信息包括多个诗字序列信息;
匹配模块,用于通过所述古诗关键词提取模型中的诗句类型识别模型识别出与所述诗句信息匹配的诗句类型;
预测模块,用于将所述诗句序列信息输入所述古诗关键词提取模型中与所述诗句类型对应的基于CRF的类型约束模型,通过与所述诗句类型对应的所述类型约束模型对各所述诗字序列信息进行打标及约束预测处理,得到关键词结果;其中,一个所述诗句类型对应一个所述类型约束模型;
输出模块,用于获取所述古诗关键词提取模型根据所述关键词结果输出的最终关键词,将所述最终关键词确定为所述诗句信息的古诗关键词。
一种诗句生成装置,包括:
获取模块,用于接收到生成指令,获取所述生成指令中的文本信息;
提取模块,用于通过IF-IDF算法,提取出所述文本信息中的文本关键词;
生成模块,用于将所述文本关键词输入通过关键词样本进行训练获得的诗句生成模型,得到诗句生成结果;所述诗句生成结果确定为根据所述文本信息生成的诗句;所述关键词样本为通过上述古诗关键词提取方法对所述关键词样本关联的所述诗句标签进行处理获得。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述古诗关键词提取方法的步骤,或者所述处理器执行所述计算机程序时实现上述诗句生成方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其中,所述计算机程序被处理器执行时实现上述古诗关键词提取方法的步骤,或者所述计算机程序被处理器执行所述计算机程序时实现上述诗句生成方法的步骤。
本发明提供的古诗关键词提取方法、装置、计算机设备及存储介质,通过获取所述诗句提取指令中的诗句信息;将所述诗句信息输入古诗关键词提取模型中基于BERT和古文字典的诗句标注模型中,通过所述诗句标注模型对所述诗句信息进行拆分及标注处理,得到诗句序列信息;通过所述诗句类型识别模型识别出诗句类型;将所述诗句序列信息输入所述古诗关键词提取模型中与所述诗句类型对应的基于CRF的类型约束模型,通过对各所述诗字序列信息之间进行打标及约束预测处理,得到关键词结果;根据所述关键词结果,确定古诗关键词,如此,实现了通过基于BERT和古文字典的诗句标注模型及与所述诗句类型对应的基于CRF的类型约束模型,自动提取诗句信息中的体现诗意的古诗关键词,增强诗句信息中的诗意,达到对诗句信息进行文本增强的效果,为后续的训练诗句生成模型提高了生成准确率,以及减少了训练召回率,提高了模型效率。
本发明提供的诗句生成方法、装置、计算机设备及存储介质,通过IF-IDF算法,提取出输入的文本信息中的文本关键词,再通过关键词样本进行训练获得的诗句生成模型自动生成诗句,而关键词样本为通过上述古诗关键词提取方法对所述关键词样本关联的所述诗句标签进行处理获得,如此,实现了提取文本信息中的文本关键词,自动根据文本关键词生成符合诗意的诗句,提高了用户的满意度和体验度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中古诗关键词提取方法或诗句生成方法的应用环境示意图;
图2是本发明一实施例中古诗关键词提取方法的流程图;
图3是本发明一实施例中古诗关键词提取方法的步骤S20的流程图;
图4是本发明一实施例中古诗关键词提取方法的步骤S30的流程图;
图5是本发明一实施例中古诗关键词提取方法的步骤S40的流程图;
图6是本发明一实施例中诗句生成方法的流程图;
图7是本发明一实施例中古诗关键词提取装置的原理框图;
图8是本发明一实施例中诗句生成装置的原理框图;
图9是本发明一实施例中计算机设备的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供的古诗关键词提取方法,可应用在如图1的应用环境中,其中,客户端(计算机设备)通过网络与服务器进行通信。其中,客户端(计算机设备)包括但不限于为各种个人计算机、笔记本电脑、智能手机、平板电脑、摄像头和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一实施例中,如图2所示,提供一种古诗关键词提取方法,其技术方案主要包括以下步骤S10-S50:
S10,接收到诗句提取指令,获取所述诗句提取指令中的诗句信息。
可理解地,所述诗句信息为需要提取关键词的诗句,所述诗句信息为历史古诗中的四言、五言、七言及杂言的诗句,所述诗句提取指令为对所述诗句信息提取关键词触发的指令,所述诗句提取指令包含所述诗句信息。
S20,将所述诗句信息输入古诗关键词提取模型中基于BERT和古文字典的诗句标注模型中,通过所述诗句标注模型对所述诗句信息进行拆分及标注处理,得到诗句序列信息;所述诗句序列信息包括多个诗字序列信息。
可理解地,所述古诗关键词提取模型为训练完成的融合神经网络模型,所述古诗关键词提取模型包括所述诗句类型识别模型、所述诗句标注模型和所述类型约束模型,所述诗句类型识别模型为识别出所述诗句信息对应的诗句类型的模型,所述诗句标注模型为基于BERT和古文字典进行训练完成的神经网络模型,所述诗句标注模型指通过BERT算法和古文字典对所述诗句信息中的每个字进行序列标注的模型,所述BERT(BidirectionalEncoder Representations from Transformers)算法为通过联合调节所有层中的双向Transformer来训练的算法,所述古文字典包含所有诗句中的诗字对应的声调向量和词性向量,通过所述声调向量体现所述诗字的平仄的衡量指标,所述词性向量体现所述诗字的词性的衡量指标,所述古诗关键词提取模型包含多个所述类型约束模型,所述类型约束模型都跟一种诗句类型关联,表明一个类型约束模型针对一种诗句类型,其类型约束模型中包含与其对应的诗句类型的约束,所述类型约束模型为通过符合与之对应的所述诗句类型的诗句进行训练完成的基于CRF的神经网络模型,如此,所述类型约束模型更具针对性,提取的准确率更高。
其中,所述拆分处理为将所述诗句信息进行逐字分开得到单独诗字,并标注其位置,将拆分后的单独诗字的位置确定为诗字位置,所述标注处理为对拆分后的字进行序列标注,即通过在所述古文字典中查询出与其对应的声调向量和词性向量,根据查询到的声调向量和词性向量对该字进行声调和序列标注,得到诗字序列信息中的诗字序列,对所有单独诗字序列进行合并,将合并后的所有诗字序列和所有诗字位置得到所述诗句信息对应的所述诗句序列信息。
在一实施例中,如图3所示,所述步骤S20中,即所述通过所述诗句标注模型对所述诗句信息进行拆分及标注处理,得到诗句序列信息,包括:
S201,通过所述诗句标注模型对所述诗句信息进行拆分,得到多个单独诗字及与其对应的诗字位置。
可理解地,通过所述诗句标注模型将所述诗句信息进行拆分成一个一个字,得到多个单独诗字,每个单独诗字有与其对应的诗字位置,所述诗字位置为该诗字在其所在的诗句中的第几个字记录为该诗字的位置,例如:诗句信息为“举头望明月”,则拆分成“举”1,“头”2,“望”3,“明”4,“月”5。
S202,自所述诗句标注模型中的古文字典中查询各所述单独诗字,获取与各所述单独诗字对应的声调向量和词性向量。
可理解地,所述古文字典包含所有诗句中的诗字对应的声调向量和词性向量,通过所述声调向量体现所述诗字的平仄的衡量指标,所述词性向量体现所述诗字的词性的衡量指标,获取与各所述单独诗字对应的声调向量和词性向量。
S203,通过BERT算法,对各所述单独诗字的所述声调向量进行声调标注处理,得到各所述单独诗字的声调信息,同时对各所述单独诗字的所述词性向量进行序列标注处理,得到所述单独诗字的序列标注信息。
可理解地,所述BERT算法为通过联合调节所有层中的双向Transformer来训练的算法,对各所述单独诗字的所述声调向量进行声调标注处理,得到各所述单独诗字的声调信息,所述声调标注处理就是对一个诗字的“平厄”声调编序列,即给每个诗字打上预设的声调标签集合中的其中一个标签,同时对各所述单独诗字的所述词性向量进行序列标注处理,得到所述单独诗字的序列标注信息,所述序列标注处理就对一个诗字的词性编序列,即给每个诗字打上预设的词性标签集合中的其中一个标签。
S204,将所述单独诗字的所述诗字位置、所述声调信息和所述序列标注信息确定为所述单独诗字的诗字序列信息,将所有所述诗字序列信息确定为诗句序列信息。
可理解地,将所述单独诗字的所述诗字位置、所述声调信息和所述序列标注信息标记为所述单独诗字的诗字序列,将所有所述诗字序列标记为所述诗句序列信息,即所述诗字序列信息包括所述诗字位置、所述声调信息和所述序列标注信息,所述诗句序列信息包含多个所述诗字序列。
本发明通过拆分出多个单独诗字及其诗字位置;自古文字典中获取与各所述单独诗字对应的声调向量和词性向量;通过BERT算法,对各单独诗字进行声调标注和序列标注处理,最终得到诗句序列信息中的诗字序列信息,如此,通过BERT算法和古文字典,将声调向量和词性向量结合融入诗字序列中,以及增加诗字位置的维度,通过三个维度标注各单独诗字,提高了诗句信息的诗句序列信息,为后续识别提高了准确性和可靠性。
S30,通过所述古诗关键词提取模型中的诗句类型识别模型识别出与所述诗句信息匹配的诗句类型。
可理解地,所述诗句类型识别模型可以根据需求进行设定,比如所述诗句类型识别模型可以为通过大量的多种诗句类型的古诗进行训练并训练完成的浅层神经网络模型,通过所述诗句类型识别模型提取所述诗句信息中诗句类型特征,得到所述诗句类型识别模型根据提取的所述诗句类型特征识别出诗句类型,所述诗句类型特征为古诗类型(即包括四言、五言、七言和杂言等)的特征,所述诗句类型识别模型还可以为统计所述诗句信息字数的模型,通过所述诗句类型识别模型计算所述诗句信息中的字数,根据统计的字数确定所述诗句信息匹配的诗句类型,等等,如此,通过所述诗句类型识别模型能够识别出所述诗句信息匹配的所述诗句类型,所述诗句类型包括四言诗句、五言诗句、七言诗句和杂言诗句。
在一实施例中,如图4所示,所述步骤S30中,即所述通过所述古诗关键词提取模型中的诗句类型识别模型识别出与所述诗句信息匹配的诗句类型,包括:
S301,通过所述诗句类型模型识别出所述诗句信息的文字个数。
可理解地,通过诗句类型模型统计出所述诗句信息中含有文字的个数,得到所述文字个数。
S302,根据所述文字个数确定与所述诗句信息匹配的诗句类型。
可理解地,根据所述文字个数,查询到与所述文字个数匹配的诗句类型,将查询到的诗句类型确定为与所述诗句信息匹配的诗句类型。
其中,所述诗句类型包括四言诗句、五言诗句、七言诗句和杂言诗句。
本发明实现了通过识别诗句信息中的文字个数确定出所述诗句信息匹配的诗句类型,提供了一种获得诗句类型的方法。
S40,将所述诗句序列信息输入所述古诗关键词提取模型中与所述诗句类型对应的基于CRF的类型约束模型,通过与所述诗句类型对应的所述类型约束模型对各所述诗字序列信息进行打标及约束预测处理,得到关键词结果;其中,一个所述诗句类型对应一个所述类型约束模型。
可理解地,根据所述诗句类型确定与所述诗句类型对应的类型约束模型,其中,一个所述诗句类型对应一个所述类型约束模型,所述类型约束模型为基于CRF算法和与所述诗句类型匹配的诗句样本进行训练的模型,如此,所述类型约束模型更具针对性,提取的准确率更高,将所述诗句序列信息输入至与所述诗句类型对应的基于CRF的类型约束模型,所述打标处理为通过BIO序列标注模式对所述诗句序列信息进行标注B、I、O的方法,所述约束预测处理为根据与所述诗句类型对应的诗词格律的约束要求对应的特征(即全文中的词意特征)进行预测的处理,所述约束要求包括各单独诗字之间的声调向量关系等,所述关键词结果包含有多个关键词,以及与各关键词对应的预测概率,所述CRF算法为条件随机场算法,英文全称为conditional random field algorithm,所述条件随机场是一个典型的判别式模型,在所述CRF算法中增加声调向量、词性向量和诗字位置的约束条件,优化预测准确率和效率。
在一实施例中,如图5所示,所述步骤S40之前,即所述将所述诗句序列信息输入所述古诗关键词提取模型中与所述诗句类型对应的基于CRF的类型约束模型之前,包括:
S401,获取与所述诗句类型对应的诗句类型样本集,所述诗句类型样本集包括诗句类型样本,所述诗句类型样本包括诗句样本文本信息、诗句样本词性信息和诗句样本声调信息,一个所述诗句类型样本与一组声调词标签关联。
可理解地,所述诗句类型样本集与所述诗句类型一一对应,所述诗句类型样本集包括诗句类型样本,例如:如果诗句类型为五言诗句,则诗句类型样本集为五言诗句样本集,诗句类型样本集中的诗句类型样本都为五言的诗句,每个诗句类型样本包含有所述样本文本信息、所述诗句样本词性信息和所述诗句样本声调信息,例如:诗句类型样本为“举头望明月”包含有样本文本信息“举1-头2-望3-明4-月5”、诗句样本词性信息“举动词向量值-头名词向量值-望动词向量值-明形容词向量值-月名词向量值”和诗句样本声调信息“举仄向量值-头平向量值-望仄向量值-明平向量值-月仄向量值”,
其中,一个所述诗句类型样本与一组声调词标签关联,所述声调词标签包含至少一个词语,所述声调词标签为对所述诗句类型样本中识别出的关键词,例如:所述诗句类型样本为“举头望明月”的声调词标签为“明月”。
S402,将所述诗句类型样本输入含有初始约束参数的卷积神经网络模型。
可理解地,所述卷积神经网络模型的所述初始约束参数可以根据需求设定,比如初始约束参数可以通过迁移学习方法获取其他与古诗识别的相关模型的所有参数,也可以全部设置为预设的一个数值。
S403,对所述诗句样本文本信息进行连续两个字的位置进行提取,得到第一约束数组,同时对所述诗句样本词性信息进行连续两个字的词性进行提取,得到第二约束数组,以及对所述诗句样本声调信息进行连续两个字的声调进行提取,得到第三约束数组。
可理解地,对所述诗句样本文本信息进行连续两个字的位置进行提取,得到第一约束数组,所述第一约束数组可以根据需求进行设定的矩阵数组,例如:如果样本文本信息为“举1-头2-望3-明4-月5”,得到的第一约束数组为一个一维矩阵数组,即{举1头2,头2望3,望3明4,明4月5},对所述诗句样本词性信息进行连续两个字的词性进行提取,得到第二约束数组,所述第二约束数组可以根据需求进行设定的矩阵数组,作为优选,所述第二约束数组与所述第一约束数组的维度一样,例如:如果诗句样本词性信息为“举动词向量值-头名词向量值-望动词向量值-明形容词向量值-月名词向量值”,得到的第二约束数组为{举动词向量值头名词向量值,头名词向量值望动词向量值,望动词向量值明形容词向量值,明形容词向量值月名词向量值},对所述诗句样本声调信息进行连续两个字的声调进行提取,得到第三约束数组,所述第三约束数组可以根据需求进行设定的矩阵数组,作为优选,所述第三约束数组与所述第一约束数组的维度一样,例如:如果诗句样本声调信息未“举仄向量值-头平向量值-望仄向量值-明平向量值-月仄向量值”,得到第三约束数组为{举仄向量值头平向量值,头平向量值望仄向量值,望仄向量值明平向量值,明平向量值月仄向量值}。
S404,将所述第一约束数组、所述第二约束数组和所述第三约束数组进行拼接,得到最终约束数组。
可理解地,将所述第一约束数组、所述第二约束数组和所述第三约束数组进行拼接,生成多维度的矩阵数组,即得到所述最终约束数组。
S405,通过CRF算法,对所述最终约束数组进行词意特征判别,得到一组词样本结果。
可理解地,所述CRF算法为条件随机场算法,英文全称为conditional randomfield algorithm,所述条件随机场是一个典型的判别式模型,在所述CRF算法中增加声调向量、词性向量和诗字位置的约束条件,所述词意特征为符合优化声调向量、词性向量和诗字位置的约束条件的特征,提取所述最终约束数组中的元素的所述词意特征,通过CRF算法对该词意特征进行判别,输出判别后的所述一组词样本结果。
S406,根据所述词样本结果和所述声调词标签确定约束损失值。
可理解地,通过所述类型约束模型中的约束损失函数,计算出所述词样本结果和所述声调词标签之间的差异取对数得到所述约束损失值,所述约束损失值表明了所述词样本结果和所述声调词标签之间的差距。
S407,在所述约束损失值未达到预设的约束收敛条件时,迭代更新所述卷积神经网络模型的初始约束参数,直至所述约束损失值达到所述预设的约束收敛条件时,将收敛之后的所述卷积神经网络模型记录为与所述诗句类型对应的类型约束模型。
可理解地,所述收敛条件可以为所述约束损失值经过了20000次计算后值为很小且不会再下降的条件,即在所述约束损失值经过20000次计算后值为很小且不会再下降时,停止训练,将收敛之后的所述卷积神经网络模型记录为与所述诗句类型对应的类型约束模型,所述收敛条件也可以为所述约束损失值小于或等于设定阈值的条件,即在所述约束损失值大于设定阈值时,迭代更新所述卷积神经网络模型的初始约束参数,直至所述约束损失值小于或等于设定阈值时,将收敛之后的所述卷积神经网络模型记录为与所述诗句类型对应的类型约束模型。
如此,在所述约束损失值未达到预设的收敛条件时,不断更新迭代所述卷积神经网络模型的初始约束参数,可以不断向准确的提取结果靠拢,让提取结果的准确率越来越高。
在一实施例中,所述步骤S406之后,即所述根据所述词样本结果和所述声调词标签确定约束损失值之后,还包括:
S408,在所述约束损失值达到预设的约束收敛条件时,将收敛之后的所述卷积神经网络模型记录为与所述诗句类型对应的类型约束模型。
可理解地,通过迁移学习方法获得所述初始约束参数,在得到所述约束损失值达到预设的约束收敛条件时,即在所述约束损失值小于或等于设定阈值时,将收敛之后的所述卷积神经网络模型记录为与所述诗句类型对应的类型约束模型。本发明通过获取与所述诗句类型对应的诗句类型样本集,所述诗句类型样本集包括诗句类型样本,所述诗句类型样本包括诗句样本文本信息、诗句样本词性信息和诗句样本声调信息,一个所述诗句类型样本与一组声调词标签关联;将所述诗句类型样本输入含有初始约束参数的卷积神经网络模型;对所述诗句样本文本信息进行连续两个字的位置进行提取,得到第一约束数组,同时对所述诗句样本词性信息进行连续两个字的词性进行提取,得到第二约束数组,以及对所述诗句样本声调信息进行连续两个字的声调进行提取,得到第三约束数组;将所述第一约束数组、所述第二约束数组和所述第三约束数组进行拼接,得到最终约束数组;通过CRF算法,对所述最终约束数组进行词意特征判别,得到一组词样本结果;根据所述词样本结果和所述声调词标签确定约束损失值;在所述约束损失值未达到预设的约束收敛条件时,迭代更新所述卷积神经网络模型的初始约束参数,直至所述约束损失值达到所述预设的约束收敛条件时,将收敛之后的所述卷积神经网络模型记录为与所述诗句类型对应的类型约束模型。
本发明实现了通过获取与所述诗句类型对应的诗句类型样本集,所述诗句类型样本集包括诗句类型样本,所述诗句类型样本包括诗句样本文本信息、诗句样本词性信息和诗句样本声调信息,一个所述诗句类型样本与一组声调词标签关联;将所述诗句类型样本输入含有初始约束参数的卷积神经网络模型;通过所述卷积神经网络模型得到第一约束数组、第二约束数组和第三约束数组,将第一约束数组、第二约束数组和第三约束数组进行拼接得到最终约束数组;通过CRF算法,对所述最终约束数组进行词意特征判别,得到一组词样本结果;根据所述词样本结果和所述声调词标签确定约束损失值;根据约束损失值不断训练所述卷积神经网络模型直至收敛,将收敛之后的所述卷积神经网络模型记录为与所述诗句类型对应的类型约束模型,如此,自动选择与诗句类型样本对应的诗句类型样本集进行训练得到的与诗句类型样本对应的类型约束模型,更具针对性,提高了识别的准确率和可靠性。
S50,获取所述古诗关键词提取模型根据所述关键词结果输出的最终关键词,将所述最终关键词确定为所述诗句信息的古诗关键词。
可理解地,根据各关键词对应的预测概率确定出所述最终关键词,即若其中一个关键词的预测概率大于或等于预设阈值,则将该关键词确定为最终关键词,若其中一个关键词的预测概率小于预设阈值,则将该关键词去除,不列为最终关键词,如此,将确认后的最终关键词确定为所述诗句信息的所述古诗关键词,所述古诗关键词表征了所述诗句信息需要被提取的且能体现诗意的关键词。
本发明通过接收到诗句提取指令,获取所述诗句提取指令中的诗句信息;将所述诗句信息输入古诗关键词提取模型中基于BERT和古文字典的诗句标注模型中,通过所述诗句标注模型对所述诗句信息进行拆分及标注处理,得到诗句序列信息;通过所述古诗关键词提取模型中的诗句类型识别模型识别出与所述诗句信息匹配的诗句类型;将所述诗句序列信息输入所述古诗关键词提取模型中与所述诗句类型对应的基于CRF的类型约束模型,通过与所述诗句类型对应的所述类型约束模型对各所述诗字序列信息进行打标及约束预测处理,得到关键词结果;获取所述古诗关键词提取模型根据所述关键词结果输出的最终关键词,将所述最终关键词确定为所述诗句信息的古诗关键词。
本发明实现了获取所述诗句提取指令中的诗句信息;将所述诗句信息输入古诗关键词提取模型中基于BERT和古文字典的诗句标注模型中,通过所述诗句标注模型对所述诗句信息进行拆分及标注处理,得到诗句序列信息;通过所述诗句类型识别模型识别出诗句类型;将所述诗句序列信息输入所述古诗关键词提取模型中与所述诗句类型对应的基于CRF的类型约束模型,通过对各所述诗字序列信息之间进行打标及约束预测处理,得到关键词结果;根据所述关键词结果,确定古诗关键词,如此,实现了通过基于BERT和古文字典的诗句标注模型及与所述诗句类型对应的基于CRF的类型约束模型,自动提取诗句信息中的体现诗意的古诗关键词,增强诗句信息中的诗意,达到对诗句信息进行文本增强的效果,为后续的训练诗句生成模型提高了生成准确率,以及减少了训练召回率,提高了模型效率。
本发明提供的诗句生成方法,可应用在如图1的应用环境中,其中,客户端(计算机设备)通过网络与服务器进行通信。其中,客户端(计算机设备)包括但不限于为各种个人计算机、笔记本电脑、智能手机、平板电脑、摄像头和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一实施例中,如图6示,提供一种诗句生成方法,其技术方案主要包括以下步骤S100-S300:
S100,接收到生成指令,获取所述生成指令中的文本信息。
可理解地,用户在应用程序界面中输入文本信息之后,触发所述生成指令,输入文本信息的方法可以根据用户需求设定,比如用户直接输入文本信息中的文字,或者通过录音用户说出的文本信息的内容自动转换成文字等等,所述生成指令中包含有所述文本信息,所述文本信息为用户需要将其生成诗句的文字内容。
S200,通过IF-IDF算法,提取出所述文本信息中的文本关键词。
可理解地,所述IF-IDF算法也称为(term frequency–inverse documentfrequency,词频-逆向文件频率),指一种用于信息检索(information retrieval)与文本挖掘(text mining)的加权技术,所述IF-IDF算法用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度,对所述文本信息进行提取,得到文本关键词。
S300,将所述文本关键词输入通过关键词样本进行训练获得的诗句生成模型,得到诗句生成结果;所述诗句生成结果确定为根据所述文本信息生成的诗句;所述关键词样本为通过上述古诗关键词提取方法对所述关键词样本关联的诗句标签进行处理获得。
可理解地,将所述诗句生成模型为通过输入关键词样本进行训练收敛获得的神经网络模型,所述关键词样本与一个诗句标签关联,所述诗句标签为一句古诗的诗句,所述关键词样本为通过上述古诗关键词提取方法对所述关键词样本关联的所述诗句标签进行处理获得,例如:“明月”、“秋天”、“醉意”等等,将所述文本关键词输入所述诗句生成模型中,通过所述诗句生成模型对所述文本关键词进行编码及解码,得到诗句生成结果,所述编码及解码的过程为通过Bi-LSTM算法进行捕捉双方向的词意生成含有该词意的诗句,所述诗句生成结果表明了生成了含有文本信息中的词意且最匹配的诗句。
本发明通过IF-IDF算法,提取出输入的文本信息中的文本关键词,再通过关键词样本进行训练获得的诗句生成模型自动生成诗句,而关键词样本为通过上述古诗关键词提取方法对所述关键词样本关联的所述诗句标签进行处理获得,如此,实现了提取文本信息中的文本关键词,自动根据文本关键词生成符合诗意的诗句,提高了用户的满意度和体验度。
在一实施例中,所述步骤S300之前,即所述将所述文本关键词输入通过关键词样本进行训练获得的诗句生成模型之前,包括:
S3001,获取诗句样本。
可理解地,所述诗句样本为历史收集的古诗或者现代创作的诗句。
S3002,通过上述古诗关键词提取方法对所述诗句样本进行提取处理,得到所述诗句样本中的古诗关键词。
可理解地,通过上述古诗关键词提取方法对所述诗句样本提取出所述古诗关键词,所述古诗关键词为至少一个的关键词,所述关键词为通过上述古诗关键词提取方法进行提取获得,所述关键词能够体现所述诗句样本的诗意的词。
S3003,将所述古诗关键词中的各关键词确定为所述关键词样本,将所述诗句样本确定为与所述关键词样本关联的所述诗句标签。
可理解地,将所述古诗关键词中的各关键词标记为所述关键词样本,将所述诗句样本标记为与所述关键词样本关联的所述诗句标签。
本发明通过古诗关键词提取方法对诗句样本进行古诗关键词提取,得到关键词样本,并与诗句样本关联,如此,通过诗句样本提取具有文本增强的关键词样本,提高了准确率。
在一实施例中,所述步骤S3003之后,即将所述古诗关键词中的各关键词确定为所述关键词样本,将所述诗句样本确定为与所述关键词样本关联的所述诗句标签之后,包括:
S30031,获取关键词样本集;所述关键词样本集包含多个不同的关键词样本,所述关键词样本与一个诗句标签关联。
可理解地,所述关键词样本集为所述关键词样本的集合。
S30032,将所述关键词样本输入含有初始参数的基于Bi-LSTM模型的诗句生成模型。
可理解地,所述Bi-LSTM模型包括前向LSTM模型和后向LSTM模型,通过双方向的LSTM模型捕捉双方向的词意。
S30033,通过所述诗句生成模型对所述关键词样本进行编码及解码,生成诗句结果。
S30034,将所述诗句结果和所述诗句标签输入所述诗句生成模型中的损失模型,通过所述损失模型得出损失值。
S30035,在所述损失值未达到预设的收敛条件时,迭代更新所述诗句生成模型的初始参数,直至所述损失值达到所述预设的收敛条件时,将收敛之后的所述诗句生成模型记录训练完成的诗句生成模型。
本发明实现了通过文本增强的诗句标签提取的关键词作为关键词样本,输入基于Bi-LSTM模型的诗句生成模型,通过Bi-LSTM算法进行编码和解码处理,得到诗句结果,根据诗句结果和诗句标签得到的损失值进行训练至收敛,将收敛之后的诗句生成模型记录为训练完成的诗句生成模型,如此,实现了通过文本增强的诗句提取的关键词进行训练,提高了模型的生成准确率和降低了召回率。
在一实施例中,提供一种古诗关键词提取装置,该古诗关键词提取装置与上述实施例中古诗关键词提取方法一一对应。如图7所示,该古诗关键词提取装置包括接收模块11、拆分模块12、匹配模块13、预测模块14和输出模块15。各功能模块详细说明如下:
接收模块11,用于接收到诗句提取指令,获取所述诗句提取指令中的诗句信息;
拆分模块12,用于将所述诗句信息输入古诗关键词提取模型中基于BERT和古文字典的诗句标注模型中,通过所述诗句标注模型对所述诗句信息进行拆分及标注处理,得到诗句序列信息;所述诗句序列信息包括多个诗字序列信息;
匹配模块13,用于通过所述古诗关键词提取模型中的诗句类型识别模型识别出与所述诗句信息匹配的诗句类型;
预测模块14,用于将所述诗句序列信息输入所述古诗关键词提取模型中与所述诗句类型对应的基于CRF的类型约束模型,通过与所述诗句类型对应的所述类型约束模型对各所述诗字序列信息进行打标及约束预测处理,得到关键词结果;其中,一个所述诗句类型对应一个所述类型约束模型;
输出模块15,用于获取所述古诗关键词提取模型根据所述关键词结果输出的最终关键词,将所述最终关键词确定为所述诗句信息的古诗关键词。
在一实施例中,所述拆分模块12包括:
拆分单元,用于通过所述诗句标注模型对所述诗句信息进行拆分,得到多个单独诗字及与其对应的诗字位置;
获取单元,用于自所述诗句标注模型中的古文字典中查询各所述单独诗字,获取与各所述单独诗字对应的声调向量和词性向量;
标注单元,用于通过BERT算法,对各所述单独诗字的所述声调向量进行声调标注处理,得到各所述单独诗字的声调信息,同时对各所述单独诗字的所述词性向量进行序列标注处理,得到所述单独诗字的序列标注信息;
确定单元,用于将所述单独诗字的所述诗字位置、所述声调信息和所述序列标注信息确定为所述单独诗字的诗字序列信息,将所有所述诗字序列信息确定为诗句序列信息。
在一实施例中,所述匹配模块13包括:
识别单元,用于通过所述诗句类型模型识别出所述诗句信息的文字个数;
匹配单元,用于根据所述文字个数确定与所述诗句信息匹配的诗句类型。
在一实施例中,所述预测模块14包括:
训练获取单元,用于获取与所述诗句类型对应的诗句类型样本集,所述诗句类型样本集包括诗句类型样本,所述诗句类型样本包括诗句样本文本信息、诗句样本词性信息和诗句样本声调信息,一个所述诗句类型样本与一组声调词标签关联;
训练输入单元,用于将所述诗句类型样本输入含有初始约束参数的卷积神经网络模型;
训练提取单元,用于对所述诗句样本文本信息进行连续两个字的位置进行提取,得到第一约束数组,同时对所述诗句样本词性信息进行连续两个字的词性进行提取,得到第二约束数组,以及对所述诗句样本声调信息进行连续两个字的声调进行提取,得到第三约束数组;
训练拼接单元,用于将所述第一约束数组、所述第二约束数组和所述第三约束数组进行拼接,得到最终约束数组;
训练判别单元,用于通过CRF算法,对所述最终约束数组进行词意特征判别,得到一组词样本结果;
训练损失单元,用于根据所述词样本结果和所述声调词标签确定约束损失值;
训练收敛单元,用于在所述约束损失值未达到预设的约束收敛条件时,迭代更新所述卷积神经网络模型的初始约束参数,直至所述约束损失值达到所述预设的约束收敛条件时,将收敛之后的所述卷积神经网络模型记录为与所述诗句类型对应的类型约束模型。
关于古诗关键词提取装置的具体限定可以参见上文中对于古诗关键词提取方法的限定,在此不再赘述。上述古诗关键词提取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一实施例中,提供一种诗句生成装置,该诗句生成装置与上述实施例中诗句生成方法一一对应。如图8所示,该诗句生成装置包括获取模块101、提取模块102和生成模块103。各功能模块详细说明如下:
获取模块101,用于接收到生成指令,获取所述生成指令中的文本信息;
提取模块102,用于通过IF-IDF算法,提取出所述文本信息中的文本关键词;
生成模块103,用于将所述文本关键词输入通过关键词样本进行训练获得的诗句生成模型,得到诗句生成结果;所述诗句生成结果确定为根据所述文本信息生成的诗句;所述关键词样本为通过上述古诗关键词提取方法对所述关键词样本关联的所述诗句标签进行处理获得。
在一实施例中,所述生成模块103包括:
样本获取单元,用于获取诗句样本;
样本提取单元,用于通过上述古诗关键词提取方法对所述诗句样本进行提取处理,得到所述诗句样本中的古诗关键词;
样本确定单元,用于将所述古诗关键词中的各关键词确定为所述关键词样本,将所述诗句样本确定为与所述关键词样本关联的诗句标签。
关于诗句生成装置的具体限定可以参见上文中对于诗句生成方法的限定,在此不再赘述。上述诗句生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种古诗关键词提取方法,或者诗句生成方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中古诗关键词提取方法,或者处理器执行计算机程序时实现上述实施例中诗句生成方法。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中古诗关键词提取方法,或者计算机程序被处理器执行时实现上述实施例中诗句生成方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (8)

1.一种古诗关键词提取方法,其特征在于,包括:
接收到诗句提取指令,获取所述诗句提取指令中的诗句信息;
将所述诗句信息输入古诗关键词提取模型中基于BERT和古文字典的诗句标注模型中,通过所述诗句标注模型对所述诗句信息进行拆分及标注处理,得到诗句序列信息;所述诗句序列信息包括多个诗字序列信息;
通过所述古诗关键词提取模型中的诗句类型识别模型识别出与所述诗句信息匹配的诗句类型;
将所述诗句序列信息输入所述古诗关键词提取模型中与所述诗句类型对应的基于CRF的类型约束模型,通过与所述诗句类型对应的所述类型约束模型对各所述诗字序列信息进行打标及约束预测处理,得到关键词结果;其中,一个所述诗句类型对应一个所述类型约束模型;
获取所述古诗关键词提取模型根据所述关键词结果输出的最终关键词,将所述最终关键词确定为所述诗句信息的古诗关键词;
所述通过所述诗句标注模型对所述诗句信息进行拆分及标注处理,得到诗句序列信息,包括:
通过所述诗句标注模型对所述诗句信息进行拆分,得到多个单独诗字及与其对应的诗字位置;
自所述诗句标注模型中的古文字典中查询各所述单独诗字,获取与各所述单独诗字对应的声调向量和词性向量;
通过BERT算法,对各所述单独诗字的所述声调向量进行声调标注处理,得到各所述单独诗字的声调信息,同时对各所述单独诗字的所述词性向量进行序列标注处理,得到所述单独诗字的序列标注信息;
将所述单独诗字的所述诗字位置、所述声调信息和所述序列标注信息确定为所述单独诗字的诗字序列信息,将所有所述诗字序列信息确定为诗句序列信息;
所述将所述诗句序列信息输入所述古诗关键词提取模型中与所述诗句类型对应的基于CRF的类型约束模型之前,包括:
获取与所述诗句类型对应的诗句类型样本集,所述诗句类型样本集包括诗句类型样本,所述诗句类型样本包括诗句样本文本信息、诗句样本词性信息和诗句样本声调信息,一个所述诗句类型样本与一组声调词标签关联;
将所述诗句类型样本输入含有初始约束参数的卷积神经网络模型;
对所述诗句样本文本信息进行连续两个字的位置进行提取,得到第一约束数组,同时对所述诗句样本词性信息进行连续两个字的词性进行提取,得到第二约束数组,以及对所述诗句样本声调信息进行连续两个字的声调进行提取,得到第三约束数组;
将所述第一约束数组、所述第二约束数组和所述第三约束数组进行拼接,得到最终约束数组;
通过CRF算法,对所述最终约束数组进行词意特征判别,得到一组词样本结果;
根据所述词样本结果和所述声调词标签确定约束损失值;
在所述约束损失值未达到预设的约束收敛条件时,迭代更新所述卷积神经网络模型的初始约束参数,直至所述约束损失值达到所述预设的约束收敛条件时,将收敛之后的所述卷积神经网络模型记录为与所述诗句类型对应的类型约束模型。
2.如权利要求1所述的古诗关键词提取方法,其特征在于,所述通过所述古诗关键词提取模型中的诗句类型识别模型识别出与所述诗句信息匹配的诗句类型,包括:
通过所述诗句类型识别模型识别出所述诗句信息的文字个数;
根据所述文字个数确定与所述诗句信息匹配的诗句类型。
3.一种诗句生成方法,其特征在于,包括:
接收到生成指令,获取所述生成指令中的文本信息;
通过IF-IDF算法,提取出所述文本信息中的文本关键词;
将所述文本关键词输入通过关键词样本进行训练获得的诗句生成模型,得到诗句生成结果;所述诗句生成结果确定为根据所述文本信息生成的诗句;所述关键词样本为通过如权利要求1至2任一项所述古诗关键词提取方法对所述关键词样本关联的诗句标签进行处理获得。
4.如权利要求3所述的诗句生成方法,其特征在于,所述将所述文本关键词输入通过关键词样本进行训练获得的诗句生成模型之前,包括:
获取诗句样本;
通过如权利要求1至2任一项所述古诗关键词提取方法对所述诗句样本进行提取处理,得到所述诗句样本中的古诗关键词;
将所述古诗关键词中的各关键词确定为所述关键词样本,将所述诗句样本确定为与所述关键词样本关联的诗句标签。
5.一种古诗关键词提取装置,其特征在于,包括:
接收模块,用于接收到诗句提取指令,获取所述诗句提取指令中的诗句信息;
拆分模块,用于将所述诗句信息输入古诗关键词提取模型中基于BERT和古文字典的诗句标注模型中,通过所述诗句标注模型对所述诗句信息进行拆分及标注处理,得到诗句序列信息;所述诗句序列信息包括多个诗字序列信息;
匹配模块,用于通过所述古诗关键词提取模型中的诗句类型识别模型识别出与所述诗句信息匹配的诗句类型;
预测模块,用于将所述诗句序列信息输入所述古诗关键词提取模型中与所述诗句类型对应的基于CRF的类型约束模型,通过与所述诗句类型对应的所述类型约束模型对各所述诗字序列信息进行打标及约束预测处理,得到关键词结果;其中,一个所述诗句类型对应一个所述类型约束模型;
输出模块,用于获取所述古诗关键词提取模型根据所述关键词结果输出的最终关键词,将所述最终关键词确定为所述诗句信息的古诗关键词;
所述拆分模块包括:
拆分单元,用于通过所述诗句标注模型对所述诗句信息进行拆分,得到多个单独诗字及与其对应的诗字位置;
获取单元,用于自所述诗句标注模型中的古文字典中查询各所述单独诗字,获取与各所述单独诗字对应的声调向量和词性向量;
标注单元,用于通过BERT算法,对各所述单独诗字的所述声调向量进行声调标注处理,得到各所述单独诗字的声调信息,同时对各所述单独诗字的所述词性向量进行序列标注处理,得到所述单独诗字的序列标注信息;
确定单元,用于将所述单独诗字的所述诗字位置、所述声调信息和所述序列标注信息确定为所述单独诗字的诗字序列信息,将所有所述诗字序列信息确定为诗句序列信息;
所述预测模块包括:
训练获取单元,用于获取与所述诗句类型对应的诗句类型样本集,所述诗句类型样本集包括诗句类型样本,所述诗句类型样本包括诗句样本文本信息、诗句样本词性信息和诗句样本声调信息,一个所述诗句类型样本与一组声调词标签关联;
训练输入单元,用于将所述诗句类型样本输入含有初始约束参数的卷积神经网络模型;
训练提取单元,用于对所述诗句样本文本信息进行连续两个字的位置进行提取,得到第一约束数组,同时对所述诗句样本词性信息进行连续两个字的词性进行提取,得到第二约束数组,以及对所述诗句样本声调信息进行连续两个字的声调进行提取,得到第三约束数组;
训练拼接单元,用于将所述第一约束数组、所述第二约束数组和所述第三约束数组进行拼接,得到最终约束数组;
训练判别单元,用于通过CRF算法,对所述最终约束数组进行词意特征判别,得到一组词样本结果;
训练损失单元,用于根据所述词样本结果和所述声调词标签确定约束损失值;
训练收敛单元,用于在所述约束损失值未达到预设的约束收敛条件时,迭代更新所述卷积神经网络模型的初始约束参数,直至所述约束损失值达到所述预设的约束收敛条件时,将收敛之后的所述卷积神经网络模型记录为与所述诗句类型对应的类型约束模型。
6.一种诗句生成装置,其特征在于,包括:
获取模块,用于接收到生成指令,获取所述生成指令中的文本信息;
提取模块,用于通过IF-IDF算法,提取出所述文本信息中的文本关键词;
生成模块,用于将所述文本关键词输入通过关键词样本进行训练获得的诗句生成模型,得到诗句生成结果;所述诗句生成结果确定为根据所述文本信息生成的诗句;所述关键词样本为通过如权利要求1至2任一项所述古诗关键词提取方法对所述关键词样本关联的诗句标签进行处理获得。
7.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至2任一项所述古诗关键词提取方法,或者所述处理器执行所述计算机程序时实现如权利要求3至4任一项所述诗句生成方法。
8.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至2任一项所述古诗关键词提取方法,或者所述处理器执行所述计算机程序时实现如权利要求3至4任一项所述诗句生成方法。
CN202010738707.8A 2020-07-28 2020-07-28 古诗关键词提取、诗句生成方法、装置、设备及介质 Active CN111859916B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010738707.8A CN111859916B (zh) 2020-07-28 2020-07-28 古诗关键词提取、诗句生成方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010738707.8A CN111859916B (zh) 2020-07-28 2020-07-28 古诗关键词提取、诗句生成方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN111859916A CN111859916A (zh) 2020-10-30
CN111859916B true CN111859916B (zh) 2023-07-21

Family

ID=72948107

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010738707.8A Active CN111859916B (zh) 2020-07-28 2020-07-28 古诗关键词提取、诗句生成方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN111859916B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112784599B (zh) * 2020-12-23 2024-05-10 北京百度网讯科技有限公司 诗句的生成方法、装置、电子设备和存储介质
CN113268740B (zh) * 2021-05-27 2022-08-16 四川大学 一种网站系统的输入约束完备性检测方法
CN113268953A (zh) * 2021-07-15 2021-08-17 中国平安人寿保险股份有限公司 文本重点词抽取方法、装置、计算机设备及存储介质
CN115422934B (zh) * 2022-07-08 2023-06-16 中国科学院空间应用工程与技术中心 一种航天文本数据的实体识别与链接方法、系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104978356A (zh) * 2014-04-10 2015-10-14 阿里巴巴集团控股有限公司 一种同义词的识别方法及装置
CN108415893A (zh) * 2018-03-15 2018-08-17 平安科技(深圳)有限公司 诗歌自动生成方法、装置、计算机设备及存储介质
CN110852110A (zh) * 2018-07-25 2020-02-28 富士通株式会社 目标语句提取方法、问题生成方法以及信息处理设备
CN110909549A (zh) * 2019-10-11 2020-03-24 北京师范大学 对古汉语进行断句的方法、装置以及存储介质
CN111191452A (zh) * 2019-12-24 2020-05-22 中国铁道科学研究院集团有限公司电子计算技术研究所 一种铁路文本命名实体识别方法及装置
CN111368514A (zh) * 2019-12-10 2020-07-03 爱驰汽车有限公司 模型训练及古诗生成方法、古诗生成模型、设备和介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104978356A (zh) * 2014-04-10 2015-10-14 阿里巴巴集团控股有限公司 一种同义词的识别方法及装置
CN108415893A (zh) * 2018-03-15 2018-08-17 平安科技(深圳)有限公司 诗歌自动生成方法、装置、计算机设备及存储介质
CN110852110A (zh) * 2018-07-25 2020-02-28 富士通株式会社 目标语句提取方法、问题生成方法以及信息处理设备
CN110909549A (zh) * 2019-10-11 2020-03-24 北京师范大学 对古汉语进行断句的方法、装置以及存储介质
CN111368514A (zh) * 2019-12-10 2020-07-03 爱驰汽车有限公司 模型训练及古诗生成方法、古诗生成模型、设备和介质
CN111191452A (zh) * 2019-12-24 2020-05-22 中国铁道科学研究院集团有限公司电子计算技术研究所 一种铁路文本命名实体识别方法及装置

Also Published As

Publication number Publication date
CN111859916A (zh) 2020-10-30

Similar Documents

Publication Publication Date Title
CN110598206B (zh) 文本语义识别方法、装置、计算机设备和存储介质
CN111859916B (zh) 古诗关键词提取、诗句生成方法、装置、设备及介质
CN110765763B (zh) 语音识别文本的纠错方法、装置、计算机设备和存储介质
CN111581229B (zh) Sql语句的生成方法、装置、计算机设备及存储介质
CN110444198B (zh) 检索方法、装置、计算机设备和存储介质
CN109829629B (zh) 风险分析报告的生成方法、装置、计算机设备和存储介质
CN110569500A (zh) 文本语义识别方法、装置、计算机设备和存储介质
CN111553164A (zh) 命名实体识别模型的训练方法、装置、计算机设备
CN112766319A (zh) 对话意图识别模型训练方法、装置、计算机设备及介质
CN110362798B (zh) 裁决信息检索分析方法、装置、计算机设备和存储介质
CN112820367B (zh) 病历信息校验方法、装置、计算机设备及存储介质
CN112699923A (zh) 文档分类预测方法、装置、计算机设备及存储介质
CN115495553A (zh) 查询文本排序方法、装置、计算机设备及存储介质
CN114139551A (zh) 意图识别模型的训练方法及装置、意图识别的方法及装置
CN111898339B (zh) 基于约束解码的古诗生成方法、装置、设备及介质
CN111400340B (zh) 一种自然语言处理方法、装置、计算机设备和存储介质
CN113688215A (zh) 信息抽取、模型训练方法、装置、计算机设备和存储介质
CN117093682A (zh) 意图识别方法、装置、计算机设备及存储介质
CN112256863A (zh) 一种确定语料意图的方法、装置及电子设备
CN110362592B (zh) 裁决指引信息推送方法、装置、计算机设备和存储介质
CN116186223A (zh) 一种金融文本处理方法、装置、设备和存储介质
CN115374278A (zh) 文本处理模型蒸馏方法、装置、计算机设备及介质
CN115525757A (zh) 合同摘要的生成方法和装置、合同关键信息提取模型的训练方法
CN115240676A (zh) 智能外呼方法、装置、计算机设备及存储介质
CN114638229A (zh) 笔录数据的实体识别方法、装置、介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant