CN110852093B - 诗词生成方法、装置、计算机设备及存储介质 - Google Patents

诗词生成方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN110852093B
CN110852093B CN201810833352.3A CN201810833352A CN110852093B CN 110852093 B CN110852093 B CN 110852093B CN 201810833352 A CN201810833352 A CN 201810833352A CN 110852093 B CN110852093 B CN 110852093B
Authority
CN
China
Prior art keywords
character
key
target
candidate
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810833352.3A
Other languages
English (en)
Other versions
CN110852093A (zh
Inventor
何鑫
赵丽娜
李彪
范欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201810833352.3A priority Critical patent/CN110852093B/zh
Publication of CN110852093A publication Critical patent/CN110852093A/zh
Application granted granted Critical
Publication of CN110852093B publication Critical patent/CN110852093B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种诗词生成方法、装置、计算机设备及存储介质,属于人工智能领域。所述方法包括:获取目标基调信息;根据所述目标基调信息,获取各个候选字符的字符基调权重,所述字符基调权重用于体现候选字符与所述目标基调信息的符合程度;基于所述各个候选字符的字符基调权重和自然语言模型,生成目标文本信息。本发明通过根据获取到的目标基调信息,确定各个候选字符的字符基调权重,从而在生成目标诗词的各个位置处的字符时,可以结合自然语言模型输出的概率和该字符基调权重,生成既符合自然语言逻辑又符合目标基调信息的字符,从而得到的目标诗词的基调统一,避免了基调漂移的问题,提高了生成的目标诗词的质量。

Description

诗词生成方法、装置、计算机设备及存储介质
技术领域
本发明涉及人工智能领域,特别涉及一种诗词生成方法、装置、计算机设备及存储介质。
背景技术
人工智能(Artificial Intelligence,AI),是目前研究和开发用于模拟、延伸以及扩展人类智能的一门新兴科学技术。应用AI能够使机器能够胜任一些通常需要人类智能才能完成的复杂工作。随着AI的快速发展,AI的应用领域越来越广,例如,金融贸易、医药、重工业、远程通讯、娱乐等领域。其中,通过AI自动生成文本信息也是AI的一种应用。
目前,文本信息生成方法通常是使用自然语言模型,根据一句话中已经出现的字符,预测下一个字符,以及该下一个字符出现的概率,从而将概率最大的字符作为下一个字符,多次执行之后,最终得到完整的文本信息。
在想到生成诗词或其他形式的文本信息时,或者对生成的文本信息的内容进行限制时,通常该文本信息具有统一的基调,其中,该基调是指该文本信息的风格或该文本信息想要表达的主要情感或主要思想。在上述文本信息生成过程中,下一个字符仅仅通过自然语言模型基于已经出现的字符预测得到,并没有考虑到完整的文本信息的基调,因此,生成的文本信息可能会出现基调漂移的问题,即文本信息的不同部分的基调不协调,前后文基调不统一的问题。例如,想要生成春节主体的诗词时,配置“恭喜发财”、“年年有余”等吉祥语作为诗词的藏头词,但后续生成的诗句中可能包括了如“亡”、“悲”等内容,就会发生基调混乱,基调不统一的问题,从而影响诗词的质量。
发明内容
本发明实施例提供了一种诗词生成方法、装置、计算机设备及存储介质,可以解决相关技术中文本信息的基调不统一的问题。所述技术方案如下:
一方面,提供了一种诗词生成方法,所述方法包括:
获取目标基调信息;
根据所述目标基调信息,获取各个候选字符的字符基调权重,所述字符基调权重用于体现候选字符与所述目标基调信息的符合程度;
基于所述各个候选字符的字符基调权重和自然语言模型,生成目标诗词。
一方面,提供了一种诗词生成装置,所述装置包括:
信息获取模块,用于获取目标基调信息;
权重获取模块,用于根据所述目标基调信息,获取各个候选字符的字符基调权重,所述字符基调权重用于体现候选字符与所述目标基调信息的符合程度;
文本生成模块,用于基于所述各个候选字符的字符基调权重和自然语言模型,生成目标诗词。
一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述指令由所述处理器加载并执行以实现所述诗词生成方法所执行的操作。
一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现所述诗词生成方法所执行的操作。
本发明实施例通过根据获取到的目标基调信息,确定各个候选字符的字符基调权重,从而在生成目标诗词的各个位置处的字符时,可以结合自然语言模型输出的概率和该字符基调权重,生成既符合自然语言逻辑又符合目标基调信息的字符,从而得到的目标诗词的基调统一,避免了出现基调漂移的问题,提高了生成的目标诗词的质量。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种诗词生成方法的实施环境的示意图;
图2是本发明实施例提供的一种诗词生成方法流程图;
图3是本发明实施例提供的一种Char-RNN模型的网络结构示意图;
图4是本发明实施例提供的一种自动生成诗词的Char-RNN模型的结构示意图;
图5是本发明实施例提供的一种Char-RNN模型的结构示意图;
图6是本发明实施例提供的一种Char-RNN模型和基调表的训练过程的示意图;
图7是本发明实施例提供的一种生成目标诗词的在线过程的示意图;
图8是本发明实施例提供的一种终端界面示意图;
图9是本发明实施例提供的一种诗词生成方法流程图;
图10是本发明实施例提供的一种诗词生成方法流程图;
图11是本发明实施例提供的一种诗词生成方法流程图;
图12是本发明实施例提供的一种诗词生成装置的结构示意图;
图13是本发明实施例提供的一种终端的结构框图;
图14是本发明实施例提供的一种服务器的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
RNN(Recurrent neural Network,循环神经网络):RNN是一种适用于处理序列数据的神经网络。因为RNN可以对前面的信息进行记忆并选择性地应用于当前输出的计算中,即隐藏层之间的节点不再是无连接的,而是存在连接关系,并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。这样,由于序列数据的前后数据之间其实是有关联的,使用RNN可以考虑到序列数据中的数据之间的关联性,使得得到的序列数据更符合逻辑。理论上,RNN能够对任何长度的序列数据进行处理。例如,RNN在确定一个序列数据中某一位的输出时,可以基于之前的输出,也即是基于已有的序列数据,判断接下来可能出现的数据。
Char-RNN:指代字符级循环神经网络。由于RNN非常擅长处理序列数据,对于文本信息而言,其也相当于一个序列数据,文本信息其实是由单词或汉字等字符按照顺序组成的,则RNN还可以应用于文本信息生成中,用于预测一段语言的下一个字符是什么。该Char-RNN应用于文本信息生成时,可以用于评估一句话是自然语言的概率,即根据一句话中已观测到的词,预测下一个词出现的概率,也即是可以用于根据已生成的字符,预测下一个字符出现的概率。例如,在古诗创作中,可以采用Char-RNN生成每句诗句中的各个汉字。上述模型的具体应用说明请详见下述实施例,在此不多做赘述。
图1是本发明实施例提供的一种文本信息生成方法的实施环境的示意图。如图1所示,该实施环境中可以包括终端101和服务器102。其中,该终端101和该服务器102可以基于网络进行数据交互,该终端101可以向服务器102发送网络请求,由服务器102基于网络请求,进行相应的数据处理,并将处理后的数据发送给终端101,为该终端101提供网络服务。
在本发明实施例中,终端101可以基于用户的触发操作,确定目标基调信息,并将该目标基调信息以网络请求的方式发送服务器102,而服务器102可以基于该目标基调信息,采用改进的Char-RNN模型来生成目标文本信息,并将生成的目标文本信息返回给终端101,进而由终端101将生成的目标文本信息展示给用户。
需要说明的是,该终端101可以通过该终端101所安装的客户端对该服务器102进行访问,也可以通过对门户网站对该服务器102进行访问,本发明实施例对此不作限定。
当然,在一种可能实现方式中,该终端101也可以从该服务器102中获取到安装包,并在本地安装该安装包对应的应用程序或脚本,该安装包中可以包括文本信息生成所需的配置文件,则终端101在检测到用户操作时,也可以不向服务器102发送网络请求,可以基于配置,为用户生成并显示目标文本信息。本发明实施例对具体采用哪种可能实现方式不作限定。
图2是本发明实施例提供的一种文本信息生成方法流程图,该文本信息生成方法应用于计算机设备,该计算机设备可以为上述终端101,也可以为上述服务器102,本发明实施例对此不作限定。在本发明实施例中,仅以该计算机设备为服务器为例进行说明。参见图2,该方法可以包括以下步骤:
201、服务器获取目标基调信息。
其中,该基调是指该文本信息的风格或该文本信息想要表达的主要情感或主要思想。诗词的基调主要表示了诗词所要表达出来的情感。一般地,一段完整的文本信息具有统一的基调,例如,该文本信息可以为诗词、小说、散文或其他形式,本发明实施例中涉及到的文本信息的具体形式可以为任一种形式,当然,该文本信息还可以为中文、英文、德文等不同语言的信息,具体采用哪种形式或那种语言,均可以由相关技术人员预先设置,相应地,上述自然语言模型(Char-RNN)可以基于确定的形式或语言的样本文本信息进行训练得到,本发明实施例对此不作限定。
在本发明实施例中,服务器可以基于选定的基调,生成目标文本信息,在生成目标文本信息时,可以控制该目标文本信息中的每个字符均符合该选定的基调,从而可以控制目标文本信息的基调统一,不会在生成过程中出现基调漂移的问题。其中,该步骤201中,服务器获取到的目标基调信息即用于表示上述选定的基调。
其中,该目标基调信息可以为基调名称,也可以为基调编号,当然,在一种可能实现方式中,该目标基调信息也可以为至少一个基调字符,该基调字符是指可以用于表示该基调的字符,本发明实施例对此不作限定。对于基调字符,事实上,一些字或词与基调本身有很强的依存关系,如“白头”、“故乡”与怀旧、思念的基调相符合,“戎马”、“雄关”与战争、铁骨的基调相符合,“福”、“禄”、“喜”与喜庆基调相符合等等,则可以用基调字符标识基调。
具体地,该基调字符可以包括正面描述该基调的字符,也可以包括负面描述该基调的字符。例如,上述示例中仅提供了正面描述的字符,对于喜庆基调,正面描述的基调字符可以为:“喜”,“悦”,“富”,“贵”等,负面描述的基调字符可以为:“悲”,“伤”,“贫”,“穷”等。在本发明实施例中,将上述正面描述的基调字符称为第一基调字符,将上述负面描述的基调字符称为第二基调字符。
具体地,该步骤201可以为:当接收到文本信息获取请求时,服务器从该文本信息获取请求中提取目标基调信息。其中,该文本信息获取请求可以由终端向服务器发送,在一种可能实现方式中,该文本信息获取请求的发送可以由终端检测到基调确定操作时触发。当然,该文本信息获取请求的发送也可以由终端检测到文本信息获取操作时触发。例如,用户可以在终端上进行操作,以触发该终端显示至少一个待选基调信息,用户可以在该至少一个待选基调信息中选择一个基调作为目标基调信息,并以此确定生成目标基调信息。则终端在检测到用户的操作时,可以向服务器发送文本信息获取请求。例如,该待选基调信息可以包括“爱情”、“财富”、“家庭”、“学业”、“事业”、“健康”、“美丽”等。又例如,该文本信息获取请求还可以在用户确定基调后,再次点击确认获取文本信息的文本信息获取操作时触发发送。
在另一种可能实现方式中,在该终端中还可以提供基调输入区域,具体地,终端还可以在终端界面中显示待输入的基调格式,例如,基调名称以及该基调对应的基调字符,该基调字符可以包括第一基调字符和第二基调字符,本发明实施例对此不作限定。如果用户不想选择待选基调信息时,也可以由终端界面中提供的基调输入区域中输入基调名称或基调字符等目标基调信息,则终端可以提取用户输入的目标基调信息,并向服务器发送文本信息获取请求,则该文本信息获取请求中携带有用户输入的目标基调信息。
202、服务器根据该目标基调信息,获取各个候选字符的字符基调权重。
在该服务器中可以预设有候选字符,服务器可以在该候选字符中选择多个并将选择的多个候选字符按照一定的顺序排列起来,形成目标文本信息。具体地,该服务器选择哪几个候选字符以及该几个候选字符的顺序,可以由服务器根据目标基调信息,确定各个候选字符的字符基调权重,并基于自然语言模型确定。其中,该字符基调权重用于体现候选字符与该目标基调信息的符合程度。该字符基调权重越大,该候选字符与目标基调信息的符合程度越大。这样服务器可以基于该步骤202中获取到的字符基调权重,在后续目标文本信息生成过程中,控制目标文本信息的字符与目标基调信息相符,以达到基调统一、不漂移的效果,以提高创作的诗词的质量。
具体地,基于该目标基调信息的获取方式可能不同,或该目标基调信息的具体内容不同,该步骤202可以至少包括以下两种实现方式:
第一种方式、服务器从基调表中,获取各个候选字符的该目标基调信息对应的字符基调权重。
其中,该基调表基于样本文本信息、至少一个待选基调信息的至少一个第一基调字符和至少一个第二基调字符离线获取得到,该目标基调信息为该至少一个待选基调信息中的一个待选基调信息。
也即是,该第一种方式中可以对应于上述步骤201中当该目标基调信息为至少一个待选基调信息中的任一个时的情况。在该服务器中可以预先存储有基调表,该基调表中可以包括上述至少一个待选基调信息,各个待选基调信息还可以对应有各个候选字符的字符基调权重,也即是,在基调表中可以存储有各个候选字符在各个待选基调信息下的字符基调权重。则服务器在获取到目标基调信息后,可以从该基调表中获取各个候选字符的该目标基调信息对应的字符基调权重。
其中,该基调表可以由相关技术人员预先设置于服务器中,也即是,该基调表可以离线获取得到。在一种可能实现方式中,该基调表的离线获取过程可以为:对于各个待选基调信息,服务器根据该待选基调信息的至少一个第一基调字符、至少一个第二基调字符和样本文本信息,确定各个候选字符的字符基调权重,该第一基调字符与该待选基调信息的第一符合程度大于第二符合程度,该第二符合程度为该第二基调字符与该待选基调信息的符合程度。也即是,该第一基调字符为符合该待选基调信息的字符,该第二基调字符为不符合该待选基调信息的字符。
对于上述基调字符,可以用至少一个第一基调字符和至少一个第二基调字符来表示一个待选基调信息,需要说明的是,该第一基调字符和第二基调字符不需要配置太多,但需要足够具有代表性,也即是该第一基调字符和第二基调字符没有歧义,不会使得该待选基调信息不清楚。例如,以称该基调字符为基调种子,也即是该基调字符为基调的种子词为例,对于任一基调,该基调字符可以用符合该基调的种子词(第一基调字符)和不符合该基调的种子词(第二基调字符)构成,即{Set(positive),Set(negative)}。其中,positive(正面)是指第一基调字符,negative(负面)是指第二基调字符。
例如,对于“喜庆”的基调,可以配置这样的基调种子{Set(“喜”,“悦”,“富”,“贵”),Set(“悲”,“伤”,“贫”,“穷”)}。上述通过基调字符描述基调的方式,对于实际难以描述的基调来说,可以更直接、更直观地进行表述,而不会造成难以描述而出现基调描述不符,生成的目标文本信息也不符合预设基调的情况。例如,需要配置一个适合春节时节的诗句基调,很难直接描述清楚什么样叫作适合春节,可以直接通过配置的基调种子来表示即可,如{Set(“春”,“福”,“喜”,“悦”,“富”,“贵”),Set(“秋”,“柳”,“悲”,“伤”,“贫”,“穷”)}。
在基调字符配置完成后,服务器可以基于基调字符和样本文本信息,确定各个候选字符的字符基调权重。其中,该样本文本信息可以由相关技术人员根据待生成的目标文本信息的形式或所属语言选取,例如,以待生成的目标文本信息为诗词为例,该样本文本信息可以为全唐诗4万首+全宋诗28万首共32万首诗词。则服务器可以基于该32万首诗词,确定各个候选字符的字符基调权重。
在一种可能实现方式中,服务器确定各个候选字符的某个待选基调信息对应的字符基调权重的过程可以通过下述步骤(1)和(2)实现:
(1)对于各个候选字符,服务器根据该样本文本信息,分别统计该候选字符与各个第一基调字符的第一相关程度和该候选字符与各个第二基调字符的第二相关程度。
在该步骤(1)中,对应某个待选基调信息,在确定某个候选字符的字符基调权重时,服务器可以分别统计样本文本信息中,该候选字符与至少一个第一基调字符中各个第一基调字符的第一相关程度,得到至少一个第一相关程度,以及该候选字符与至少一个第二基调字符中各个第二基调字符的第二相关程度,得到至少一个第二相关程度。
在一种可能实现方式中,上述候选字符的字符基调权重可以采用情感倾向点互信息(Semantic Orientation Pointwise Mutual Information,SO-PMI)的统计量来表示,也即是,上述候选字符与待选基调信息的符合程度可以采用SO-PMI的统计量来表示。则相应地,在该步骤(1)中,该第一相关程度和第二相关程度可以采用点互信息(PointwiseMutual Information,PMI)表示。根据SO-PMI原理,由于通常情况下文本信息具有一致性的基调特点,我们可以假定,同一个文本信息中的全部汉字在基调上具有共现特点,也即是指在同一个文本信息中出现的汉字之间具有关联关系。
相应地,该步骤(1)中,服务器可以对样本文本信息进行统计,统计得到候选字符与各个第一基调字符共现的文本信息的第一数量,以及候选字符与各个第二基调字符共现的文本信息的第二数量,并分别统计各个第一基调字符出现的文本信息的第三数量,以及第二基调字符出现的文本信息的第四数量。可以称样本文本信息的总数量为第五数量,称候选字符出现的文本信息的数量为第六数量。
另外,该候选字符与第一基调字符的共现概率为第一共现概率,该候选字符与第二基调字符的共现概率为第二共现概率,该候选字符的出现概率为第一概率,该第一基调字符的出现概率为第二概率,该第二基调字符的出现概率为第三概率。该第一共现概率为第一数量与第五数量的比值,该第二共现概率为第二数量与第五数量的比值,该第一概率为第六数量与第五数量的比值,该第二概率为第三数量与第五数量的比值,该第三概率为第四数量与第五数量的比值。
则对于候选字符与某个第一基调字符,第一相关程度可以为第一共现概率与第一概率和第二概率的乘积的比值的对数。也即是,服务器可以获取第一数量与第五数量的第一乘积,获取第六数量与第三数量的第二乘积,并获取第一乘积与第二乘积的比值的对数作为该候选字符与第一基调字符的第一相关程度。
则对于候选字符与某个第二基调字符,第二相关程度可以为第二共现概率与第一概率和第三概率的乘积的比值的对数。也即是,服务器可以获取第二数量与第五数量的第三乘积,获取第六数量与第四数量的第四乘积,并获取第三乘积与第四乘积的比值的对数作为该候选字符与第二基调字符的第二相关程度。
例如,上述第一相关程度和第二相关程度的获取过程可以分别采用下述公式一和公式二实现:
公式一:PMI(i,pos)=log(Ni_pos*N/(Ni*Npos))
公式二:PMI(i,neg)=log(Ni_neg*N/(Ni*Nneg))
其中,PMI(i,pos)是指候选字符i与第一基调字符pos的第一相关程度。PMI(i,neg)是指候选字符i与第二基调字符neg的第二相关程度。Log()是指对数函数。Ni_pos是指候选字符i与第一基调字符pos共现的文本信息的第一数量。Ni_neg是指候选字符i与第二基调字符neg共现的文本信息的第二数量。N是指样本文本信息的总数量,第五数量。Ni是指候选字符i出现的文本信息的数量,第六数量。Npos是指第一基调字符pos出现的文本信息的第三数量。Nneg是指第二基调字符neg出现的文本信息的第四数量。
(2)服务器基于至少一个第一相关程度和至少一个第二相关程度,确定该候选字符的字符基调权重,该字符基调权重与该第一相关程度正相关,该字符基调权重与该第二相关程度负相关。
服务器在获取到至少一个第一相关程度和至少一个第二相关程度后,则可以综合该获取到的数据,确定该候选字符与当前正在确定的待选基调信息的符合程度,也即是,确定该候选字符的字符基调权重。具体地,该字符基调权重与该第一相关程度正相关,也即是,该第一相关程度越大,该字符基调权重越大。该字符基调权重与该第二相关程度负相关,也即是,该第二相关程度越大,该字符基调权重越小。
可以理解地,第一基调字符为符合该待选基调信息的字符,该候选字符与第一基调字符的相似度或者相关程度越大,则该候选字符越符合该待选基调信息。第二基调字符为不符合该待选基调信息的字符,该候选字符与第二基调字符的相似度或者相关程度越大,则该候选字符越不符合该待选基调信息。
在一种可能实现方式中,服务器可以获取该至少一个第一相关程度的第一和值,以及该至少一个第二相关程度的第二和值,并获取该第一和值与第二和值的差值,将该差值作为该候选字符的字符基调权重。
例如,该服务器确定该候选字符的字符基调权重可以采用下述公式三实现:
公式三:Score_i=SO-PMI(i)=∑PMI(i,pos)-∑PMI(i,neg)
其中,Score_i是指候选字符i的字符基调权重,SO-PMI(i)是指候选字符i的字符基调权重,∑是累加函数,PMI(i,pos)是指候选字符i与第一基调字符pos的第一相关程度。PMI(i,neg)是指候选字符i与第二基调字符neg的第二相关程度。
当然,服务器还可以采用其他实现方式,确定该候选字符的字符基调权重,例如,可以获取该至少一个第一相关程度的第五乘积,并获取至少一个第二相关程度的第六乘积,从而获取该第五乘积与第六乘积的差值,将该差值作为该候选字符的字符基调权重。本发明实施例对该步骤(2)的具体实现方式不作限定。
需要说明的是,上述仅以确定一个候选字符的字符基调权重为例进行说明,服务器可以执行上述步骤(1)和步骤(2),确定各个候选字符的字符基调权重。且对于多个待选基调信息,服务器可以基于上述步骤,确定各个候选字符的各个待选基调信息对应的字符基调权重。也即是,服务器可以确定各个候选字符与各个待选基调信息的符合程度。
服务器在确定各个候选字符的字符基调权重后,可以将上述确定结果存储为基调表,以备后续获取到目标基调信息后,可以从该基调表中提取各个候选字符的字符基调权重。
在一个具体的可能实施例中,服务器还可以进一步对该字符基调权重进行处理,具体地,服务器可以将该字符基调权重的取值范围调整为[0,1]。例如,该服务器可以不对该字符基调权重中的正数进行调整,可以将该字符基调权重中的负数置为零。则在后续采用该字符基调权重进行加权时,可以保证与目标基调信息不符合的候选字符不会被输出,而仅输出符合目标基调信息的候选字符,以减少计算量和输出量,减少服务器的负载。
例如,可以通过下述公式四对字符基调权重进行调整:
公式四:Score_i=Score_i IF Score_i>0ELSE 0
其中,Score_i是指候选字符i的字符基调权重,该公式四是指:如果Score_i大于零,也即是为正数,则不变,Score_i=Score_i;否则,则Score_i=0。则调整后的Score_i的取值范围为[0,1],Score_i越大,该候选字符与待选基调信息的符合程度越大。则对于Score_i=0的候选字符,则可以确定不将其作为候选字符输出,而仅输出Score_i>0的候选字符。
需要说明的是,上述仅以采用SO-PMI表示字符基调权重为例进行说明,该字符基调权重还可以采用其他方式表示,例如,通过候选字符与基调字符之间的相似度的平均值等,本发明实施例对此不作限定。
第二种方式、服务器根据该目标基调信息的至少一个第一基调字符、至少一个第二基调字符和样本文本信息,确定各个候选字符的字符基调权重。
该第二种方式中可以对应于上述步骤201中当该目标基调信息由用户输入得到的情况。该服务器没有预先存储的字符基调权重,可以实时基于用户输入的至少一个基调字符和样本文本信息,确定各个候选字符的字符基调权重。具体地,该服务器可以采用上述第一种方式中基调表的获取方式中同理的步骤,基于该目标基调信息中的至少一个第一基调字符、至少一个第二基调字符和样本文本信息,确定各个候选字符的字符基调权重,本发明实施例在此不多做赘述。
在一种可能实现方式中,服务器在确定各个候选字符的字符基调权重后,还可以将该确定结果存储于基调表中,以更新该基调表,也使得该基调表更能满足用户需求。
203、服务器根据该目标基调信息,确定第一文本信息,该第一文本信息包括至少一个字符。
在该服务器中可以预先存储有待选基调信息与第一文本信息的对应关系,各个待选基调信息均可以对应存储有多个候选第一文本信息,则服务器在获取到目标基调信息后,还可以基于上述对应关系,从该目标基调信息对应的多个候选第一文本信息中,随机选取一个候选第一文本信息。其中,该第一文本信息的各个字符可以用于作为目标文本信息中每句的首字符。也即是,该步骤203为确定该目标文本信息中每句的首字符的过程。例如,如果该目标基调信息为“爱情”,服务器可以从多个候选第一文本信息中,随机选择一个作为第一文本信息,例如,该第一文本信息可以为“情投意合”。
在一种可能实现方式中,该步骤203中,服务器随机选取一个候选第一文本信息之后,还可以通过终端,在终端界面中显示该选取的候选第一文本信息,用户可以在终端上进行操作,如果该用户满意该选取的候选第一文本信息,可以进行确认操作,如果该用户不满意该选取的候选第一文本信息,可以进行更换操作。其中,当检测到确认操作时,将该选取的候选第一文本信息确定为第一文本信息。而当检测到更换操作时,可以重新执行上述从该目标基调信息对应的多个候选第一文本信息中,随机选取一个候选第一文本信息的步骤,以实现更换第一文本信息的过程,直至检测到确认操作为止。
当然,该服务器也可以在选取一个候选第一文本信息后,直接将其作为第一文本信息,并执行下述步骤204,本发明实施例对此不作限定。
需要说明的是,本发明实施例对上述步骤202和步骤203并没有时序上的限定,也即是,服务器可以先执行步骤202,再执行步骤203,也可以先执行步骤203,再执行步骤202,还可以同时执行步骤202和步骤203,本发明实施例对此不作限定。
204、服务器以该第一文本信息中各个字符作为一句的首字符,基于该字符基调权重、自然语言模型和该首字符,生成该目标文本信息的剩余位置处的字符,得到目标文本信息。
服务器在上述步骤203中确定第一文本信息后,可以将该第一文本信息中的字符作为目标文本信息的每句的首字符,从而基于该首字符、步骤202中获取到的候选字符以及自然语言模型,生成该目标文本信息中的剩余位置处的字符,从而得到目标文本信息。例如,以目标文本信息为诗词为例,服务器可以基于目标基调信息,可以随机确定该目标基调信息对应的一个四字成语,并以该四字成语中各个字作为待生成的诗词的第一个字,生成一首藏头诗。
该自然语言模型即可以为上述介绍的Char-RNN。其中,让机器生成文本信息需要由一个自然语言模型实现,该自然语言模型可以用来评估一句话是自然语言的概率,即根据一句话中已观测到的词来预测下一个词出现的概率,也即是该语言模型要能够处理序列数据,并根据已有的序列数据,推断接下来可能的数据。在神经网络中,RNN天然适合用于处理序列数据,它可以提取任意长度序列(x(t),x(t-1),...,x(1))的摘要,选择性地精确保留过去序列的某些信息,而保留这些信息的方式则是通过RNN内部的隐藏状态。
以文本信息为诗词为例,在本发明实施例中,在进行诗词生成时使用Char-RNN训练了一个自然语言模型,用以在自然语言序列中预测一段字符的下一个字符是什么。则可以用上述全唐诗4万首+全宋诗28万首共32万首诗词做样本文本信息,也即是作为训练数据,训练得到一个自然语言模型,该自然语言模型便会学习如何写出与诗词相近的文本信息。其中,Char-RNN模型的网络结构如图3所示。在图3中,下面一行x1至x4为输入,中间一行h0至h4为隐藏层,上面一行y1至y4为输出。在此仅以序列数据包括四位为例进行说明,当该序列数据包括其他位数时,该Char-RNN模型的网络结构可以相应调整,本发明实施例对此不作限定。
在本发明实施例中,在生成该目标文本信息时,需要保证目标文本信息中每个字符均符合目标基调信息,从而不会出现基调不统一或基调漂移的问题,因此,使用如图3所示的原生神经网络并不能达到上述效果。则本发明实施例在原生的Char-RNN模型基础上加以改动,得到了一种能够生成诗词格式要求且能够控制基调的文本信息生成方法。
例如,本发明实施例中自动生成诗词的Char-RNN模型可以如图4所示,针对自动写诗的场景,如前文所示,本发明实施例的Char-RNN模型可以使用LSTM Cell和三层隐藏层,而训练样本数据为全唐诗4万首+全宋诗28万首,则训练得到的Char-RNN模型可以支持自由写诗和创作藏头诗等。
例如,参见图4,输入一句诗词“锄禾日当午”作为输入序列,这句诗词中的各个字符均按照顺序输入Char-RNN模型,各个字符输入Char-RNN模型之后均能够得到一个输出,而这个输出便是这个字符在这句诗词中的下一个字符。需要说明的是,一个序列中的第一个输入和最后一个输出可以有多种选择,比如在图3中将“^”作为第一个输入,而将“,”作为最后一个输出,本发明实施例对此不进行具体限定。
则在应用上述训练得到的Char-RNN模型生成目标文本信息时,即是各个字符不断输入到Char-RNN模型中,然后将当前的输出作为下一次的输入,不断循环递归,直至目标文本信息达到一定长度。
进一步地,参见图5,Char-RNN模型中包含输入单元(Input units)、输出单元(Output units)以及隐藏单元(Hidden units)。其中,输入到输入单元的输入集可标记为{x0,x1,...,xt,xt+1,...},而输出单元输出的输出集则被标记为{y0,y1,...,yt,yt+1.,..},对于隐藏单元来说,可将其输出集标记为{s0,s1,...,st,st+1,...},而这些隐藏单元完成了最为主要的工作。在图5的左半部分中,有一条单向流动的信息流是从输入单元到达隐藏单元的,与此同时,另一条单向流动的信息流从隐藏单元到达输出单元。
在另一个实施例中,循环神经网络的设计思想是利用这种上下文之间连续的信息,循环神经网络中“recurrent”的含义就是对序列中的每个元素都执行相同的任务,如图5中的右半部分所示,将循环神经网络展开成了一个全神经网络。其中,xt表示第t步的输入,st为隐藏层的第t步的状态,它是循环神经网络的记忆单元。st根据当前输入层的输出与上一步隐藏层的状态进行计算。st=f(Uxt+W st-1),其中f通常为非线性的激活函数,如tanh或ReLU。ot是第t步的输出,ot=softmax(Vst)。需要说明的是,隐藏层状态st是网络的记忆单元,st可包含前面所有步的隐藏层状态,而输出层的输出ot可仅与当前步的st有关。在实践中,为了降低网络的复杂度,往往st仅包含前面若干步而非所有步的隐藏层状态。
在另一个实施例中,在传统的神经网络中,每一个网络层的参数是不共享的。而在循环神经网络中,每输入一步,每一层各自均共享参数U、V、W。其中,循环神经网络中的每一步均在做相同的事情,仅是输入不同而已,因此大大地降低了网络中需要学习的参数。换一种表达方式,传统的神经网络的参数是不共享的,并不是表示对于每个输入有不同的参数,而是在将网络展开变成多层的网络后,如果这是一个多层的传统神经网络,那么xt到st之间的U矩阵与xt+1到st+1之间的U矩阵是不同的,而在循环神经网络中却是一样的。同理,对于s层与s层之间的W矩阵、s层与o层之间的V矩阵在循环神经网络也是一样的。
需要说明的是,对于除了诗词以外的其他类型文本信息来说,上述Char-RNN模型也是同样适用的,本发明实施例对此不进行具体限定。参见图6,上述Char-RNN模型和基调表的训练过程为离线过程,也即是可以为服务器提前基于语料训练得到,该语料是指样本文本信息,也即是创作诗词的场景中的全唐诗4万首+全宋诗28万首。则前期可以配置基调种子(基调字符),根据语料统计候选字基调(候选字符的字符基调权重),从而存储为基调表,并可以基于语料训练Char-RNN模型,将该Char-RNN模型作为生成模型,也即是自然语言模型,用于生成目标文本信息各个位置的字符。
在该步骤204中,服务器应用基于上述训练得到的Char-RNN模型(自然语言模型),可以生成目标文本信息中除了首字符之外的其他字符。具体地,服务器生成该目标文本信息的剩余位置中任一位置处的字符的过程可以为:服务器可以通过自然语言模型,根据该剩余位置中任一位置之外的已生成的字符,确定各个候选字符在该任一位置处出现的概率,该自然语言模型基于样本文本信息训练得到。然后,服务器可以基于各个候选字符的概率和字符基调权重,生成该任一位置处的目标字符。
上述为生成各个位置上的字符时所执行的步骤,该自然语言模型可以基于已生成的字符,确定在这个位置上出现各个候选字符的概率,例如,已经确定首字符,在确定第二个字符位置处的字符时,可以通过自然语言模型,根据首字符,确定各个候选字符在第二个字符位置处出现的概率,然后服务器可以基于该概率和字符基调权重,生成第二字符位置处的目标字符。
传统的自然语言模型则会选择概率最大的候选字符作为该处置出的目标字符,而不会考虑到该目标字符是否符合目标基调信息,则本发明实施例中,在确定概率后,可以综合考虑概率和字符基调权重,确定出现概率大且符合目标基调信息的候选字符作为该位置上的目标字符,则服务器可以多次执行上述生成该任一位置处的目标字符的步骤,得到目标文本信息。这样在生成该文本信息的过程中,考虑到了各个字符是否符合目标基调信息,可以达到基调统一、不漂移的效果,提高了生成的目标文本信息的质量。
具体地,该服务器基于各个候选字符的概率和字符基调权重,得到位于该任一位置处的目标字符时,可以获取各个候选字符的概率与字符基调权重的乘积,将该乘积作为各个候选字符的被选中概率,从而可以获取被选中概率最大的候选字符作为目标字符。
例如,上述被选中概率的获取过程可以通过下述公式五实现:
公式五:F(Score_i,p_i)=Score_i*p_i
其中,该F(Score_i,p_i)是指候选字符i的被选中概率,其中,Score_i是指候选字符i的字符基调权重,p_i是指自然语言模型确定的候选字符i出现的概率。
需要说明的是,该被选中概率与该各个候选字符的概率正相关,该被选中概率与该字符基调权重正相关。也即是,各个候选字符的概率越大,该被选中概率也越大,该字符基调权重越大,该被选中概率越大。上述仅以该被选中概率为概率和字符基调权重的乘积为例进行说明,该被选中概率还可以有其他获取方式,例如,可以获取概率和字符基调权重的和值作为被选中概率,或者对概率和字符基调权重进行加权求和的求和结果作为被选中概率,本发明实施例对此不作限定。
在一种可能实现方式中,上述生成目标文本信息的过程中,还可以不直接选择被选中概率的一个候选字符作为目标字符,而是选择目标数量的候选字符,从而在形成字符组合后,确定字符组合的被选中概率,从而在确定了目标文本信息的所有位置的目标字符后,基于字符组合整体的被选中概率,进一步进行筛选,从而可以避免直接将最大概率的候选字符作为目标字符时没有考虑到目标文本信息整体的效果,无法得到最优的目标文本信息。
具体地,上述服务器生成该目标文本信息的剩余位置中任一位置处的字符的过程中,服务器可以基于各个候选字符的概率和字符基调权重,从该已生成的字符与候选字符的字符组合中,获取被选中概率最大的目标数量的字符组合,该字符组合中位于该任一位置处的候选字符为位于该任一位置处的目标字符,该被选中概率与该各个候选字符的概率正相关,该被选中概率与该字符基调权重正相关。则当该目标文本信息中的所有位置的目标字符生成完成时,服务器可以从目标数量的字符组合中,获取被选中概率最大的字符组合作为目标文本信息。
其中,该目标数量可以由相关技术人员预先设置,例如,该目标数量可以为2,本发明实施例对此不作限定。当然,在一种可能实现方式中,服务器也可以获取被选中概率最大的目标数量的字符组合作为目标文本信息。也即是,服务器可以生成多个目标文本信息,本发明实施例对此不作限定。
在一种可能实现方式中,上述确定字符组合的过程可以采用beam search技术,其中,采用beam search生成字符组合的过程可以参见下述示例:
假设候选字符的数量为3,分别为a、b、c,目标数量为2。则在生成第一个字符时,可以选择概率最大的两个字符,假设为a、c,那么当前的字符组合即a、c。在生成第2个字符的时候,将当前字符组合a和c分别与所有候选字符进行组合,得到新的6个字符组合aa、ab、ac、ca、cb、cc,然后从中选择两个概率最大的,作为当前的字符组合,假设为aa和cb。后面不断重复这个过程,直到遇到结束符为止。最终输出2个被选中概率最大的字符组合,作为待选的目标文本信息。则服务器可以从该待选的目标文本信息中选择一个被选中概率最大的字符组合作为目标文本信息。
需要说明的是,该确定字符组合的过程还可以通过除了beam search之外的其他实现方式,例如,决策树等,本发明实施例对此不作限定。
参见图7,在需要服务器生成目标文本信息的在线过程中,可以使用生成模型得到候选词生成概率,该生成模型即为上述自然语言模型(Char-RNN模型),并使用基调表调整生成概率,也即是综合概率和字符基调权重,选择beam size个最优概率作为临时输出,其中,该beam size是指目标数量,然后判断生成过程是否完成,如果没有完成,则将临时输出作为下一轮的输入,继续确定下一个位置的字符,如果已经完成,则可以选择诗词的全局最优作为输出,也即是确定被选中概率最大的字符组合作为目标文本信息。
上述步骤203和步骤204为基于该各个候选字符的字符基调权重和自然语言模型,生成目标文本信息的过程,上述仅以服务器自动创作藏头诗为例进行说明,也即是服务器根据目标基调信息,先确定第一文本信息,再将第一文本信息的各个字符作为目标文本信息中的每句的首字符,进一步生成其他字符,最终生成目标文本信息。在另一种可能实现方式中,该服务器也可以直接基于目标基调信息,生成目标文本信息,也即是服务器也可以自动创作其他类型的诗词。
在该另一种可能实现方式中,该服务器可以通过以下方式生成目标文本信息的首字符:服务器可以通过自然语言模型,确定该各个候选字符在该第一个字符位置处出现的概率,该自然语言模型基于样本文本信息训练得到,则服务器可以基于各个候选字符的概率和字符基调权重,生成该目标文本信息的首字符,然后服务器可以基于该字符基调权重、自然语言模型和该首字符,生成该目标文本信息的剩余位置处的字符,得到目标文本信息。也即是,该服务器也可以基于概率和字符基调权重两个维度生成首字符,并以此生成剩余位置处的字符,其中,服务器基于首字符确定剩余位置处的字符的过程与前文所示的内容同理,本发明实施例在此不多做赘述。
需要说明的是,在这种实现方式中,服务器可以通过上述候选字符的概率和字符基调权重,确定目标文本信息的首字符后,再基于候选字符的概率、字符基调权重和该已生成的首字符,确定第二个字符位置处的字符,以此类推,对于下一句话的第一个字符,服务器可以基于前一句话中已生成的字符、候选字符的概率和字符基调权重,确定下一句话的第一个字符,而不是如步骤203所示,由服务器预先基于目标基调信息随机选取得到。
在另一个实施例中,以生成的目标文本信息为诗词为例,本发明实施例还可以对诗词的格律方面进行控制,以保证生成的诗词符合正常诗词的格式要求,例如,平仄韵等。则可以将该格律要求加入到上述自然语言模型(Char-RNN模型)中,使得训练得到的自然语言模型可以生成符合诗词的格律要求的诗词。
例如,如图8所示,在实际应用中,目标基调信息为“爱情”,服务器确定第一文本信息为“情投意合”后,可以分别将“情”,“投”,“意”和“合”作为每句诗词的第一个字,并以此生成后面的字,则可以得到目标文本信息:“情知何事已非常”、“投得清心一梦长”、“意欲相逢如有酒”、“合将书礼寄新强”。服务器还可以将目标文本信息发送至终端,由终端对该目标文本信息进行显示。在一种可能实现方式中,该终端还可以在终端界面中提供分享按钮,并在检测到分享操作时,服务器可以将该目标文本信息分享至其他用户账号所在终端,本发明实施例对此不作限定,当然,在该终端界面中还可以包括其他内容,例如,明星图片,明星的祝福语等,在此也不多做赘述。
本发明实施例通过根据获取到的目标基调信息,确定各个候选字符的字符基调权重,从而在生成目标文本信息的各个位置处的字符时,可以结合自然语言模型输出的概率和该字符基调权重,生成既符合自然语言逻辑又符合目标基调信息的字符,从而得到的目标文本信息的基调统一,避免了出现基调漂移的问题,提高了生成的目标文本信息的质量。
上述所有可选技术方案,可以采用任意结合形成本发明的可选实施例,在此不再一一赘述。
下面通过图9所示实施例对上述文本信息生成方法应用于生成藏头诗时的具体流程进行说明,图9是本发明实施例提供的一种文本信息生成方法流程图,在本发明实施例中,用户选择了目标基调信息后,可以由服务器为该用户确定待生成的目标文本信息中每句的首字符,也即是,可以根据目标基调信息,确定第一文本信息,从而可以基于每句的首字符和上述目标基调信息,确定该目标文本信息中其他字符位置上的目标字符,以得到目标文本信息。也即是,用户选择了目标基调信息后,可以由服务器为该用户自动提供藏头诗。参见图9,该方法可以包括以下步骤:
901、服务器获取目标基调信息。
902、服务器根据该目标基调信息,获取各个候选字符的字符基调权重。
该步骤901和步骤902与上述步骤201和步骤202同理,本发明实施例在此不多做赘述。
903、服务器从该目标基调信息对应的多个候选第一文本信息中,随机选取一个候选第一文本信息。
904、服务器通过终端,在终端界面中显示该选取的候选第一文本信息。
905、当服务器通过终端检测到确认操作时,服务器将该选取的候选第一文本信息确定为第一文本信息。
该步骤903至步骤905与上述步骤203中的内容同理,该步骤903至步骤905为根据该目标基调信息,确定第一文本信息的过程,上述仅提供了一种可能实现方式:服务器可以随机选取候选第一文本信息,并通过终端进行显示,用户可以确定是否以该选取的候选第一文本信息作为第一文本信息进行目标文本信息获取过程,如果是,则用户可以确认操作,如果否,则用户可以进行更换操作,则服务器通过终端检测到更换操作时,可以重新执行上述步骤903和步骤904,直至检测到确认操作时,可以执行步骤905。在另一种可能实现方式中,服务器还可以执行结束步骤903之后,直接确定该选取的候选第一文本信息为第一文本信息,执行下述步骤906,本发明实施例对具体采用哪种实现方式不作限定。
906、服务器以该第一文本信息中各个字符作为一句的首字符,通过自然语言模型,根据该首字符,确定各个候选字符在第二个字符位置处出现的概率,该自然语言模型基于样本文本信息训练得到。
907、服务器基于各个候选字符的概率和字符基调权重,生成该第二个字符位置处的目标字符。
该步骤906和步骤907与上述步骤204中生成目标文本信息的任一位置处的字符的过程同理,在此不多做赘述。
908、服务器通过自然语言模型,根据该首字符和该第二个字符位置处的目标字符,确定各个候选字符在该第三个字符位置处出现的概率,该自然语言模型基于样本文本信息训练得到。
909、服务器基于各个候选字符的概率和字符基调权重,生成该第三个字符位置处的目标字符。
该步骤908和步骤909与上述步骤906和步骤907同理,在此不多作赘述。需要说明的是,上述仅示出了生成三个字符的过程,服务器可以多次执行与步骤906和步骤907同理的步骤,生成该目标文本信息中的各个字符位置上的目标字符。
910、当该目标文本信息中的所有位置的目标字符生成完成时,服务器得到目标文本信息。
需要说明的是,该步骤906至步骤910与上述步骤204同理,该步骤906至步骤910为服务器以该第一文本信息中各个字符作为一句的首字符,基于该字符基调权重和自然语言模型,生成目标文本信息的过程,服务器可以先根据目标基调信息,生成第一文本信息,也即是确定目标文本信息中每句的首字符,再基于该首字符、字符基调权重和自然语言模型,一一生成目标文本信息中的其他字符。上述方法应用于诗词创作场景中,可以由服务器根据选定的或用户自行输入的基调,生成诗词的首字符,该首字符连起来为一个成语或一段有特定意义的文本,并基于首字符,自动生成一首诗词。
本发明实施例通过根据获取到的目标基调信息,确定各个候选字符的字符基调权重,从而在生成目标文本信息的各个位置处的字符时,可以结合自然语言模型输出的概率和该字符基调权重,生成既符合自然语言逻辑又符合目标基调信息的字符,从而得到的目标文本信息的基调统一,避免了出现基调漂移的问题,提高了生成的目标文本信息的质量。
上述所有可选技术方案,可以采用任意结合形成本发明的可选实施例,在此不再一一赘述。
图10是本发明实施例提供的一种文本信息生成方法流程图,在本发明实施例中,用户没有对该待生成的目标文本信息每句中的首字符进行特殊限定,服务器无需根据目标基调信息,确定第一文本信息,则该服务器可以通过自然语言模型和各个候选字符的字符基调权重,确定该目标文本信息的首字符是哪个候选字符,也可以再基于上述实施例中同理的确认剩余位置的目标字符的步骤,得到目标文本信息,则该目标文本信息每句的首字符并不需要预先确定,而是基于上述模型和字符基调权重,一一生成,且该目标文本信息的第二句的首字符可以根据前一句的所有字符确定。也即是,通过上述图9所示实施例,可以得到藏头诗,也可以通过图10所示实施例得到其他形式的文本。参见图10,该方法可以包括以下步骤:
1001、服务器获取目标基调信息。
1002、服务器根据该目标基调信息,获取各个候选字符的字符基调权重。
该步骤1001和步骤1002与上述步骤901和步骤902或步骤201和步骤202同理,本发明实施例在此不多做赘述。
1003、服务器通过自然语言模型,确定该各个候选字符在第一个字符位置处出现的概率,该自然语言模型基于样本文本信息训练得到。
1004、服务器基于各个候选字符的概率和字符基调权重,生成该目标文本信息的首字符。
该步骤1003和步骤1004为服务器在生成目标文本信息的首字符的过程,与上述图9该实施例中不同的是,上述图9所示实施例中,基于目标基调信息,生成第一文本信息,并以第一文本信息的各个字符作为目标文本信息的首字符,而本发明实施例中,仅以字符基调权重和自然语言模型确定的概率为基准,确定首字符,再基于首字符确定剩余位置的字符,当然,可以在执行下述步骤完成目标文本信息中的某句话后,再执行上述该步骤1003和步骤1004,确定下一句话的首字符后,再执行下述步骤,生成下一句话,以此类推,从而得到目标文本信息,本发明实施例对此不作限定。
1005、服务器通过自然语言模型,根据该首字符,确定各个候选字符在第二个字符位置处出现的概率,该自然语言模型基于样本文本信息训练得到。
1006、服务器基于各个候选字符的概率和字符基调权重,生成该第二个字符位置处的目标字符。
该步骤1005和步骤1006与上述步骤906和步骤907同理,在此不多做赘述。
1007、服务器通过自然语言模型,根据该首字符和该第二个字符位置处的目标字符,确定各个候选字符在该第三个字符位置处出现的概率,该自然语言模型基于样本文本信息训练得到。
1008、服务器基于各个候选字符的概率和字符基调权重,生成该第三个字符位置处的目标字符。
上述步骤1007和步骤1008与步骤908和步骤909同理,在此不多作赘述。同理地,上述仅示出了生成三个字符的过程,服务器可以多次执行与步骤908和步骤909同理的步骤,生成该目标文本信息除了第一个字符位置外的各个字符位置上的目标字符。
1009、当该目标文本信息中的所有位置的目标字符生成完成时,服务器得到目标文本信息。
本发明实施例通过根据获取到的目标基调信息,确定各个候选字符的字符基调权重,从而在生成目标文本信息的各个位置处的字符时,可以结合自然语言模型输出的概率和该字符基调权重,生成既符合自然语言逻辑又符合目标基调信息的字符,从而得到的目标文本信息的基调统一,避免了出现基调漂移的问题,提高了生成的目标文本信息的质量。
上述所有可选技术方案,可以采用任意结合形成本发明的可选实施例,在此不再一一赘述。
下面通过图11所示实施例对上述图2所示实施例中的终端与服务器之间的交互情况进行详细说明。在本发明实施例中,该终端与服务器之间可以交互,其中,终端可以为用户提供信息显示以及检测用户操作的作用,并可以向服务器发送文本信息获取请求,由服务器根据该文本信息获取请求,执行上述步骤图2所示实施例中的方法步骤,以生成目标文本信息,并可以提供给该终端,具体可以参见下述步骤。参见图11,文本信息生成方法可以包括以下步骤:
1101、当终端检测到界面显示操作时,终端在界面中显示第一界面,该第一界面中包括至少一个基调信息。
在该终端中可以设置有第一界面的链接,用户可以对该链接进行点击操作,也即是界面显示操作,终端在检测到该界面显示操作时,可以在界面中显示第一界面,在该第一界面中,终端可以显示有至少一个基调信息以供用户选择,用户可以选择其中一个基调信息作为目标基调信息,也可以自行输入基调信息,并确定当前的选择或输入,也即是基调确定操作。
1102、当终端检测到基调确定操作时,终端向服务器发送文本信息获取请求,该文本信息获取请求携带有目标基调信息。
其中,该目标基调信息为该基调确定操作中选择的基调信息。或,该目标基调信息为该基调确定操作中用户输入的基调信息,本发明实施例对此不作具体限定。
1103、当接收到文本信息获取请求时,服务器从该文本信息获取请求中提取目标基调信息。
该步骤1103与上述步骤201中的内容同理,在此不多做赘述。
1104、服务器根据该目标基调信息,获取各个候选字符的字符基调权重,该字符基调权重用于体现候选字符与该目标基调信息的符合程度。
1105、服务器基于该各个候选字符的字符基调权重和自然语言模型,生成目标文本信息。
该步骤1104和步骤1105与上述步骤202至步骤204的过程同理,本发明实施例在此不多做赘述。
需要说明的是,服务器也可以在1103后,从该目标基调信息对应的多个候选第一文本信息中,随机选取一个候选第一文本信息,并向终端发送该选取的候选第一文本信息。终端接收到该选取的候选第一文本信息后,可以在界面中显示该选取的候选第一文本信息,在检测到确认操作时,该终端可以向服务器发送目标文本信息获取请求,服务器在接收到该目标文本信息获取请求时,可以执行上述步骤1104和步骤1105,并在生成得到目标文本信息后,可以执行下述步骤1106,本发明实施例对此不作限定。
1106、服务器向终端发送该目标文本信息。
1107、当接收到该目标文本信息时,终端在界面中显示该目标文本信息。
1108、当检测到文本信息分享操作时,终端向服务器发送分享请求,该分享请求携带有该目标文本信息和待接收该目标文本信息的用户账号。
1109、当接收到该分享请求时,服务器向该用户账号所在终端发送该目标文本信息。
当然,该用户账号所在终端接收到该目标文本信息,可以在界面中显示该目标文本信息,当然,该用户账号所在终端也可以在界面中显示提示信息,该提示信息用于提示接收到其他用户分享的文本信息,从而在检测到显示操作时,在界面中显示该目标文本信息,本发明实施例对此不作限定,在此也不多做赘述。
该步骤1108和步骤1109是为用户提供文本信息分享功能的过程,在检测到用户的分享操作时,可以将为该用户生成的目标文本信息分享给其他用户,可以满足用户的个性化需求,有效提高了用户体验。
本发明实施例通过根据获取到的目标基调信息,确定各个候选字符的字符基调权重,从而在生成目标文本信息的各个位置处的字符时,可以结合自然语言模型输出的概率和该字符基调权重,生成既符合自然语言逻辑又符合目标基调信息的字符,从而得到的目标文本信息的基调统一,避免了出现基调漂移的问题,提高了生成的目标文本信息的质量。
进一步地,本发明实施例还通过基于用户的选择,确定符合用户需求的目标文本信息,并在保证生成质量的同时,为用户提供了各项信息的显示功能以及目标文本信息的分享功能,可以满足用户的各种需求,有效提高了用户体验。
上述所有可选技术方案,可以采用任意结合形成本发明的可选实施例,在此不再一一赘述。
图12是本发明实施例提供的一种文本信息生成装置的结构示意图,参见图12,该装置包括:
信息获取模块1201,用于获取目标基调信息;
权重获取模块1202,用于根据该目标基调信息,获取各个候选字符的字符基调权重,该字符基调权重用于体现候选字符与该目标基调信息的符合程度;
文本生成模块1203,用于基于该各个候选字符的字符基调权重和自然语言模型,生成目标文本信息。
在一种可能实现方式中,该信息获取模块1201用于当接收到文本信息获取请求时,从该文本信息获取请求中提取目标基调信息。
在一种可能实现方式中,该权重获取模块1202用于:
从基调表中,获取各个候选字符的该目标基调信息对应的字符基调权重,该基调表基于样本文本信息、至少一个待选基调信息的至少一个第一基调字符和至少一个第二基调字符离线获取得到,该目标基调信息为该至少一个待选基调信息中的一个待选基调信息;或,
根据该目标基调信息的至少一个第一基调字符、至少一个第二基调字符和样本文本信息,确定各个候选字符的字符基调权重。
在一种可能实现方式中,该装置还包括:
确定模块,用于对于各个待选基调信息,根据该待选基调信息的至少一个第一基调字符、至少一个第二基调字符和样本文本信息,确定各个候选字符的字符基调权重,该第一基调字符与该待选基调信息的第一符合程度大于第二符合程度,该第二符合程度为该第二基调字符与该待选基调信息的符合程度。
在一种可能实现方式中,该确定模块,用于:
对于各个候选字符,根据该样本文本信息,分别统计该候选字符与各个第一基调字符的第一相关程度和该候选字符与各个第二基调字符的第二相关程度;
基于至少一个第一相关程度和至少一个第二相关程度,确定该候选字符的字符基调权重,该字符基调权重与该第一相关程度正相关,该字符基调权重与该第二相关程度负相关。
在一种可能实现方式中,该文本生成模块1203用于:
根据该目标基调信息,确定第一文本信息,该第一文本信息包括至少一个字符;
以该第一文本信息中各个字符作为一句的首字符,基于该字符基调权重、自然语言模型和该首字符,生成该目标文本信息的剩余位置处的字符,得到目标文本信息。
在一种可能实现方式中,该文本生成模块1203用于从该目标基调信息对应的多个候选第一文本信息中,随机选取一个候选第一文本信息。
在一种可能实现方式中,该装置还包括:
显示模块,用于在终端界面中显示该选取的候选第一文本信息;
该文本生成模块1203,还用于当检测到确认操作时,将该选取的候选第一文本信息确定为第一文本信息。
在一种可能实现方式中,该文本生成模块1203用于:
通过自然语言模型,确定该各个候选字符在第一个字符位置处出现的概率,该自然语言模型基于样本文本信息训练得到;
基于各个候选字符的概率和字符基调权重,生成该目标文本信息的首字符;
基于该字符基调权重、自然语言模型和该首字符,生成该目标文本信息的剩余位置处的字符,得到目标文本信息。
在一种可能实现方式中,该文本生成模块1203用于:
通过自然语言模型,根据该剩余位置中任一位置之外的已生成的字符,确定各个候选字符在该任一位置处出现的概率,该自然语言模型基于样本文本信息训练得到;
基于各个候选字符的概率和字符基调权重,生成该任一位置处的目标字符;
多次执行上述生成该任一位置处的目标字符的过程,得到目标文本信息。
在一种可能实现方式中,该文本生成模块1203用于基于各个候选字符的概率和字符基调权重,从该已生成的字符与候选字符的字符组合中,获取被选中概率最大的目标数量的字符组合,该字符组合中位于该任一位置处的候选字符为位于该任一位置处的目标字符,该被选中概率与该各个候选字符的概率正相关,该被选中概率与该字符基调权重正相关。
在一种可能实现方式中,该文本生成模块1203用于当该目标文本信息中的所有位置的目标字符生成完成时,从目标数量的字符组合中,获取被选中概率最大的字符组合作为目标文本信息。
本发明实施例提供的装置,通过根据获取到的目标基调信息,确定各个候选字符的字符基调权重,从而在生成目标文本信息的各个位置处的字符时,可以结合自然语言模型输出的概率和该字符基调权重,生成既符合自然语言逻辑又符合目标基调信息的字符,从而得到的目标文本信息的基调统一,避免了出现基调漂移的问题,提高了生成的目标文本信息的质量。
需要说明的是:上述实施例提供的文本信息生成装置在生成文本信息时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的文本信息生成装置与文本信息生成方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
上述计算机设备可以被提供为图13所示的终端,也可以被提供为图14所示的服务器,具体可以参见下述实施例:
图13是本发明实施例提供的一种终端的结构框图。该终端1300可以是:智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端1300还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,终端1300包括有:处理器1301和存储器1302。
处理器1301可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器1301可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1301也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器1301可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器1301还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器1302可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器1302还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器1302中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器1301所执行以实现本发明中方法实施例提供的文本信息生成方法。
在一些实施例中,终端1300还可选包括有:外围设备接口1303和至少一个外围设备。处理器1301、存储器1302和外围设备接口1303之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1303相连。具体地,外围设备包括:射频电路1304、触摸显示屏1305、摄像头1306、音频电路1307、定位组件1308和电源1309中的至少一种。
外围设备接口1303可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器1301和存储器1302。在一些实施例中,处理器1301、存储器1302和外围设备接口1303被集成在同一芯片或电路板上;在一些其他实施例中,处理器1301、存储器1302和外围设备接口1303中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路1304用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路1304通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1304将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路1304包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1304可以通过至少一种无线通信协议来与其他终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路1304还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本发明对此不加以限定。
显示屏1305用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其他们的任意组合。当显示屏1305是触摸显示屏时,显示屏1305还具有采集在显示屏1305的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1301进行处理。此时,显示屏1305还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏1305可以为一个,设置终端1300的前面板;在另一些实施例中,显示屏1305可以为至少两个,分别设置在终端1300的不同表面或呈折叠设计;在再一些实施例中,显示屏1305可以是柔性显示屏,设置在终端1300的弯曲表面上或折叠面上。甚至,显示屏1305还可以设置成非矩形的不规则图形,也即异形屏。显示屏1305可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件1306用于采集图像或视频。可选地,摄像头组件1306包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其他融合拍摄功能。在一些实施例中,摄像头组件1306还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路1307可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器1301进行处理,或者输入至射频电路1304以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端1300的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1301或射频电路1304的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路1307还可以包括耳机插孔。
定位组件1308用于定位终端1300的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。定位组件1308可以是基于GPS(Global PositioningSystem,全球定位系统)、北斗系统、格雷纳斯系统或伽利略系统的定位组件。
电源1309用于为终端1300中的各个组件进行供电。电源1309可以是交流电、直流电、一次性电池或可充电电池。当电源1309包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
在一些实施例中,终端1300还包括有一个或多个传感器1310。该一个或多个传感器1310包括但不限于:加速度传感器1311、陀螺仪传感器1312、压力传感器1313、光学传感器1315以及接近传感器1316。
加速度传感器1311可以检测以终端1300建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器1311可以用于检测重力加速度在三个坐标轴上的分量。处理器1301可以根据加速度传感器1311采集的重力加速度信号,控制触摸显示屏1305以横向视图或纵向视图进行用户界面的显示。加速度传感器1311还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器1312可以检测终端1300的机体方向及转动角度,陀螺仪传感器1312可以与加速度传感器1311协同采集用户对终端1300的3D动作。处理器1301根据陀螺仪传感器1312采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器1313可以设置在终端1300的侧边框和/或触摸显示屏1305的下层。当压力传感器1313设置在终端1300的侧边框时,可以检测用户对终端1300的握持信号,由处理器1301根据压力传感器1313采集的握持信号进行左右手识别或快捷操作。当压力传感器1313设置在触摸显示屏1305的下层时,由处理器1301根据用户对触摸显示屏1305的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
光学传感器1315用于采集环境光强度。在一个实施例中,处理器1301可以根据光学传感器1315采集的环境光强度,控制触摸显示屏1305的显示亮度。具体地,当环境光强度较高时,调高触摸显示屏1305的显示亮度;当环境光强度较低时,调低触摸显示屏1305的显示亮度。在另一个实施例中,处理器1301还可以根据光学传感器1315采集的环境光强度,动态调整摄像头组件1306的拍摄参数。
接近传感器1316,也称距离传感器,通常设置在终端1300的前面板。接近传感器1316用于采集用户与终端1300的正面之间的距离。在一个实施例中,当接近传感器1316检测到用户与终端1300的正面之间的距离逐渐变小时,由处理器1301控制触摸显示屏1305从亮屏状态切换为息屏状态;当接近传感器1316检测到用户与终端1300的正面之间的距离逐渐变大时,由处理器1301控制触摸显示屏1305从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图13中示出的结构并不构成对终端1300的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
图14是本发明实施例提供的一种服务器的结构示意图,该服务器1400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processingunits,CPU)1401和一个或一个以上的存储器1402,其中,该存储器1402中存储有至少一条指令,该至少一条指令由该处理器1401加载并执行以实现上述各个方法实施例提供的文本信息生成方法。当然,该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器还可以包括其他用于实现设备功能的部件,在此不做赘述。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由处理器执行以完成上述实施例中的文本信息生成方法。例如,该计算机可读存储介质可以是只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random AccessMemory,RAM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)、磁带、软盘和光数据存储设备等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
上述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种诗词生成方法,其特征在于,所述方法包括:
获取目标基调信息,所述目标基调信息用于指示诗词的风格或诗词表达的主要情感或主要思想,所述诗词具有统一的基调;
根据所述目标基调信息,确定第一文本信息,所述第一文本信息包括多个字符,所述第一文本信息为成语或一段有特定意义的文本;
以所述第一文本信息中各个字符作为目标诗词中每一句的首字符,通过自然语言模型,根据剩余位置中任一位置之外的已生成的字符,确定各个候选字符在所述任一位置处出现的概率,所述自然语言模型基于样本诗词训练得到;
从基调表中,获取各个候选字符的所述目标基调信息对应的字符基调权重,所述基调表基于样本诗词、至少一个待选基调信息的至少一个第一基调字符和至少一个第二基调字符离线获取得到;所述目标基调信息为所述至少一个待选基调信息中的一个待选基调信息,所述字符基调权重用于体现候选字符与所述目标基调信息的符合程度,所述第一基调字符为对所述待选基调信息进行正面描述的字符,所述第二基调字符为对所述待选基调信息进行负面描述的字符;其中,所述基调表中字符基调权重的确定过程包括:对于各个候选字符,根据所述样本诗词,分别统计所述候选字符与各个第一基调字符的第一相关程度和所述候选字符与各个第二基调字符的第二相关程度;基于至少一个第一相关程度和至少一个第二相关程度,确定所述候选字符的字符基调权重,所述字符基调权重与所述第一相关程度正相关,所述字符基调权重与所述第二相关程度负相关;
基于各个候选字符的概率和字符基调权重,从所述已生成的字符与候选字符的字符组合中,获取被选中概率最大的目标数量的字符组合,所述字符组合中位于所述任一位置处的候选字符为位于所述任一位置处的目标字符,所述被选中概率与所述各个候选字符的概率正相关,所述被选中概率与所述字符基调权重正相关;
多次执行上述生成所述任一位置处的目标字符的过程,得到目标诗词。
2.根据权利要求1所述的方法,其特征在于,所述获取目标基调信息,包括:
当接收到诗词获取请求时,从所述诗词获取请求中提取目标基调信息。
3.根据权利要求1所述的方法,其特征在于,所述根据所述目标基调信息,确定第一文本信息,包括:
从所述目标基调信息对应的多个候选第一文本信息中,随机选取一个候选第一文本信息。
4.根据权利要求3所述的方法,其特征在于,所述从所述目标基调信息对应的多个候选第一文本信息中,随机选取一个候选第一文本信息之后,所述方法还包括:
在终端界面中显示选取的候选第一文本信息;
当检测到确认操作时,将所述选取的候选第一文本信息确定为第一文本信息。
5.根据权利要求1所述的方法,其特征在于,所述多次执行上述生成所述任一位置处的目标字符的过程,得到目标诗词,包括:
当所述目标诗词中的所有位置的目标字符生成完成时,从目标数量的字符组合中,获取被选中概率最大的字符组合作为目标诗词。
6.一种诗词生成装置,其特征在于,所述装置包括:
信息获取模块,用于获取目标基调信息,所述目标基调信息用于指示诗词的风格或诗词表达的主要情感或主要思想,所述诗词具有统一的基调;
文本生成模块,用于根据所述目标基调信息,确定第一文本信息,所述第一文本信息包括多个字符,所述第一文本信息为成语或一段有特定意义的文本;以所述第一文本信息中各个字符作为目标诗词中每一句的首字符,通过自然语言模型,根据剩余位置中任一位置之外的已生成的字符,确定各个候选字符在所述任一位置处出现的概率,所述自然语言模型基于样本诗词训练得到;
权重获取模块,用于从基调表中,获取各个候选字符的所述目标基调信息对应的字符基调权重,所述基调表基于样本诗词、至少一个待选基调信息的至少一个第一基调字符和至少一个第二基调字符离线获取得到;所述目标基调信息为所述至少一个待选基调信息中的一个待选基调信息,所述字符基调权重用于体现候选字符与所述目标基调信息的符合程度,所述第一基调字符为对所述待选基调信息进行正面描述的字符,所述第二基调字符为对所述待选基调信息进行负面描述的字符;其中,所述基调表中字符基调权重的确定过程包括:对于各个候选字符,根据所述样本诗词,分别统计所述候选字符与各个第一基调字符的第一相关程度和所述候选字符与各个第二基调字符的第二相关程度;基于至少一个第一相关程度和至少一个第二相关程度,确定所述候选字符的字符基调权重,所述字符基调权重与所述第一相关程度正相关,所述字符基调权重与所述第二相关程度负相关;
所述文本生成模块,还用于基于各个候选字符的概率和字符基调权重,从所述已生成的字符与候选字符的字符组合中,获取被选中概率最大的目标数量的字符组合,所述字符组合中位于所述任一位置处的候选字符为位于所述任一位置处的目标字符,所述被选中概率与所述各个候选字符的概率正相关,所述被选中概率与所述字符基调权重正相关;
多次执行上述生成所述任一位置处的目标字符的过程,得到目标诗词。
7.根据权利要求6所述的装置,其特征在于,所述信息获取模块,用于:
当接收到诗词获取请求时,从所述诗词获取请求中提取目标基调信息。
8.根据权利要求6所述的装置,其特征在于,所述文本生成模块,用于:
从所述目标基调信息对应的多个候选第一文本信息中,随机选取一个候选第一文本信息。
9.根据权利要求8所述的装置,其特征在于,所述文本生成模块还用于:
在终端界面中显示所述选取的候选第一文本信息;
当检测到确认操作时,将所述选取的候选第一文本信息确定为第一文本信息。
10.根据权利要求6所述的装置,其特征在于,所述文本生成模块,用于:
当所述目标诗词中的所有位置的目标字符生成完成时,从目标数量的字符组合中,获取被选中概率最大的字符组合作为目标诗词。
11.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述指令由所述处理器加载并执行以实现如权利要求1至权利要求5任一项所述的诗词生成方法所执行的操作。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现如权利要求1至权利要求5任一项所述的诗词生成方法所执行的操作。
CN201810833352.3A 2018-07-26 2018-07-26 诗词生成方法、装置、计算机设备及存储介质 Active CN110852093B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810833352.3A CN110852093B (zh) 2018-07-26 2018-07-26 诗词生成方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810833352.3A CN110852093B (zh) 2018-07-26 2018-07-26 诗词生成方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN110852093A CN110852093A (zh) 2020-02-28
CN110852093B true CN110852093B (zh) 2023-05-16

Family

ID=69595329

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810833352.3A Active CN110852093B (zh) 2018-07-26 2018-07-26 诗词生成方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN110852093B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112052651B (zh) * 2020-08-14 2024-01-23 深圳市欢太科技有限公司 诗词生成方法、装置、电子设备及存储介质
CN112818663A (zh) * 2021-01-15 2021-05-18 北京有竹居网络技术有限公司 用于语言模型的处理方法、文本生成方法、装置及介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107526725A (zh) * 2017-09-04 2017-12-29 北京百度网讯科技有限公司 基于人工智能的用于生成文本的方法和装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104391980B (zh) * 2014-12-08 2019-03-08 百度在线网络技术(北京)有限公司 生成歌曲的方法和装置
CN106503255B (zh) * 2016-11-15 2020-05-12 科大讯飞股份有限公司 基于描述文本自动生成文章的方法及系统
CN106776540A (zh) * 2016-11-23 2017-05-31 清华大学 一种自由化文本生成方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107526725A (zh) * 2017-09-04 2017-12-29 北京百度网讯科技有限公司 基于人工智能的用于生成文本的方法和装置

Also Published As

Publication number Publication date
CN110852093A (zh) 2020-02-28

Similar Documents

Publication Publication Date Title
CN110471858B (zh) 应用程序测试方法、装置及存储介质
CN112068762B (zh) 应用程序的界面显示方法、装置、设备及介质
CN110162604B (zh) 语句生成方法、装置、设备及存储介质
CN111339737B (zh) 实体链接方法、装置、设备及存储介质
WO2022057435A1 (zh) 基于搜索的问答方法及存储介质
CN111581958A (zh) 对话状态确定方法、装置、计算机设备及存储介质
CN111428079B (zh) 文本内容处理方法、装置、计算机设备及存储介质
CN110837557B (zh) 摘要生成方法、装置、设备及介质
CN110852093B (zh) 诗词生成方法、装置、计算机设备及存储介质
CN112764600B (zh) 资源处理方法、装置、存储介质及计算机设备
CN112100528B (zh) 对搜索结果评分模型进行训练的方法、装置、设备、介质
CN113190307A (zh) 控件添加方法、装置、设备及存储介质
CN116955677A (zh) 基于文字生成图片的方法、装置、设备及存储介质
CN112560472B (zh) 一种识别敏感信息的方法及装置
CN112311652B (zh) 消息发送方法、装置、终端及存储介质
CN111145723B (zh) 转换音频的方法、装置、设备以及存储介质
CN110096707B (zh) 生成自然语言的方法、装置、设备及可读存储介质
CN113064981A (zh) 群组头像生成方法、装置、设备及存储介质
CN115841181B (zh) 剩余油分布预测方法、装置、设备及存储介质
CN111524533B (zh) 语音操作方法、装置、电子设备及存储介质
CN110795465B (zh) 用户规模预估方法、装置、服务器及存储介质
CN112380380B (zh) 显示歌词的方法、装置、设备及计算机可读存储介质
CN117668095A (zh) 数据展示方法、装置、计算机设备及存储介质
CN116521023A (zh) 输入法动效的显示方法、装置、电子设备及存储介质
CN117973475A (zh) 模型训练方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40021621

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant