CN110609991A - 文本生成方法、电子装置及存储介质 - Google Patents

文本生成方法、电子装置及存储介质 Download PDF

Info

Publication number
CN110609991A
CN110609991A CN201910854586.0A CN201910854586A CN110609991A CN 110609991 A CN110609991 A CN 110609991A CN 201910854586 A CN201910854586 A CN 201910854586A CN 110609991 A CN110609991 A CN 110609991A
Authority
CN
China
Prior art keywords
text
user
personalized
word
template
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910854586.0A
Other languages
English (en)
Other versions
CN110609991B (zh
Inventor
蔡恒进
蔡天琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuo Erzhi Lian Wuhan Research Institute Co Ltd
Original Assignee
Zhuo Erzhi Lian Wuhan Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhuo Erzhi Lian Wuhan Research Institute Co Ltd filed Critical Zhuo Erzhi Lian Wuhan Research Institute Co Ltd
Priority to CN201910854586.0A priority Critical patent/CN110609991B/zh
Publication of CN110609991A publication Critical patent/CN110609991A/zh
Application granted granted Critical
Publication of CN110609991B publication Critical patent/CN110609991B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供一种文本生成方法、电子装置及存储介质,所述方法包括收集用户的个性化数据以创建个性化词库;收集通用数据以创建通用词库及模板数据;根据用户的自定义内容选择对应的文本模板;及根据预设模板规则,从所述个性化词库及所述通用词库中选择词语填入所述文本模板而生成一文本;判断生成的文本是否被用户手动调整;当判定生成的文本被用户手动调整时,根据调整内容对生成的文本进行更新;及获取所述调整内容中新增的用户个性化数据,并将新增的用户个性化数据中的词语存储至所述个性化词库。本发明基于用户的个性化数据及通用数据进行文本的自动生成,可以在文本的自动生成过程中与用户进行互动,便于生成符合用户需求的文本。

Description

文本生成方法、电子装置及存储介质
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种文本生成方法、电子装置及存储介质。
背景技术
随着互联网和人工智能技术的发展,文本处理的应用也越来越广泛,例如文本自动识别、文本自动生成等。现如今,许多领域如新闻编辑、诗词创作、智能教学等都具有文本自动生成的需求,而常见的文本自动生成通常是依据互联网资源进行简单的选择,并进一步按一定逻辑进行组合而成,如此缺乏与用户的互动,容易导致自动生成的文本不符合用户需求。
发明内容
有鉴于此,有必要提供一种文本生成方法、电子装置及存储介质,基于用户的个性化数据及预先收集的通用数据进行文本的自动生成。
本发明的第一方面提供一种文本生成方法,应用于电子装置中,所述方法包括:
收集用户的个性化数据,创建个性化词库;
收集通用数据,创建通用词库及模板数据,其中,所述模板数据包括多个文本模板;
根据用户的自定义内容选择对应的文本模板;及
根据预设模板规则,从所述个性化词库及所述通用词库中选择词语填入至所述文本模板而生成一文本。
优选地,所述个性化词库及所述通用词库均包括多个词语,每一词语具有一优先级,所述模板数据包括多个文本类型的文本模板。
优选地,步骤“根据用户的自定义内容选择对应的文本模板”包括:
通过识别用户的自定义内容确定待生成文本的类型;及
根据确定的文本类型选择对应的文本模板。
优选地,每一文本模板包括多个空缺位,所述模板数据包括每一文本模板中每一空缺位的待填入词语的词性要求,步骤“根据预设模板规则,从所述个性化词库及所述通用词库选择词语填充至所述文本模板而生成一文本”包括:
根据用户的自定义内容分别从所述个性化词库及所述通用词库中筛选出多个词语;
根据选择的文本模板中每一空缺位的词性要求确定对应空缺位的至少一待填入词语;
将每一空缺位对应的至少一待填入词语中优先级最高的词语填入至所述空缺位中。
优选地,所述方法还包括步骤:
判断生成的文本是否被用户手动调整;
当判定生成的文本被用户手动调整时,获取新增的用户个性化数据;
对新增的用户个性化数据进行分词后加入所述个性化词库;及
在所述个性化词库中设置新增词语的优先级高于其他词语。
优选地,所述方法还包括步骤:
根据生成的文本更新每一填入词语在所述个性化词库及所述通用词库中的优先级。
优选地,步骤“收集用户的个性化数据,生成个性化词库”包括:
获取经过用户处理的文本作为用户的个性化数据;
对所述个性化数据中的语句进行分词处理以生成多个词语;及
创建所述个性化词库用以存储所述多个词语。
优选地,步骤“收集通用数据,生成通用词库及模板数据”包括:
基于互联网资源获取全文数据;
对全文数据进行分词处理以生成多个词语;
创建所述通用词库用以存储所述多个词语;及
对全文数据进行深度学习以生成模板数据,其中,模板数据至少包括多个模板类型、每一模板类型对应的文本模板、模板名称及模板中空缺位对应词语的词性要求。
本发明的第二方面提供一种电子装置,所述电子装置包括:
处理器;以及
存储器,所述存储器中存储有多个程序模块,所述多个程序模块由所述处理器加载并执行上述的文本生成方法。
本发明的第三方面提供一种存储介质,其上存储有至少一条计算机指令,所述指令由处理器并加载执行上述的文本生成方法。
上述文本生成方法、电子装置及存储介质基于预先收集的用户个性化数据及通用数据进行文本的自动生成,可以在文本的自动生成过程中与用户进行互动,便于生成符合用户需求的文本,提升了用户体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1是本发明较佳实施方式提供的文本生成方法的应用环境架构示意图。
图2是本发明较佳实施方式提供的电子装置的结构示意图。
图3是本发明较佳实施方式提供的文本生成系统的结构示意图。
图4是本发明较佳实施方式提供的文本生成方法的流程图。
主要元件符号说明
电子装置 1
处理器 10
文本生成系统 100
创建模块 101
选择模块 102
生成模块 103
判断模块 104
获取模块 105
更新模块 106
存储器 20
计算机程序 30
步骤 S401~S409
如下具体实施方式将结合上述附图进一步说明本发明。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
请参阅图1所示,为本发明较佳实施方式提供的文本生成方法的应用环境架构示意图。
本发明中的文本生成方法应用在电子装置1中,所述电子装置1与至少一个服务器2通过网络建立通信连接。所述网络可以是有线网络,也可以是无线网络,例如无线电、无线保真(Wireless Fidelity,WIFI)、蜂窝、卫星、广播等。
所述电子装置1可以为安装有文本生成程序的电子设备,例如智能手机、个人电脑、服务器等,其中,所述服务器可以是单一的服务器、服务器集群或云端服务器等。
请参阅图2所示,为本发明电子装置较佳实施方式的结构示意图。
所述电子装置1包括,但不仅限于,处理器10、存储器20以及存储在所述存储器20中并可在所述处理器10上运行的计算机程序30,例如文本生成程序。所述处理器10执行所述计算机程序30时实现上述文本生成方法实施例中的步骤,例如图4所示的步骤S401~S409。或者,所述处理器10执行所述计算机程序30时实现文本生成系统实施例中各模块/单元的功能,例如图3中的模块101-106。
示例性的,所述计算机程序30可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器20中,并由所述处理器10执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,所述指令段用于描述所述计算机程序30在所述电子装置1中的执行过程。例如,所述计算机程序30可以被分割成图3中的创建模块101、选择模块102、生成模块103、判断模块104、获取模块105及更新模块106。各模块具体功能参见文本生成系统实施例中各模块的功能。
所述电子装置1可以是电脑、服务器等计算设备。本领域技术人员可以理解,所述示意图仅仅是电子装置1的示例,并不构成对电子装置1的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述电子装置1还可以包括输入输出设备、网络接入设备、总线等。
所称处理器10可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者所述处理器10也可以是任何常规的处理器等,所述处理器10是所述电子装置1的控制中心,利用各种接口和线路连接整个电子装置1的各个部分。
所述存储器20可用于存储所述计算机程序30和/或模块/单元,所述处理器10通过运行或执行存储在所述存储器20内的计算机程序和/或模块/单元,以及调用存储在存储器20内的数据,实现所述电子装置1的各种功能。所述存储器20可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子装置1的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器20可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
请参阅图3所示,本发明文本生成系统较佳实施方式的功能模块图。
在一些实施例中,文本生成系统100运行于所述电子装置1中。所述文本生成系统100可以包括多个由程序代码段所组成的功能模块。文本生成系统100中的各个程序段的程序代码可以存储于电子装置1的存储器20中,并由所述至少一个处理器10所执行,以实现文本生成功能。
本实施方式中,文本生成系统100根据其所执行的功能,可以被划分为多个功能模块。参阅图3所示,所述功能模块可以包括创建模块101、选择模块102、生成模块103、判断模块104、获取模块105及更新模块106。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器20中。可以理解的是,在其他实施例中,上述模块也可为固化于所述处理器10中的程序指令或固件(firmware)。
所述创建模块101用于收集用户的个性化数据以创建个性化词库。
在本实施方式中,所述个性化数据至少包括经过用户处理的文本。其中,所述处理包括,但不仅限于创建、编辑、浏览、收藏、上传、下载,所述文本以文档的形式存储于所述存储器20中或与所述电子装置1通信连接的服务器2中。即,所述创建模块101获取所述存储器20中或所述服务器2中经过上述处理的文本,作为用户的个性化数据。举例而言,所述个性化数据可以包括用户发布的微信朋友圈内容、微博内容、通讯软件的聊天内容、论坛讨论内容,用户在网页浏览器中收藏的网页内容,用户在电子装置1中撰写的日记等。
进一步地,所述创建模块101采用分词工具对所述文本中的语句进行分词处理,将所述文本中的语句分割生成多个词语,并标注每个词语的词性。优选地,所述分词工具为THULAC(THU Lexical Analyzer for Chinese,清华大学中文词法分析工具)。所述词性包括名词、动词、副词、形容词、介词、平仄性等。
所述创建模块101创建所述个性化词库用以存储所述多个词语及每个词语的词性信息。可以理解的是,在本实施方式中,所述创建模块101还对所述多个词语的词频进行统计,确定词频大于或等于第一预设值的词语作为个性化分词存储至所述个性化词库中。优选地,所述第一预设值为十。在其他实施方式中,所述第一预设值也可以根据需求设置为其他数值。
在本实施方式中,所述个性化词库可以被用户编辑以新增、删除及修改其中的词语。
所述创建模块101还用于收集通用数据以创建通用词库及模板数据。
在本实施方式中,所述通用数据为多个文本类型的全文数据。所述创建模块101基于互联网资源获取所述多个文本类型的全文数据。其中,所述多个文本类型包括,但不仅限于诗词、游记及歌词。所述互联网资源包括,但不仅限于网络爬虫、购买的商用数据库、公开的数据集及搜索引擎。
所述创建模块101采用所述分词工具对每一全文数据中的语句进行分词处理,将所述全文数据中的语句分割生成多个词语,并标注每一词语的词性。
所述创建模块101创建所述通用词库用以存储所述多个词语及每个词语的词性信息。可以理解的是,在本实施方式中,所述创建模块101还对所述多个词语的词频进行统计,确定词频大于或等于第二预设值的词语作为通用分词存储至所述通用词库中。优选地,所述第二预设值为二十。在其他实施方式中,所述第二预设值也可以根据需求设置为其他数值。
进一步地,所述创建模块101对获取的全文数据进行深度学习以生成模板数据。优选地,所述模板数据包括,但不仅限于多个文本类型、每一文本类型对应文本模板、模板名称、模板中空缺位对应待填入词语的词性要求及相邻词语之间的语义关系。可以理解的是,当文本类型为诗词时,所述模板数据还包括空缺位对应待填入词语的平仄规则、韵脚规则及上下阙字数要求。
在本实施方式中,所述创建模块101对每一文本类型的全文数据进行深度学习生成对应文本类型的文本模板。所述文本模板可以包括多个固定词语及多个空缺位。在本实施方式中,所述创建模块101确定分割生成的多个词语中出现率大于或等于预设百分比的词语作为固定词语,并基于语义分析确定空缺位对应待填入词语的词性要求及相邻词语之间的语义关系。优选地,所述预设百分比为95%,即当一文本类型对应95%以上的全文数据都出现的词语作为固定词语。在其他实施方式中,所述文本模板也可以只包括多个空缺位。
具体的,所述创建模块101通过深度学习生成文本模板的步骤包括:所述创建模块101基于互联网资源获取所述多个文本类型的全文数据,对全文数据进行分析以确定其当前文本类型的子类型。在本实施方式中,诗词文本类型的子类型包括不同的词牌名(例如忆王孙、如梦令),游记文本类型的子类型包括不同的地名(例如故宫、长城),歌词文本类型的子类型包括不同的曲风(民族风格、摇滚风格、流行风格)。所述创建模块101还对每一相同子类型的多个全文数据分词后的词语进行统计分析,确定每个相同位置对应词语的词性,并进一步通过分析确定文本模板的词性搭配规则。
举例而言,当一全文数据为宋朝诗人李重元的诗词“萋萋芳草忆王孙。柳外楼高空断魂。杜宇声声不忍闻。欲黄昏。雨打梨花深闭门。”时,所述创建模块101通过识别所述全文数据确定文本类型为诗词,子类型为词牌名“忆王孙”。由于相同词牌名的诗词对应的平仄规则相同,所述创建模块101进一步确定词牌名“忆王孙”对应的文本模板的词性搭配规则为“平平仄仄仄平平,仄仄平平仄仄平。仄仄平平仄仄平。仄平平。仄仄平平仄仄平。”。
所述创建模块101还建立词向量,用以记录每一相同子类型的多个全文数据中相邻词语的语义关系,并进一步通过分析确定文本模板的词义搭配规则。可以理解的是,两个词语相邻的次数越多,则所述两个词语之间的词向量越短,表明所述两个词语之间的语义关系越接近。
在本实施方式中,所述创建模块101基于文本类型及对应文本模板中多个固定词语的概括词作为对应模板的名称。例如,诗词模板的名称为词牌名,游记模板的名称为游玩地点,歌词模板的名称为词频最高的固定词语。
在本实施方式中,所述创建模块101将所述个性化词库、通用词库及模板数据存储至所述存储器20中。可以理解的是,在其他实施方式中,所述创建模块101也可以将创建的所述个性化词库、通用词库及模板数据上传并存储至所述服务器2中,所述电子装置1可以在与所述服务器2通信连接时访问或下载所述个性化词库、通用词库及模板数据。
所述选择模块102用于根据用户的自定义内容选择对应的文本模板。
在本实施方式中,所述电子装置1安装有一具有文本生成功能的应用程序,用于提供文本生成界面供用户操作以自动生成文本。当用户有文本生成需求时,可以在所述文本生成界面中输入所述自定义内容。其中,所述自定义内容可以是字、词、句、段落或文章。
具体的,当用户在所述文本生成界面中输入所述自定义内容时,所述选择模块102通过识别用户输入的所述自定义内容确定待生成文本的类型。例如,当用户输入的自定义内容为词牌名时,所述选择模块102确定待生成文本的类型为诗词。当用户输入的自定义内容为地名时,所述选择模块102确定待生成文本的类型为游记。进一步地,所述选择模块102根据确定的文本类型选择对应的文本模板。
所述生成模块103用于根据预设模板规则,从所述个性化词库及所述通用词库中选择词语填入至所述文本模板而生成一文本。
在本实施方式中,所述个性化词库及所述通用词库中的每一词语具有一优先级。其中,所述优先级通过优先级参数表示,所述优先级参数为整数,其数值越大则表明优先级越高。所述预设模板规则包括所述词性搭配规则、词义搭配规则及高优先级规则,即填入模板空缺位的词语的词性与所述空缺位要求的词性一致,相邻两个词语之间的词向量短于所述两个词语与其他词语之间的词向量,以及填入词语的优先级大于其他待填入词语。需要说明的是,所述个性化词库中词语的基础优先级高于所述通用词库中词语的基础优先级,即所述个性化词库中新加入词语的初始优先级参数大于所述通用词库中新加入词语的初始优先级参数。例如,所述个性化词库中新加入词语的初始优先级参数为5,所述通用词库中新加入词语的初始优先级参数为0。
具体的,所述生成模块103根据用户的自定义内容分别从所述个性化词库及所述通用词库中筛选出多个词语。
在本实施方式中,当所述自定义内容为字或词时,所述生成模块103基于所述自定义内容,依据同义原则、上下位概念原则及同领域原则分别从所述个性化词库及所述通用词库中筛选出多个词语,即筛选出的多个词语与自定义内容中的字或词同义、互为上下位关系或属于同领域。当所述自定义内容为段落或文章时,所述生成模块103对所述自定义内容进行分词处理及语义分析总结出至少一关键词,并基于所述至少一关键词,依据同义原则、上下位概念原则及同领域原则分别从所述个性化词库及所述通用词库中筛选出多个词语。
进一步地,所述生成模块103根据所述词性搭配规则及所述词义搭配规则确定对应空缺位的至少一待填入词语。例如,当空缺位的词性要求为名词时,则所述生成模块103确定筛选出的多个词语中词性为名词、且与相邻词语之间的词向量最短(即语义关系最接近)的至少一个词语作为待填入词语。
进一步地,所述生成模块103将每一空缺位对应的至少一待填入词语中优先级最高的词语填入至所述空缺位中。当所述文本模板中的每一空缺位都填入词语时,所述生成模块103完成文本生成,并在所述文本生成界面显示生成的所述文本。
以下以待生成文本的类型为诗词进行举例说明。
当用户输入的自定义内容为“忆王孙”时,所述选择模块102可以识别出所述自定义内容为词牌名,确定待生成的文本类型为诗词,进而选择诗词文本模板中名称为“忆王孙”的文本模板。其中,所述选择的文本模板为“__(平平)__(仄仄)___(仄平平),__(仄仄)__(平平)___(仄仄平)。__(仄仄)__(平平)___(仄仄平)。___(仄平平)。__(仄仄)__(平平)___(仄仄平)。”。
所述生成模块103根据所述词牌名“忆王孙”在所述个性化词库及通用词库中筛选出多个与宋词相关的词语,并根据所述词性搭配规则(即平仄要求、韵脚要求、字数要求)及词义搭配规则确定每一空缺位对应的至少一待填入词语。例如,第一个空缺位对应的至少一待填入词语可以包括“凄凄”、“东风”、“西风”等。所述生成模块103还确定所述至少一待填入词语中优先级最高的词语填入至所述第一空缺位中。所述生成模块103通过上述步骤在每一空缺位中填入词语,并生成对应的文本,即词牌名为“忆王孙”的宋词。
在其他实施方式中,当所述生成模块103根据所述词性搭配规则及所述词义搭配规则确定对应空缺位的多个待填入词语时,将所述多个待填入词语与所述空缺位关联。当用户通过触控操作或鼠标操作点选所述空缺位时,所述生成模块103控制所述文本生成界面显示所述多个待填入词语,用户可以选择一待填入词语以填入所述空缺位。
需要说明的是,在本实施方式中,所述生成模块103可以对上述过程进行预设次数的迭代,即基于用户的自定义内容进行所述预设次数的文本生成,从而对生成的文本进行修正完善。优选地,所述预设次数为五次。
所述判断模块104用于判断生成的文本是否被用户手动调整。
在本实施方式中,所述判断模块104通过侦测在所述文本生成后的预设时间内是否接收到用户对生成文本的编辑操作来判断生成的文本是否被用户手动调整。其中,所述编辑操作至少包括新增词语及/或语句、删除词语及/或语句及调整词语及/或语句位置。在本实施方式中,所述预设时间为十分钟。
当所述判断模块104判定生成的文本被用户手动调整时,所述生成模块103根据调整内容对生成的文本进行更新。
在本实施方式中,当所述判断模块104在所述文本生成后的预设时间内侦测到用户对生成文本的编辑操作时,判定生成的文本被用户手动调整,所述生成模块103根据调整内容对生成的文本进行更新。其中,所述调整内容为新增的词语及/或语句、删除的词语及/或语句及词语及/或语句位置的调整。
所述获取模块105用于获取所述调整内容中新增的用户个性化数据,并将新增的用户个性化数据中的词语存储至所述个性化词库。
当用户新增的个性化数据为词语时,所述获取模块105通过对比判断新增的词语是否存储于所述个性化词库中。当判定新增词语未存储于所述个性化词库中时,所述获取模块105将所述新增词语存储至所述个性化词库中。
当用户新增的个性化数据为语句时,所述获取模块105对新增的语句进行分词处理得到多个词语,并通过对比判断分词处理得到的词语是否存储于所述个性化词库中。当判定分词处理得到的词语未存储于所述个性化词库中时,所述获取模块105将所述词语存储至所述个性化词库中。
所述更新模块106用于当新增的用户个性化数据中的词语存储至所述个性化词库时,在所述个性化词库中设置新增词语的优先级高于其他词语,即将所述新增词语的优先级参数设置为大于其他词语的优先级参数。具体的,所述更新模块106将新增词语的优先级参数设置为比优先级最高的其他词语对应的优先级参数大5。例如,若在所述个性化词库中优先级最高的词语对应的优先级参数为50时,所述更新模块106设置新增词语的优先级参数为55。
当所述判断模块104判定生成的文本未被用户手动调整时,所述更新模块106根据生成的文本更新填入词语在所述个性化词库及所述通用词库中的优先级。
在本实施方式中,在所述判断模块104判定所述文本生成后的预设时间内未侦测到用户对文本的编辑操作时,所述更新模块106增加文本模板中每一空缺位对应的填入词语在所述个性化词库及所述通用词库中的优先级。例如,当填入词语来自所述个性化词库中时,所述更新模块106将所述个性化词库中所述填入词语的优先级参数提高预设数值。当填入词语来自所述通用词库中时,所述更新模块106将所述通用词库中所述填入词语的优先级参数提高所述预设数值。优选地,所述预设数值为5。
请参阅图4所示,是本发明提供的文本生成方法的流程图。根据不同的需求,所述流程图中步骤的顺序可以改变,某些步骤可以省略。
步骤S401,收集用户的个性化数据以创建个性化词库。
步骤S402,收集通用数据以创建通用词库及模板数据。
步骤S403,根据用户的自定义内容选择对应的文本模板。
步骤S404,根据预设模板规则,从所述个性化词库及所述通用词库中选择词语填入至所述文本模板而生成一文本。
步骤S405,判断生成的文本是否被用户手动调整。当判定生成的文本被用户手动调整时,所述流程进入步骤S406;当判定生成的文本未被用户手动调整时,所述流程进入步骤S409。
步骤S406,根据调整内容对生成的文本进行更新。
步骤S407,获取所述调整内容中新增的用户个性化数据,并将新增的用户个性化数据中的词语存储至所述个性化词库中。
步骤S408,在所述个性化词库中设置所述词语的优先级高于其他词语。
步骤S409,根据生成的文本更新填入词语在所述个性化词库及所述通用词库中的优先级。
所述电子装置1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,所述计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
上述文本生成方法、电子装置及存储介质,基于预先收集或临时补充的用户个性化数据及通用数据进行文本的自动生成,可以在文本的自动生成过程中与用户进行良好地互动,便于生成符合用户需求的文本,提升了用户体验。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由同一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种文本生成方法,应用于电子装置中,其特征在于,所述方法包括:
收集用户的个性化数据以创建个性化词库;
收集通用数据以创建通用词库及模板数据,其中,所述模板数据包括多个文本模板;
根据用户的自定义内容选择对应的文本模板;
根据预设模板规则,从所述个性化词库及所述通用词库中选择词语填入至所述文本模板而生成一文本;
判断生成的文本是否被用户手动调整;
当判定生成的文本被用户手动调整时,根据调整内容对生成的文本进行更新;及
获取所述调整内容中新增的用户个性化数据,并将新增的用户个性化数据中的词语存储至所述个性化词库。
2.如权利要求1所述的文本生成方法,其特征在于:所述个性化词库及所述通用词库均包括多个词语,每一词语具有一优先级,所述模板数据包括多个文本类型的文本模板。
3.如权利要求2所述的文本生成方法,其特征在于,步骤“根据用户的自定义内容选择对应的文本模板”包括:
通过识别用户输入的自定义内容确定待生成文本的文本类型;及
根据确定的文本类型选择对应的文本模板。
4.如权利要求2所述的文本生成方法,其特征在于,每一文本模板包括多个空缺位,所述模板数据包括每一文本模板中每一空缺位的待填入词语的词性要求,步骤“根据预设模板规则,从所述个性化词库及所述通用词库选择词语填充至所述文本模板而生成一文本”包括:
根据用户的自定义内容分别从所述个性化词库及所述通用词库中筛选出多个词语;
根据选择的文本模板中每一空缺位的词性要求确定对应空缺位的至少一待填入词语;
将每一空缺位对应的至少一待填入词语中优先级最高的词语填入至所述空缺位中。
5.如权利要求2所述的文本生成方法,其特征在于,所述方法还包括步骤:
当新增的用户个性化数据中的词语存储至所述个性化词库时,在所述个性化词库中设置所述词语的优先级高于其他词语。
6.如权利要求2所述的文本生成方法,其特征在于,所述方法还包括步骤:
当判定生成的文本未被用户手动调整时,根据生成的文本更新每一填入词语在所述个性化词库及所述通用词库中的优先级。
7.如权利要求1所述的文本生成方法,其特征在于,步骤“收集用户的个性化数据以创建个性化词库”包括:
获取经过用户处理的文本作为用户的个性化数据;
对所述个性化数据中的语句进行分词处理以生成多个词语;及
创建所述个性化词库用以存储所述多个词语。
8.如权利要求1所述的文本生成方法,其特征在于,步骤“收集通用数据以创建通用词库及模板数据”包括:
基于互联网资源获取全文数据;
对全文数据进行分词处理以生成多个词语;
创建所述通用词库用以存储所述多个词语;及
对全文数据进行深度学习以生成模板数据,其中,所述数据包括多个文本类型、每一文本类型对应的文本模板、模板名称及模板中空缺位对应待填入词语的词性要求。
9.一种电子装置,其特征在于,所述电子装置包括:
处理器;以及
存储器,所述存储器中存储有多个程序模块,所述多个程序模块由所述处理器加载并执行如权利要求1-8中任意一项所述的文本生成方法。
10.一种存储介质,其上存储有至少一条计算机指令,其特征在于,所述指令由处理器并加载执行如权利要求1-8中任意一项所述的文本生成方法。
CN201910854586.0A 2019-09-10 2019-09-10 文本生成方法、电子装置及存储介质 Active CN110609991B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910854586.0A CN110609991B (zh) 2019-09-10 2019-09-10 文本生成方法、电子装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910854586.0A CN110609991B (zh) 2019-09-10 2019-09-10 文本生成方法、电子装置及存储介质

Publications (2)

Publication Number Publication Date
CN110609991A true CN110609991A (zh) 2019-12-24
CN110609991B CN110609991B (zh) 2023-09-19

Family

ID=68892551

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910854586.0A Active CN110609991B (zh) 2019-09-10 2019-09-10 文本生成方法、电子装置及存储介质

Country Status (1)

Country Link
CN (1) CN110609991B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111354342A (zh) * 2020-02-28 2020-06-30 科大讯飞股份有限公司 一种个性化词库的更新方法、装置、设备及存储介质
CN115965013A (zh) * 2023-03-16 2023-04-14 北京朗知网络传媒科技股份有限公司 基于需求识别的汽车传媒文章生成方法和装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004077645A (ja) * 2002-08-13 2004-03-11 Sony Computer Entertainment Inc 歌詞生成装置および歌詞生成機能を実現させるためのプログラム
US20160124933A1 (en) * 2014-10-30 2016-05-05 International Business Machines Corporation Generation apparatus, generation method, and program
CN106933789A (zh) * 2015-12-30 2017-07-07 阿里巴巴集团控股有限公司 旅游攻略生成方法和生成系统
US20180101599A1 (en) * 2016-10-08 2018-04-12 Microsoft Technology Licensing, Llc Interactive context-based text completions
CN108427665A (zh) * 2018-03-15 2018-08-21 广州大学 一种基于lstm型rnn模型的文本自动生成方法
US20180246872A1 (en) * 2017-02-28 2018-08-30 Nice Ltd. System and method for automatic key phrase extraction rule generation
CN108733650A (zh) * 2018-05-14 2018-11-02 科大讯飞股份有限公司 个性化词获取方法及装置
CN109977390A (zh) * 2017-12-27 2019-07-05 北京搜狗科技发展有限公司 一种生成文本的方法及装置
CN110059163A (zh) * 2019-04-29 2019-07-26 百度在线网络技术(北京)有限公司 生成模板的方法和装置、电子设备、计算机可读介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004077645A (ja) * 2002-08-13 2004-03-11 Sony Computer Entertainment Inc 歌詞生成装置および歌詞生成機能を実現させるためのプログラム
US20160124933A1 (en) * 2014-10-30 2016-05-05 International Business Machines Corporation Generation apparatus, generation method, and program
CN106933789A (zh) * 2015-12-30 2017-07-07 阿里巴巴集团控股有限公司 旅游攻略生成方法和生成系统
US20180101599A1 (en) * 2016-10-08 2018-04-12 Microsoft Technology Licensing, Llc Interactive context-based text completions
US20180246872A1 (en) * 2017-02-28 2018-08-30 Nice Ltd. System and method for automatic key phrase extraction rule generation
CN109977390A (zh) * 2017-12-27 2019-07-05 北京搜狗科技发展有限公司 一种生成文本的方法及装置
CN108427665A (zh) * 2018-03-15 2018-08-21 广州大学 一种基于lstm型rnn模型的文本自动生成方法
CN108733650A (zh) * 2018-05-14 2018-11-02 科大讯飞股份有限公司 个性化词获取方法及装置
CN110059163A (zh) * 2019-04-29 2019-07-26 百度在线网络技术(北京)有限公司 生成模板的方法和装置、电子设备、计算机可读介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
周昌乐;游维;丁晓君;: "一种宋词自动生成的遗传算法及其机器实现", 软件学报, no. 03, pages 427 - 437 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111354342A (zh) * 2020-02-28 2020-06-30 科大讯飞股份有限公司 一种个性化词库的更新方法、装置、设备及存储介质
CN115965013A (zh) * 2023-03-16 2023-04-14 北京朗知网络传媒科技股份有限公司 基于需求识别的汽车传媒文章生成方法和装置
CN115965013B (zh) * 2023-03-16 2023-11-28 北京朗知网络传媒科技股份有限公司 基于需求识别的汽车传媒文章生成方法和装置

Also Published As

Publication number Publication date
CN110609991B (zh) 2023-09-19

Similar Documents

Publication Publication Date Title
CN107301170B (zh) 基于人工智能的切分语句的方法和装置
WO2018176758A1 (zh) 用于生成文章的方法和装置
CN106570180B (zh) 基于人工智能的语音搜索方法及装置
CN110659366A (zh) 语义解析方法、装置、电子设备以及存储介质
CN105653738A (zh) 基于人工智能的搜索结果播报方法和装置
CN108334628A (zh) 一种新闻事件聚类的方法、装置、设备和储存介质
CN110489558A (zh) 文章聚合方法和装置、介质和计算设备
CN112395385A (zh) 基于人工智能的文本生成方法、装置、计算机设备及介质
WO2022262487A1 (zh) 一种表单生成方法、装置、设备及介质
CN110609991B (zh) 文本生成方法、电子装置及存储介质
CN113850080A (zh) 一种押韵词推荐方法、装置、设备及存储介质
CN107885719B (zh) 基于人工智能的词汇类别挖掘方法、装置及存储介质
CN112579733B (zh) 规则匹配方法、规则匹配装置、存储介质及电子设备
CN111428011B (zh) 词语的推荐方法、装置、设备及存储介质
CN101374307B (zh) 一种移动设备中更新数字内容信息的方法及装置
CN112632950A (zh) Ppt生成方法、装置、设备及计算机可读存储介质
CN115796177A (zh) 用于实现中文分词与词性标注的方法、介质及电子设备
CN115952258A (zh) 政务标签库的生成方法、政务文本的标签确定方法和装置
KR102560521B1 (ko) 지식 그래프 생성 방법 및 장치
CN110472140B (zh) 对象词推荐方法、装置及电子设备
CN109635281B (zh) 业务导图中更新节点的方法和装置
CN107038183B (zh) 网页标注方法及装置
CN114625922A (zh) 一种构建词库的方法、装置、电子设备及存储介质
EP4127957A1 (en) Methods and systems for searching and retrieving information
CN110750976A (zh) 语言模型构建方法、系统、计算机设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant