CN110162623A - 软文自动生成方法、装置、计算机设备及存储介质 - Google Patents
软文自动生成方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN110162623A CN110162623A CN201910300412.XA CN201910300412A CN110162623A CN 110162623 A CN110162623 A CN 110162623A CN 201910300412 A CN201910300412 A CN 201910300412A CN 110162623 A CN110162623 A CN 110162623A
- Authority
- CN
- China
- Prior art keywords
- target
- keywords
- information
- preset
- soft
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种软文自动生成方法、装置、计算机设备及存储介质,该方法包括:获取目标信息,采用预设的自然语言处理算法对目标信息进行提取,得到目标关键字,在预设的类型数据库中,获取目标产品类型,在预设的产品信息数据库中,获取目标产品信息,然后将目标信息输入至训练好的语言风格深度学习模型,得到目标语言风格,接下来在预设的模板数据库中,获取目标产品类型对应的符合目标语言风格的目标软文模板,最后将目标产品信息填入目标软文模板中,从而自动地生成目标软文,提高了生成软文的效率和自动化水平,同时针对每个用户,根据语言风格,生成符合该用户的阅读习惯的软文,让软文适用每个用户,因此扩大了生成的软文的适用范围。
Description
技术领域
本发明涉及深度学习领域,尤其涉及一种软文自动生成方法、装置、计算机设备及存储介质。
背景技术
目前,企业打广告的方式越来越多,为了让打出的广告能够获取更贴近用户的效果,通常情况下,很多企业采用软文方式打广告。
在传统方法中,通常采用人工方式撰写软文,但是需要撰写的软文的数量庞大,以及软文的撰写工作繁琐,导致需要花费大量的时间才能完成软文的撰写,因此导致生成软文的效率低下,同时,因为软文的撰写方常常站立在自身的角度来撰写软文,导致生成的软文不符合用户的阅读习惯,从而导致生成的软文的适应范围窄小。
因此,寻找一种高效和适应范围广的软文生成方法成为本领域技术人员亟需解决的问题。
发明内容
本发明实施例提供一种软文自动生成方法、装置、计算机设备及存储介质,以解决软文的生成效率低下和生成的软文的适应范围窄小的问题。
一种软文自动生成方法,包括:
获取用户在客户端发布的目标信息;
采用预设的自然语言处理算法对所述目标信息进行提取,得到目标关键字;
在预设的类型数据库中,获取目标关键字对应的目标产品类型;
在预设的产品信息数据库中,获取所述目标产品类型对应的目标产品信息;
将所述目标信息输入至预设的训练好的语言风格深度学习模型中,得到所述语言风格深度学习模型输出的所述用户的目标语言风格,其中,所述语言风格深度学习模型由历史目标信息和历史语言风格训练得到;
在预设的模板数据库中,获取所述目标产品类型对应的符合所述目标语言风格的软文模板作为目标软文模板;
将所述目标产品信息填入所述目标软文模板中,得到所述目标产品类型对应的目标软文。
一种软文自动生成装置,包括:
目标信息获取模块,用于获取用户在客户端发布的目标信息;
关键字提取模块,用于采用预设的自然语言处理算法对所述目标信息进行提取,得到目标关键字;
类型获取模块,用于在预设的类型数据库中,获取目标关键字对应的目标产品类型;
产品信息获取模块,用于在预设的产品信息数据库中,获取所述目标产品类型对应的目标产品信息;
信息输入模块,用于将所述目标信息输入至预设的训练好的语言风格深度学习模型中,得到所述语言风格深度学习模型输出的所述用户的目标语言风格,其中,所述语言风格深度学习模型由历史目标信息和历史语言风格训练得到;
模板获取模块,用于在预设的模板数据库中,获取所述目标产品类型对应的符合所述目标语言风格的软文模板作为目标软文模板;
信息填入模块,用于将所述目标产品信息填入所述目标软文模板中,得到所述目标产品类型对应的目标软文。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述软文自动生成方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述软文自动生成方法的步骤。
上述软文自动生成方法、装置、计算机设备及存储介质中,首先通过自动获取用户在客户端发布的目标信息,因为该目标信息是该用户自身发表的信息,代表了该用户内心真实表达的含义,所以保证了获取到的目标信息的真实性,采用预设的自然语言处理算法对目标信息进行准确地提取,得到精准的目标关键字,在预设的类型数据库中,获取目标关键字对应的目标产品类型,并在预设的产品信息数据库中,获取目标产品类型对应的目标产品信息,然后将目标信息输入至训练好的语言风格深度学习模型,得到用户的目标语言风格,因为该语言风格深度学习模型由准确的历史目标信息和历史语言风格训练得到,所以保证了得到的目标语言风格符合该用户的阅读习惯,接下来在预设的模板数据库中,获取目标产品类型对应的符合目标语言风格的目标软文模板,最后将目标产品信息填入目标软文模板中,从而快速自动地生成该目标产品类型对应的目标软文,提高了生成软文的效率以及自动化水平,同时针对每个用户,根据每个用户的语言风格,生成符合该用户的阅读习惯的软文,让生成的软文适用每个用户,因此扩大了生成的软文的适用范围。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中软文自动生成方法的一应用环境示意图;
图2是本发明一实施例中软文自动生成方法的一流程图;
图3是本发明一实施例中软文自动生成方法中步骤S70的一流程图;
图4是本发明一实施例中软文自动生成方法中步骤S60的一流程图;
图5是本发明一实施例中软文自动生成方法中通过训练好的语言风格深度学习模型,分析目标语言风格的一流程图;
图6是本发明一实施例中软文自动生成方法中步骤S20的一流程图;
图7是本发明一实施例中软文自动生成方法中步骤S203的一流程图;
图8是本发明一实施例中软文自动生成装置的一示意图;
图9是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请提供的软文自动生成方法,可应用如图1的应用环境中,该应用环境包括服务端和客户端,其中,客户端通过有线网络或无线网络与服务端进行通信。其中,客户端可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务端或者是多个服务端组成的服务端集群来实现。客户端用于接收用户发布的目标信息,以及接收服务端发送的目标软文,并展示该目标软文,服务端用于从客户端获取用户发布的目标信息,并根据该目标信息,自动准确地生成符合该用户的阅读风格的目标软文。
在一实施例中,如图2所示,提供一种软文自动生成方法,以该方法应用在图1中的服务端为例进行说明,包括如下步骤:
S10、获取用户在客户端发布的目标信息。
在本实施例中,目标信息为用户在客户端发布的信息,比如目标信息可以为“下个礼拜,我去海南旅游”。该用户是指自然人,比如该用户为“张三”。其中,该目标信息专门存储于发布数据库中,处于随时可以调用的状态。
需要说明的是,同一个用户发布的目标信息可以相同,也可以不相同,同时,不同的用户发布的目标信息可以相同,也可以不相同。
具体地,通常用户在客户端发布自身的目标信息,然后服务端采用预设的网络爬虫工具实时抓取该目标信息,并将抓取到的目标信息保证至发布数据库中,也即,该用户在客户端发布的目标信息会被服务端实时地保证至该发布数据库中,接下来服务端在该发布数据库中获取该目标信息的存储路径,然后根据该存储路径提取该目标信息。
为了更好地理解步骤S10,下面通过一个例子进行说明,具体表述如下:
例如,假设该用户为“张三”,该客户端为智能手机,“张三”在智能手机的微博应用上发布的目标信息为“下个礼拜,我去海南旅游”,预设的网络爬虫工具为三抓鱼采集器,发布数据库为MySQL数据库,该目标信息的存储路径为“C:\Program Files\MySQL\MySQLServer 5.0\data\”,则服务端采用三抓鱼采集器抓取“张三”在智能手机的微博应用上发布的“下个礼拜,我去海南旅游,听说海南的椰子很有名”,并将“下个礼拜,我去海南旅游”保证至MySQL数据库中,接下来在MySQL数据库中获取“C:\Program Files\MySQL\MySQLServer 5.0\data\”,然后根据该“C:\Program Files\MySQL\MySQL Server 5.0\data\”提取“下个礼拜,我去海南旅游”,其中,该三抓鱼采集器为一款网页采集软件。
需要说明的是,客户端可以为智能手机或平板电脑等,发布数据库可以为SQL数据库或oracle数据库等,客户端、发布数据库和预设的网络爬虫工具的具体内容,可以根据实际应用进行设定,此处不做限制。
S20、采用预设的自然语言处理算法对目标信息进行提取,得到目标关键字。
在本实施例中,自然语言处理算法是指能实现人与计算机之间用自然语言进行有效通信的方法。
具体地,采用预设的自然语言处理算法对目标信息进行提取,得到目标关键字,例如,继续以步骤S10中的例子进行说明,采用隐马尔可夫模型,从步骤S10中获取到的“下个礼拜,我去海南旅游”中提取需求关键字为“海南”和“旅游”,其中,目标关键字为专门给用户的需求而设置的关键字,隐马尔可夫模型是指用来描述一个含有隐含未知参数的马尔可夫过程的统计模型。
需要说明的是,该预设的自然语言处理算法可以为隐马尔可夫模型或马尔科夫链模型,还可以为其他模型,该预设的自然语言处理算法的具体内容,可以根据实际应用进行设定,此处不做限制。
S30、在预设的类型数据库中,获取目标关键字对应的目标产品类型。
在本实施例中,预设的类型数据库存储了每个目标关键字对应的目标产品类型,处于随时可以调用的状态。其中,针对每个目标关键字,该目标产品类型为该目标关键字对应的目标产品的类型,比如,假设该目标关键字为“娱乐”,“娱乐”对应的目标产品为《反恐精英》游戏,《反恐精英》的类型为“游戏”。
需要说明的是,该目标关键字对应的目标产品的数量可以为一个或者两个以上。
具体地,服务端在该预设的类型数据库中,获取步骤S20中提取到的目标关键字对应的目标产品类型的存储路径,然后根据该存储路径提取该目标产品类型。
需要说明的是,该预设的类型数据库可以为SQL数据库或oracle数据库等,该预设的类型数据库的具体内容,可以根据实际应用进行设定,此处不做限制。
S40、在预设的产品信息数据库中,获取目标产品类型对应的目标产品信息。
在本实施例中,目标产品信息为步骤S30中获取到的目标产品类型对应的目标产品的信息,比如目标产品信息为“《无双》是由庄文强执导的犯罪动作电影,由周润发、郭富城、张静初、冯文娟领衔主演,廖启智、周家怡、王耀庆联合主演,于2018年9月30日在中国内地上映”。
需要说明的是,一个目标产品类型对应的目标产品的数量可以为一个或二个以上,比如“娱乐”对应的目标产品可以为“电影”或和“游戏”。该目标产品信息专门存储于预设的产品信息数据库中,处于随时可以调用的状态。
具体地,在预设的产品信息数据库中获取步骤S30中获取到的目标产品类型所对应的目标产品信息的存储路径,然后根据该存储路径提取该目标产品信息。
需要说明的是,该预设的产品信息数据库可以为SQL数据库或oracle数据库等,该预设的产品信息数据库的具体内容,可以根据实际应用进行设定,此处不做限制。
S50、将目标信息输入至预设的训练好的语言风格深度学习模型中,得到语言风格深度学习模型输出的用户的目标语言风格,其中,语言风格深度学习模型由历史目标信息和历史语言风格训练得到。
具体地,将步骤S10中获取到的该用户的目标信息输入至预设的训练好的语言风格深度学习模型中进行语言风格识别,得到该语言风格深度学习模型输出的该用户的目标语言风格,比如将步骤S10中获取到的该用户的目标信息输入至卷积神经网络模型中,得到该用户的目标语言风格,其中,该目标语言风格为该用户的目标信息所属的语言风格,比如该用户的目标信息为“今年冬天,异常寒冷,宝宝冻得瑟瑟发抖,鼻尖冷冷的,弹玻璃球的手冻得红红的,想买个儿童热水袋,有谁愿意推荐下好的品牌”的语言风格为“艺术文体风格”。
需要说明的是,该语言风格深度学习模型由历史目标信息和历史语言风格训练得到,该历史目标信息为已成功获取到的历史用户的目标信息。该语言风格深度学习模型的具体内容,可以根据实际应用进行设定,此处不做限制。
进一步地,将目标信息输入至预设的训练好的语言风格深度学习模型中,得到语言风格深度学习模型输出的用户的目标语言风格,具体包括:
首先采用预设的语义识别工具,对步骤S10中获取到的样本中的历史目标信息进行语义识别处理,得到该历史目标信息对应的语义关键字,然后在预设的语言风格数据库中,获取与该语义关键字相匹配的目标语义关键字对应的语言风格,作为该语义关键字的关键字语言风格,最后将该关键字语言风格确定为该深度学习模型输出的该用户的目标语言风格,其中,该语义关键字是指专门给该历史目标信息的语义而设置的关键字,该语义关键字可以为单独一个关键字或两个以上关键字的组合,比如该语义关键字为“儿童热水袋”,或者“鼻尖冷冷”、“冻得红红”和“儿童热水袋”的组合。
需要说明的是,该预设的语义识别工具可以为腾讯文智中文语义识别工具,还可以为其他语义识别工具,该预设的语言风格数据库可以为SQL数据库或orable数据库,该预设的语言风格数据库的具体内容,可以根据实际应用进行设定,此处不做限制。
S60、在预设的模板数据库中,获取目标产品类型对应的符合目标语言风格的软文模板作为目标软文模板。
在本实施例中,软文模板为用于生成软文的模板,该软文模板专门存储于预设的模板数据库中,处于随时可以调用的状态。
具体地,针对该目标产品类型对应的每个软文模板,先在该预设的模板数据库中获取该软文模板的存储路径,然后根据该存储路径提取该软文模板,最后在获取到的软文模板中,选定符合步骤S50中识别得到的目标语言风格的软文模板,作为目标软文模板。
需要说明的是,一个目标产品类型存在两个以上不同语言风格的软文模板,该预设的模板数据库可以为SQL数据库或oracle数据库等,该预设的模板数据库的具体内容,可以根据实际应用进行设定,此处不做限制。
S70、将目标产品信息填入目标软文模板中,得到目标产品类型对应的目标软文。
具体地,将该目标产品类型对应的的目标产品信息填入该目标软文模板中,得到该目标产品类型对应的目标软文,比如,继续以步骤S40的例子进行说明,将“《无双》是由庄文强执导的犯罪动作电影,由周润发、郭富城、张静初、冯文娟领衔主演,廖启智、周家怡、王耀庆联合主演,于2018年9月30日在中国内地上映”填入目标软文模板中,得到“电影”对应的目标软文。
在图2对应的实施例中,通过上述步骤S10至步骤S70,首先通过自动获取用户在客户端发布的目标信息,因为该目标信息是该用户自身发表的信息,代表了该用户内心真实表达的含义,所以保证了获取到的目标信息的真实性,采用预设的自然语言处理算法对目标信息进行准确地提取,得到精准的目标关键字,在预设的类型数据库中,获取目标关键字对应的目标产品类型,并在预设的产品信息数据库中,获取目标产品类型对应的目标产品信息,然后将目标信息输入至训练好的语言风格深度学习模型,得到用户的目标语言风格,因为该语言风格深度学习模型由准确的历史目标信息和历史语言风格训练得到,所以保证了得到的目标语言风格符合该用户的阅读习惯,接下来在预设的模板数据库中,获取目标产品类型对应的符合目标语言风格的目标软文模板,最后将目标产品信息填入目标软文模板中,从而快速自动地生成该目标产品类型对应的目标软文,提高了生成软文的效率以及自动化水平,同时针对每个用户,根据每个用户的语言风格,生成符合该用户的阅读习惯的软文,让生成的软文适用每个用户,因此扩大了生成的软文的适用范围。
在一具体实施例中,如图3所示,步骤S70,即在预设的类型数据库中,获取目标关键字对应的目标产品类型,具体包括如下步骤:
S701、针对每个目标关键字,在预设的包含地名信息的地名数据库中查询目标关键字是否存在。
具体地,针对步骤S20中获取到的每个目标关键字,在预设的包含地名信息的地名数据库中查询该目标关键字是否存在,比如,继续以步骤20中的例子进行说明,在预设的包含地名信息的地名数据库中查询“海南”是否存在,和在预设的包含地名信息的地名数据库中查询“旅游”是否存在。
需要说明的是,该地名数据库的具体内容,可以根据实际应用进行设定,此处不做限制。
S702、当在地名数据库中查询到目标关键字时,确定目标关键字为地点关键字。
具体地,当在该地名数据库中查询到该目标关键字时,服务端确定该目标关键字为地点关键字,其中,地点关键字为包含地名信息的关键字,比如地点关键字为“深圳”。
例如,当在该地名数据库中查询到“海南”时,服务端确定“海南”为地点关键字。
S703、从目标关键字中去除地点关键字,得到其他关键字。
具体地,从步骤S20中获取到的目标关键字中,去除步骤S702中确定出的地点关键字,得到其他关键字。比如,继续以步骤S20和步骤S702中的例子进行说明,从“海南”和“旅游”中去除“海南”,得到其他关键字为“旅游”。
S704、在预设的类型数据库中,获取其他关键字对应的目标产品类型,其中,目标产品类型为地点关键字标识的地域对应的产品类型。
在本实施例中,该其他关键字对应的目标产品类型专门存储于预设的类型数据库中,处于随时可以调用的状态。
具体地,在该预设的类型数据库中获取该其他关键字对应的目标产品类型的存储路径,然后根据该存储路径提取该目标产品类型。比如,继续以步骤S703的例子进行说明,假设预设的类型数据库为SQL数据库,“旅游”对应的目标产品类型为“保险”和“酒店”,则在SQL数据库中,获取“保险”的存储路径,然后根据该存储路径提取“保险”,和获取“酒店”的存储路径,然后根据该存储路径提取“酒店”。
其中,该目标产品类型为该地点关键字标识的地域对应的产品类型,比如,假设该地点关键字为“深圳”,则“保险”为“深圳”标识的地域对应的产品类型。
需要说明的是,该预设的类型数据库可以为SQL数据库或oracle数据库等,该预设的类型数据库的具体内容,可以根据实际应用进行设定,此处不做限制。
S705、当在地名数据库中未查询到目标关键字时,在预设的类型数据库中,获取目标关键字对应的目标产品类型。
具体地,当在该地名数据库中未查询到该目标关键字时,服务端在该预设的类型数据库中,获取该目标关键字对应的目标产品类型。比如,假设该目标关键字的数量仅有一个,该目标关键字为“旅游”,“旅游”对的目标产品类型为“保险”,则当在该地名数据库中未查询到“旅游”时,服务端在该预设的类型数据库中,获取“旅游”对应的“保险”。
需要说明的是,该目标关键字对应的目标产品类型,不受地域限制,也即该目标产品类型所属的地域可以为全国各地。
进一步地,在获取到在目标产品类型的基础上,如图4所示,在步骤S60中,预设的模板数据库中,获取目标产品类型对应的符合目标语言风格的软文模板作为目标软文模板,具体包括如下步骤:
S601、在预设的模板数据库中,获取目标产品类型对应的符合目标语言风格的软文模板。
具体地,针对该目标产品类型对应的每个软文模板,先在该预设的模板数据库中获取该软文模板的存储路径,然后根据该存储路径提取该软文模板,最后在获取到的软文模板中,筛选出符合该目标语言风格的软文模板。
需要说明的是,本步骤S601中预设的模板数据库的内容与步骤S60中预设的模板数据库的内容一致,本步骤S601中目标产品类型的内容与步骤S30中目标产品类型的内容一致,本步骤S601中目标语言风格的内容与步骤S50中目标语言风格的内容一致,本步骤S601中软文模板的内容与步骤S60中软文模板的内容一致,此处不再阐述。
S602、若地点关键字不存在,则将软文模板作为目标软文模板。
具体地,若在步骤S20中提取到的目标关键字中不存在有地点关键字,则将步骤S601中获取到的软文模板作为目标软文模板。比如,步骤S20中提取到的目标关键字为“娱乐”和“旅游”,显然在“娱乐”和“旅游”中不存在有地点关键字,则将该软文模板作为目标软文模板。
S603、若地点关键字存在,则从软文模板中筛选出地点关键字标识的地域对应的软文模板,作为目标软文模板。
具体地,若在步骤S20中提取到的目标关键字中存在有地点关键字,则从步骤S601中获取到的软文模板中筛选出该地点关键字标识的地域对应的软文模板,作为目标软文模板。其中,本步骤S603中地点关键字的内容与步骤S702中地点关键字的内容一致,此处不再阐述。
需要说明的是,一个目标产品类型存在对应的两个以上不同地域的软文模板。
例如,假设步骤S20中提取到的目标关键字分别为“深圳”和“保险”,显然在“深圳”和“保险”中存在有地点关键字“深圳”,则从步骤S601中获取到的软文模板中筛选出“深圳”标识的地域对应的软文模板,作为目标软文模板。
在图3和图4对应的实施例中,通过上述步骤S701至步骤S705,和步骤S601至步骤S603,首先分析目标关键字是否存在地点关键字,当存在时,从该目标关键字剔除掉地点关键字,得到剔除后的目标关键字,同时针对剔除后的目标关键字,也即针对不包括地点关键字的目标关键字,获取其对应的地点关键字标识的地域下的软文模板,避免了目标关键字受到不必要的地点关键字干扰,也即避免了该目标关键字对应的目标产品类型受到繁杂的干扰,以使得确定出的目标产品类型更加准确,同时因地制宜,根据该用户的目标关键字的特点,选择适合的本地的软文模板,提高了软文模板的实用性。
在一具体实施例中,如图5所示,在S50之前,还可以通过训练好的语言风格深度学习模型,分析出用户的目标语言风格,具体包括如下步骤:
S801、从预设的历史数据库中,获取历史目标信息和历史目标信息对应的历史语言风格作为样本。
在本实施例中,历史目标信息和该历史目标信息对应的历史语言风格专门存储在预设的历史数据库中,处于随时可以调用的状态。其中,本步骤S801中的历史目标信息的内容与步骤S50中的历史目标信息的内容一致,此处不再阐述。
具体地,首先获取该历史目标信息在该预设的历史数据库中的存储路径,然后根据该存储路径提取该历史目标信息,接下来获取该历史目标信息对应的历史语言风格在该预设的历史数据库中的存储路径,根据该存储路径提取该历史语言风格,最后将提取到的历史目标信息和历史语言风格确定为样本。
需要说明的是,该预设的历史数据库可以为SQL数据库或orable数据库,该预设的历史数据库的具体内容,可以根据实际应用进行设定,此处不做限制。
S802、采用预设的语义识别工具,对样本中的历史目标信息进行语义识别处理,得到历史目标信息对应的语义关键字。
具体地,为了获取该样本中的历史目标信息的语义,需要采用预设的语义识别工具,对该历史目标信息进行自动准确地语义识别处理,便得到精准的该历史目标信息对应的语义关键字。
例如,假设该历史目标信息为“今年冬天,异常寒冷,宝宝冻得瑟瑟发抖,鼻尖冷冷的,弹玻璃球的手冻得红红的,想买个儿童热水袋,有谁愿意推荐下好的品牌”,预设的语义识别工具为腾讯文智中文语义识别工具,则采用腾讯文智中文语义识别工具,对“今年冬天,异常寒冷,宝宝冻得瑟瑟发抖,鼻尖冷冷的,弹玻璃球的手冻得红红的,想买个儿童热水袋,有谁愿意推荐下好的品牌”进行语义识别处理,得到语义关键字为“冬天”、“寒冷”、“宝宝”、“瑟瑟发抖”、“鼻尖冷冷”、“冻得红红”和“儿童热水袋”。其中,本步骤S802中的预设的语义识别工具的内容与步骤S50中的预设的语义识别工具的内容一致,本步骤S802中的语义关键字的内容与步骤S50中的语义关键字的内容一致,此处不再阐述。
S803、在预设的语言风格数据库中,获取与语义关键字相匹配的目标语义关键字对应的语言风格,作为语义关键字的关键字语言风格。
在本实施例中,预设的语言风格数据库专门存储了预设的目标语义关键字对应的语言风格,其中,该预设的目标语义关键字为预设设置好的语义关键字。
具体地,首先在预设的语言风格数据库中,获取该预设的目标语义关键字对应的语言风格,然后在获取的语言风格中,选定与该语义关键字相匹配的目标语义关键字对应的语言风格,作为该语义关键字的关键字语言风格,其中,该关键字语言风格是指专门给该语义关键字而设置的语言风格。
需要说明的是,该预设的语言风格数据库可以为SQL数据库或oracle数据库等,该预设的语言风格数据库的具体内容,可以根据实际应用进行设定,此处不做限制。
进一步地,该语义关键字与该目标语义关键字进行匹配的过程,具体包括:
按照字符匹配的方式,将该语义关键字与该目标关键字进行匹配,当该语义关键字中的字符与该目标关键字中的字符一致时,确定该语义关键字与该目标关键字相匹配,当该语义关键字中的字符与该目标关键字中的字符不一致时,确定该语义关键字与该目标关键字不匹配。或者,当该语义关键字中的字符与该目标关键字中的字符的相似度值大于或等于预设的阈值时,确定该语义关键字与该目标关键字相匹配,当该语义关键字中的字符与该目标关键字中的字符的相似度值小于预设的阈值时,确定该语义关键字与该目标关键字不匹配。
需要说明的是,预设的阈值的具体内容,可以根据实际应用进行设定,此处不做限制。
S804、将关键字语言风格确定为深度学习模型输出的训练结果。
具体地,将步骤S803中获取到的关键字语言风格确定为该深度学习模型输出的训练结果,比如,假设步骤S803中获取到的关键字语言风格为“艺术文体风格”,则将“艺术文体风格”确定为该深度学习模型输出的训练结果,其中,该训练结果为训练该深度学习模型所得到的结果。
S805、调整深度学习模型的隐含层的参数,以最小化训练结果与样本中的历史语言风格之间的误差。
在本实施例中,隐含层的参数包括神经元和神经节点数目等。
具体地,因为可能不能准确地获取到与该语义关键字相匹配的目标语义关键字对应的语言风格,也即,该语义关键字与目标语义关键字匹配的准确度不够高,从而导致获取到与该语义关键字的匹配度较低的目标语义关键字对应的语言风格作为关键字语言风格,所以需要对深度学习模型的隐含层的参数进行断地调整,以使得该训练结果与样本中的历史语言风格之间的误差最小化。
进一步地,判断训练结果与样本中的历史语言风格的误差是否满足预设的条件。
需要说明的是,预设的条件可以为“必须包括历史语言风格,如“艺术文体风格”等,训练结果的总共字数不能超过15个”,预设的条件的具体内容,可以根据实际应用进行设定,此处不做限制。
为了更好地理解步骤S803、步骤S804和步骤S805,下面通过一个例子进行说明,具体表述如下:
例如,继续以步骤S802的例子进行说明,假设与“冬天”、“寒冷”、“宝宝”、“瑟瑟发抖”、“鼻尖冷冷”、“冻得红红”和“儿童热水袋”相匹配的目标语义关键字为“今年”、“凛冽”、“西北风”、“冬天”、“寒冷”、“宝宝”、“瑟瑟发抖”、“鼻尖冷冷”、“冻得红红”和“儿童热水袋”,“今年”、“凛冽”、“西北风”、“冬天”、“寒冷”、“宝宝”、“瑟瑟发抖”、“鼻尖冷冷”、“冻得红红”和“儿童热水袋”对应的语言风格为“艺术文体风格”,深度学习模型为卷积神经网络模型,则将“语言风格为艺术文体风格”作为“冬天”、“寒冷”、“宝宝”、“瑟瑟发抖”、“鼻尖冷冷”、“冻得红红”和“儿童热水袋”的关键字语言风格,然后将“语言风格为艺术文体风格”确定为该卷积神经网络模型输出的训练结果,最后不断该卷积神经网络模型的隐含层的参数,以最小化该训练结果与“艺术文体风格”之间的误差,比如训练结果为“用户的语言风格为艺术文体风格”,则认为训练结果与“艺术文体风格”之间的误差最小化,如输出结果为“日常口语”,则认为训练结果与样本中的“艺术文体风格”之间的误差很大,还需要不断调整隐含层的参数,直到该误差最小化。
S806、当误差满足预设的条件时,确定参数调整后的深度学习模型为训练好的语言风格深度学习模型。
具体地,当步骤S805中得到的误差满足该预设的条件时,确定参数调整后的深度学习模型为训练好的语言风格深度学习模型,当步骤S805中得到的误差不满足该预设的条件时,确定参数调整后的深度学习模型不是训练好的语言风格深度学习模型,并返回执行步骤S805,直到该误差满足该预设的条件为止。
在图5对应的实施例中,通过上述步骤S801至步骤S806,因为该历史目标信息为已成功获取到的准确的信息,和该历史目标信息对应的历史语言风格为已成功获取到的准确的语言风格,所以保证了样本是准确的,同时预设的语义识别工具有准确地识别语义的功能,所以采用预设的语义识别工具,对样本中的历史目标信息进行语义识别处理,得到准确的语义关键字,接下来根据准确的语义关键字对应的语言风格,不断地调整深度学习模型的隐含层的参数,直到训练结果与样本中的历史语言风格之间的误差最小化,便可以确保训练好的深度学习模型可以从目标信息中准确地识别出目标语言风格,提高了语言风格深度学习模型的识别准确性。
在一具体实施例中,如图6所示,步骤S20,即采用预设的自然语言处理算法对目标信息进行提取,得到当前关键字,具体包括如下步骤:
S201、采用预设的分词工具对目标信息进行分词处理,得到每个子目标信息。
在本实施例中,分词为将连续的字序列按照一定的规范重新组合成词序列的过程。
具体地,通常该目标信息为一段话或一句话,同时往往该目标信息为非书面语表述,为了得到子目标信息,需要采用预设的分词工具对该目标信息进行分词处理,得到规范化的每个子目标信息,也即得到每个单独的词。
例如,假设该目标信息为“我去海南旅游”,则采用中科院汉语分词系统对“我去海南旅游”进行分词处理,得到“我”、“去”、“海南”和“旅游”。
需要说明的是,预设的分词工具的具体内容,可以根据实际应用进行设定,此处不做限制。
S202、采用预设的停用词去除工具对每个子目标信息进行去除停用词,得到去除停用词后的每个子目标信息。
在本实施例中,停用词为在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据之前或之后会自动过滤掉某些字或词,如“的”、“是”和“在”。
具体地,服务端采用预设的停用词去除工具,对步骤S201中分词得到的每个子目标信息进行去除停用词,得到去除停用词后的每个子目标信息,比如,继续以步骤S201中的例子进行说明,服务端采用Nltk去除停用词工具对“我”、“去”、“海”、“南”、“旅”和“游”进行去除停用词,得到“海南”和“旅游”,其中,Nltk为python下处理语言的主要工具包,可以实现去除停用词的功能,python是一种计算机程序设计语言。
需要说明的是,预设的停用词去除工具的具体内容,可以根据实际应用进行设定,此处不做限制。
S203、采用TF-IDF算法,计算去除停用词后的每个子目标信息对应的重要值,其中,重要值为去除后的每个子目标信息在目标信息中的重要程度对应的值。
在本实施例中,TF-IDF算法,英文全称为term frequency–inverse documentfrequency,是一种用于信息检索与数据挖掘的常用加权算法。
具体地,服务端采用TF-IDF算法,计算去除停用词后的每个子目标信息对应的重要值,其中,重要值为去除后的每个子目标信息在该目标信息中的重要程度对应的值。比如,继续以步骤S202中的例子进行说明,服务端采用TF-IDF算法,计算“海南”对应的重要值和“旅游”对应的重要值。
需要说明的是,该子目标信息对应的重要值越大,代表该子目标信息在在该目标信息中的重要程度越高,反之该子目标信息对应的重要值越低,代表该子目标信息在在该目标信息中的重要程度越低。
S204、判断每个重要值是否大于或等于预设的阈值。
具体地,服务端判断步骤S203中计算得到的每个子目标信息对应的重要值是否大于或等于预设的阈值,比如,继续以步骤S203中的例子进行说明,假设“海南”对应的重要值为5,和“旅游”对应的重要值为8,该预设的阈值为6,则显然“旅游”对应的重要值大于该预设的阈值。
需要说明的是,重要值的具体内容,可以根据实际应用进行设定,此处不做限制。
S205、当重要值大于或等于预设的阈值时,确定大于或等于预设的阈值的重要值对应的子目标信息为目标关键字。
具体地,当步骤S203中计算得到的子目标信息对应的重要值大于或等于预设的阈值时,确定该子目标信息为目标关键字,继续以步骤S204中的例子进行说明,“旅游”对应的重要值8大于该预设的阈值6,则将“旅游”确定为目标关键字。其中,本步骤S205中的目标关键字的内容与步骤S20中的目标关键字的内容一致,此处不再阐述。
在图6对应的实施例中,通过上述步骤S201至步骤S205,先准确地将目标信息分成单独的子目标信息,然后对每个子目标信息进行去除停用词,得到去除干扰的停用词后的子目标信息,避免了存在干扰的子目标信息,接下来采用TF-IDF算法自动准确地计算每个子目标信息的重要值,并根据重要值和预设的阈值,自动地确定该子目标信息是否为目标关键字,提高了确定出目标关键字的准确率和自动化水平。
在一具体实施例中,如图7所示,步骤S203,即采用TF-IDF算法,计算去除停用词后的每个子目标信息对应的重要值,具体包括如下步骤:
S2031、在预设的语料数据库中,获取去除停用词后的每个子目标信息对应的词频。
在本实施例中,预设的语料数据库存储了各个子目标信息,处于随时可以调用的状态。
具体地,在该预设的语料数据库中获取去除停用词后的每个子目标信息对应的词频的存储路径,然后根据该存储路径提取该词频。其中,该词频是指该子目标信息在该语料数据库中出现的次数,比如,继续以步骤S203中的例子进行说明,“旅游”的词频为0.03。
需要说明的是,需要说明的是,该子目标信息对应的词频越大,代表该子目标信息在该语料数据库中出现的次数越高,反之该子目标信息对应的词频越低,代表该子目标信息在该语料数据库中出现的次数越低。
S2032、在预设的语料数据库中,获取去除停用词后的每个子目标信息对应的逆文档频率。
在本实施例中,该预设的语料数据库存储了各个预设的文件,处于随时可以调用的状态。
具体地,针对每个子目标信息,在该预设的语料数据库中,先获取包含该目标信息之文件的文件数目,然后获取文件的总数目,最后将该总数目除以该文件数目,再将得到的商取对数,从而得到该目标信息对应的逆文档频率,比如,继续以步骤S203中的例子进行说明,假设“旅游”一词在1000份文件出现过,而文件的总数目是10000000份的话,经过计算其逆向文件频率为9.21。其中,该逆文档频率是指该子目标信息的普遍重要性的度量。
需要说明的是,该子目标信息对应的逆文档频率越大,代表该子目标信息的普遍重要性越高,反之该子目标信息对应的逆文档频率越低,代表该子目标信息的普遍重要性越低。
S2033、针对去除停用词后的每个子目标信息,将词频与逆文档频率的乘积确定为该子目标信息对应的重要值。
具体地,针对步骤S202中得到的去除停用词后的每个子目标信息,将该子目标信息的词频与该子目标信息的逆文档频率的乘积确定为该子目标信息对应的重要值。比如,继续以步骤S202和步骤S203中的例子进行说明,“旅游”的词频为0.03,“旅游”的逆文档频率为9.21,则经过计算0.03与9.21的乘积为0.28,将0.28确定为“旅游”对应的重要值。
在图7对应的实施例中,通过上述步骤S2031至步骤S2033,先准确地计算每个子目标信息对应的词频,也即准确地计算每个子目标信息在该语料数据库中出现的次数,然后准确地计算每个子目标信息对应的逆文档频率,也即准确地计算每个子目标信息的普遍重要性,因为该子目标信息的次数越高,代表该子目标信息在该语料数据库中越重要,同时该子目标信息的普遍重要性越高,代表该子目标信息的普遍性越重要,因此根据词频和逆文档频率,可以准确地计算出每个子目标信息的重要值,提高了重要值的计算准确性。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种软文自动生成装置,该软文自动生成装置与上述实施例中软文自动生成方法一一对应。如图8所示,该软文自动生成装置包括目标信息获取模块701、关键字提取模块702、类型获取模块703、产品信息获取模块704、信息输入模块705、模板获取模块706和信息填入模块707。各功能模块详细说明如下:
目标信息获取模块701,用于获取用户在客户端发布的目标信息;
关键字提取模块702,用于采用预设的自然语言处理算法对目标信息进行提取,得到目标关键字;
类型获取模块703,用于在预设的类型数据库中,获取目标关键字对应的目标产品类型;
产品信息获取模块704,用于在预设的产品信息数据库中,获取目标产品类型对应的目标产品信息;
信息输入模块705,用于将目标信息输入至预设的训练好的语言风格深度学习模型中,得到语言风格深度学习模型输出的用户的目标语言风格,其中,语言风格深度学习模型由历史目标信息和历史语言风格训练得到;
模板获取模块706,用于在预设的模板数据库中,获取目标产品类型对应的符合目标语言风格的软文模板作为目标软文模板;
信息填入模块707,用于将目标产品信息填入目标软文模板中,得到目标产品类型对应的目标软文。
进一步地,该信息填入模块707包括:
关键字查询子模块7071,用于针对每个目标关键字,在预设的包含地名信息的地名数据库中查询目标关键字是否存在;
地点关键字确定子模块7072,用于当在地名数据库中查询到目标关键字时,确定目标关键字为地点关键字;
地点关键字去除子模块7073,用于从目标关键字中去除地点关键字,得到其他关键字;
第一产品类型获取子模块7074,用于在预设的类型数据库中,获取其他关键字对应的目标产品类型,其中,目标产品类型为地点关键字标识的地域对应的产品类型;
第二产品类型获取子模块7075,用于当在地名数据库中未查询到目标关键字时,在预设的类型数据库中,获取目标关键字对应的目标产品类型;
进一步地,该模板获取模块706包括:
软文模板获取子模块7061,用于在预设的模板数据库中,获取目标产品类型对应的符合目标语言风格的软文模板;
目标模板确定子模块7062,用于若地点关键字不存在,则将软文模板作为目标软文模板;
软文模板筛选子模块7063,用于若地点关键字存在,则从软文模板中筛选出地点关键字标识的地域对应的软文模板,作为目标软文模板。
进一步地,该软文自动生成装置还包括:
样本获取模块7081,用于从预设的历史数据库中,获取历史目标信息和历史目标信息对应的历史语言风格作为样本;
关键字提取模块7082,用于采用预设的语义识别工具,对样本中的历史目标信息进行语义识别处理,得到历史目标信息对应的语义关键字;
风格获取模块7083,用于在预设的语言风格数据库中,获取与语义关键字相匹配的目标语义关键字对应的语言风格,作为语义关键字的关键字语言风格;
训练结果确定模块7084,用于将关键字语言风格确定为深度学习模型输出的训练结果;
参数调整模块7085,用于调整深度学习模型的隐含层的参数,以最小化训练结果与样本中的历史语言风格之间的误差;
模型确定模块7086,用于当误差满足预设的条件时,确定参数调整后的深度学习模型为训练好的语言风格深度学习模型。
进一步地,关键字提取模块702包括:
分词子模块7021,用于采用预设的分词工具对目标信息进行分词处理,得到每个子目标信息;
去除子模块7022,用于采用预设的停用词去除工具对每个子目标信息进行去除停用词,得到去除停用词后的每个子目标信息;
计算子模块7023,用于采用TF-IDF算法,计算去除停用词后的每个子目标信息对应的重要值,其中,重要值为去除后的每个子目标信息在目标信息中的重要程度对应的值;
判断子模块7024,用于判断每个重要值是否大于或等于预设的阈值;
关键字确定子模块7025,用于当重要值大于或等于预设的阈值时,确定大于或等于预设的阈值的重要值对应的子目标信息为目标关键字。
进一步地,计算子模块7023包括:
词频获取子模块70231,用于在预设的语料数据库中,获取去除停用词后的每个子目标信息对应的词频;
频率获取子模块70232,用于在预设的语料数据库中,获取去除停用词后的每个子目标信息对应的逆文档频率;
重要值确定子模块70233,用于针对去除停用词后的每个子目标信息,将词频与逆文档频率的乘积确定为该子目标信息对应的重要值。
关于软文自动生成装置的具体限定可以参见上文中对于软文自动生成方法的限定,在此不再赘述。上述软文自动生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务端,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储软文自动生成方法所涉及到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种软文自动生成方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例软文自动生成方法的步骤,例如图2所示的步骤S10至步骤S70。或者,处理器执行计算机程序时实现上述实施例中软文自动生成装置的各模块/单元的功能,例如图8所示模块701至模块707的功能。为避免重复,这里不再赘述。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述方法实施例中软文自动生成方法,或者,该计算机程序被处理器执行时实现上述装置实施例中软文自动生成装置中各模块/单元的功能。为避免重复,这里不再赘述。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种软文自动生成方法,其特征在于,所述软文自动生成方法包括:
获取用户在客户端发布的目标信息;
采用预设的自然语言处理算法对所述目标信息进行提取,得到目标关键字;
在预设的类型数据库中,获取目标关键字对应的目标产品类型;
在预设的产品信息数据库中,获取所述目标产品类型对应的目标产品信息;
将所述目标信息输入至预设的训练好的语言风格深度学习模型中,得到所述语言风格深度学习模型输出的所述用户的目标语言风格,其中,所述语言风格深度学习模型由历史目标信息和历史语言风格训练得到;
在预设的模板数据库中,获取所述目标产品类型对应的符合所述目标语言风格的软文模板作为目标软文模板;
将所述目标产品信息填入所述目标软文模板中,得到所述目标产品类型对应的目标软文。
2.如权利要求1所述的软文自动生成方法,其特征在于,所述在预设的类型数据库中,获取目标关键字对应的目标产品类型包括:
针对每个所述目标关键字,在预设的包含地名信息的地名数据库中查询所述目标关键字是否存在;
当在所述地名数据库中查询到所述目标关键字时,确定所述目标关键字为地点关键字;
从所述目标关键字中去除所述地点关键字,得到其他关键字;
在所述预设的类型数据库中,获取所述其他关键字对应的所述目标产品类型,其中,所述目标产品类型为所述地点关键字标识的地域对应的产品类型;
当在所述地名数据库中未查询到所述目标关键字时,在所述预设的类型数据库中,获取所述目标关键字对应的所述目标产品类型;
所述在预设的模板数据库中,获取所述目标产品类型对应的符合所述目标语言风格的软文模板作为目标软文模板包括:
在预设的模板数据库中,获取所述目标产品类型对应的符合所述目标语言风格的所述软文模板;
若所述地点关键字不存在,则将所述软文模板作为所述目标软文模板;
若所述地点关键字存在,则从所述软文模板中筛选出所述地点关键字标识的地域对应的软文模板,作为所述目标软文模板。
3.如权利要求1所述的软文自动生成方法,其特征在于,在所述将所述目标信息输入至预设的训练好的语言风格深度学习模型中,得到所述语言风格深度学习模型输出的所述用户的目标语言风格之前,所述软文自动生成方法还包括:
从预设的历史数据库中,获取所述历史目标信息和所述历史目标信息对应的所述历史语言风格作为样本;
采用预设的语义识别工具,对所述样本中的所述历史目标信息进行语义识别处理,得到所述历史目标信息对应的语义关键字;
在预设的语言风格数据库中,获取与所述语义关键字相匹配的目标语义关键字对应的语言风格,作为所述语义关键字的关键字语言风格;
将所述关键字语言风格确定为所述深度学习模型输出的训练结果;
调整所述深度学习模型的隐含层的参数,以最小化所述训练结果与所述样本中的所述历史语言风格之间的误差;
当所述误差满足预设的条件时,确定所述参数调整后的所述深度学习模型为所述训练好的语言风格深度学习模型。
4.如权利要求1至3中任一项所述的软文自动生成方法,其特征在于,所述采用预设的自然语言处理算法对所述目标信息进行提取,得到当前关键字包括:
采用预设的分词工具对所述目标信息进行分词处理,得到每个子目标信息;
采用预设的停用词去除工具对每个所述子目标信息进行去除停用词,得到去除停用词后的每个所述子目标信息;
采用TF-IDF算法,计算去除停用词后的每个所述子目标信息对应的重要值,其中,所述重要值为去除后的每个所述子目标信息在所述目标信息中的重要程度对应的值;
判断每个所述重要值是否大于或等于预设的阈值;
当所述重要值大于或等于所述预设的阈值时,确定大于或等于所述预设的阈值的所述重要值对应的所述子目标信息为所述目标关键字。
5.如权利要求4所述的软文自动生成方法,其特征在于,采用TF-IDF算法,计算去除停用词后的每个所述子目标信息对应的重要值包括:
在预设的语料数据库中,获取所述去除停用词后的每个所述子目标信息对应的词频;
在预设的语料数据库中,获取所述去除停用词后的每个所述子目标信息对应的逆文档频率;
针对所述去除停用词后的每个所述子目标信息,将所述词频与所述逆文档频率的乘积确定为该子目标信息对应的所述重要值。
6.一种软文自动生成装置,其特征在于,所述软文自动生成装置包括:
目标信息获取模块,用于获取用户在客户端发布的目标信息;
关键字提取模块,用于采用预设的自然语言处理算法对所述目标信息进行提取,得到目标关键字;
类型获取模块,用于在预设的类型数据库中,获取目标关键字对应的目标产品类型;
产品信息获取模块,用于在预设的产品信息数据库中,获取所述目标产品类型对应的目标产品信息;
信息输入模块,用于将所述目标信息输入至预设的训练好的语言风格深度学习模型中,得到所述语言风格深度学习模型输出的所述用户的目标语言风格,其中,所述语言风格深度学习模型由历史目标信息和历史语言风格训练得到;
模板获取模块,用于在预设的模板数据库中,获取所述目标产品类型对应的符合所述目标语言风格的软文模板作为目标软文模板;
信息填入模块,用于将所述目标产品信息填入所述目标软文模板中,得到所述目标产品类型对应的目标软文。
7.如权利要求6所述的软文自动生成装置,其特征在于,所述信息填入模块包括:
关键字查询子模块,用于针对每个所述目标关键字,在预设的包含地名信息的地名数据库中查询所述目标关键字是否存在;
地点关键字确定子模块,用于当在所述地名数据库中查询到所述目标关键字时,确定所述目标关键字为地点关键字;
地点关键字去除子模块,用于从所述目标关键字中去除所述地点关键字,得到其他关键字;
第一产品类型获取子模块,用于在所述预设的类型数据库中,获取所述其他关键字对应的所述目标产品类型,其中,所述目标产品类型为所述地点关键字标识的地域对应的产品类型;
第二产品类型获取子模块,用于当在所述地名数据库中未查询到所述目标关键字时,在所述预设的类型数据库中,获取所述目标关键字对应的所述目标产品类型;
所述模板获取模块包括:
软文模板获取子模块,用于在预设的模板数据库中,获取所述目标产品类型对应的符合所述目标语言风格的所述软文模板;
目标模板确定子模块,用于若所述地点关键字不存在,则将所述软文模板作为所述目标软文模板;
软文模板筛选子模块,用于若所述地点关键字存在,则从所述软文模板中筛选出所述地点关键字标识的地域对应的软文模板,作为所述目标软文模板。
8.如权利要求6至7中任一项所述的软文自动生成装置,其特征在于,在所述信息输入模块之前,所述软文自动生成装置还包括:
样本获取模块,用于从预设的历史数据库中,获取所述历史目标信息和所述历史目标信息对应的所述历史语言风格作为样本;
关键字识别模块,用于采用预设的语义识别工具,对所述样本中的所述历史目标信息进行语义识别处理,得到所述历史目标信息对应的语义关键字;
风格获取模块,用于在预设的语言风格数据库中,获取与所述语义关键字相匹配的目标语义关键字对应的语言风格,作为所述语义关键字的关键字语言风格;
训练结果确定模块,用于将所述关键字语言风格确定为所述深度学习模型输出的训练结果;
参数调整模块,用于调整所述深度学习模型的隐含层的参数,以最小化所述训练结果与所述样本中的所述历史语言风格之间的误差;
模型确定模块,用于当所述误差满足预设的条件时,确定所述参数调整后的所述深度学习模型为所述训练好的语言风格深度学习模型。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的软文自动生成方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的软文自动生成方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910300412.XA CN110162623A (zh) | 2019-04-15 | 2019-04-15 | 软文自动生成方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910300412.XA CN110162623A (zh) | 2019-04-15 | 2019-04-15 | 软文自动生成方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110162623A true CN110162623A (zh) | 2019-08-23 |
Family
ID=67639471
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910300412.XA Pending CN110162623A (zh) | 2019-04-15 | 2019-04-15 | 软文自动生成方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110162623A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111178018A (zh) * | 2019-12-30 | 2020-05-19 | 苏宁云计算有限公司 | 一种基于深度学习的目标软文的生成方法及装置 |
CN111414733A (zh) * | 2020-03-18 | 2020-07-14 | 联想(北京)有限公司 | 一种数据处理方法、装置及电子设备 |
CN112434504A (zh) * | 2020-11-23 | 2021-03-02 | 京东数字科技控股股份有限公司 | 生成文件信息的方法、装置、电子设备和计算机可读介质 |
-
2019
- 2019-04-15 CN CN201910300412.XA patent/CN110162623A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111178018A (zh) * | 2019-12-30 | 2020-05-19 | 苏宁云计算有限公司 | 一种基于深度学习的目标软文的生成方法及装置 |
WO2021135091A1 (zh) * | 2019-12-30 | 2021-07-08 | 苏宁易购集团股份有限公司 | 一种基于深度学习的目标软文的生成方法及装置 |
CN111178018B (zh) * | 2019-12-30 | 2024-03-26 | 苏宁云计算有限公司 | 一种基于深度学习的目标软文的生成方法及装置 |
CN111414733A (zh) * | 2020-03-18 | 2020-07-14 | 联想(北京)有限公司 | 一种数据处理方法、装置及电子设备 |
CN112434504A (zh) * | 2020-11-23 | 2021-03-02 | 京东数字科技控股股份有限公司 | 生成文件信息的方法、装置、电子设备和计算机可读介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113254648B (zh) | 一种基于多层次图池化的文本情感分析方法 | |
CN107133213B (zh) | 一种基于算法的文本摘要自动提取方法与系统 | |
CN108763445B (zh) | 专利知识库的构建方法、装置、计算机设备和存储介质 | |
CN105740349B (zh) | 一种结合Doc2vec和卷积神经网络的情感分类方法 | |
Denil et al. | Extraction of salient sentences from labelled documents | |
Sosa | Twitter sentiment analysis using combined LSTM-CNN models | |
CN108733837B (zh) | 一种病历文本的自然语言结构化方法及装置 | |
CN108647350A (zh) | 一种基于双通道网络的图文关联检索方法 | |
CN104050160B (zh) | 一种机器与人工翻译相融合的口语翻译方法和装置 | |
CN104636466B (zh) | 一种面向开放网页的实体属性抽取方法和系统 | |
CN110826336A (zh) | 一种情感分类方法、系统、存储介质及设备 | |
CN107992531A (zh) | 基于深度学习的新闻个性化智能推荐方法与系统 | |
CN110427623A (zh) | 半结构化文档知识抽取方法、装置、电子设备及存储介质 | |
CN107578292B (zh) | 一种用户画像构建系统 | |
CN108108354B (zh) | 一种基于深度学习的微博用户性别预测方法 | |
CN107818084B (zh) | 一种融合点评配图的情感分析方法 | |
CN111858940B (zh) | 一种基于多头注意力的法律案例相似度计算方法及系统 | |
CN107357793A (zh) | 信息推荐方法和装置 | |
CN110162623A (zh) | 软文自动生成方法、装置、计算机设备及存储介质 | |
CN108319734A (zh) | 一种基于线性组合器的产品特征结构树自动构建方法 | |
CN112800239B (zh) | 意图识别模型训练方法、意图识别方法及装置 | |
CN114492423B (zh) | 基于特征融合及筛选的虚假评论检测方法、系统及介质 | |
CN112347761B (zh) | 基于bert的药物关系抽取方法 | |
WO2020164332A1 (zh) | 一种保险业务的处理方法、装置及设备 | |
Chen et al. | Deep neural networks for multi-class sentiment classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |