CN104731959B - 基于文本的网页内容生成视频摘要的方法、装置及系统 - Google Patents

基于文本的网页内容生成视频摘要的方法、装置及系统 Download PDF

Info

Publication number
CN104731959B
CN104731959B CN201510156123.9A CN201510156123A CN104731959B CN 104731959 B CN104731959 B CN 104731959B CN 201510156123 A CN201510156123 A CN 201510156123A CN 104731959 B CN104731959 B CN 104731959B
Authority
CN
China
Prior art keywords
text
keyword
news
web page
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201510156123.9A
Other languages
English (en)
Other versions
CN104731959A (zh
Inventor
李国祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Wei Yang Science And Technology Ltd
Original Assignee
Beijing Wei Yang Science And Technology Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Wei Yang Science And Technology Ltd filed Critical Beijing Wei Yang Science And Technology Ltd
Priority to CN201510156123.9A priority Critical patent/CN104731959B/zh
Publication of CN104731959A publication Critical patent/CN104731959A/zh
Application granted granted Critical
Publication of CN104731959B publication Critical patent/CN104731959B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及视频生成领域,尤其涉及基于文本的网页内容生成视频摘要的方法、装置及系统。该方法、装置及系统,能够基于目标新闻网页文本内容生成视频摘要,并将视频摘要在目标新闻网页上展示出来。用户在浏览相应新闻网页时,可以通过观看视频摘要的方式获取新闻信息,相比现有新闻网站通过图片和文字展示新闻的方式,能节省用户阅读新闻网页上新闻的时间成本。

Description

基于文本的网页内容生成视频摘要的方法、装置及系统
技术领域
本发明涉及视频生成领域,具体而言,涉及基于文本的网页内容生成视频摘要的方法、装置及系统。
背景技术
新闻网站,指以经营新闻业务为主要生存手段的网站。包括国家大型新闻门户,商业门户,地方新闻门户,还有各种行业门户网站也充当了该行业的新闻网站。
现有的新闻网站,新闻展示一般基于文字及图片来描述。目前用户通过越来越多的途径,例如手机、平板电脑、电视等,来获取新闻的内容。现有的新闻类应用从新闻网站获取新闻的也多以文字图片为主。
现有的新闻网站上新闻的缺点是在内容快速消费时代,用户阅读文字的时间成本相对提高,不利于新闻网站用文字向用户展示新闻。
发明内容
本发明的目的在于提供一种基于文本的网页内容生成视频摘要的方法、装置及系统,用生成视频摘要的方式向用户展示网页上的新闻,以节省用户阅读新闻网页上新闻的时间成本。
第一方面,本发明实施例提供了一种文本的网页内容生成视频摘要的方法,包括:提取目标新闻网页文本内容的文本摘要;解析所述文本摘要,得到所述文本摘要中的关键词;对所述关键词进行语义分析,得到所述关键词本体语义;基于所述关键词本体语义,从互联网络中检索对应的图片或视频,形成背景图,形成背景图;基于所述关键词本体语义,从预先设立的语法数据库中获取与所述关键词对应的动画模板;将所述文本摘要转化为音频数据;按照预设渲染规则,将所述背景图、所述动画模板及所述音频数据合成渲染为视频文件。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,所述提取目标新闻网页文本内容的文本摘要包括:基于网页链接,获取新闻网页;去除所述新闻网页中的附加信息,其中所述附加信息包括以下一种或多种:广告、图片、视频、框架及图表;提取去除所属附加信息后的所述新闻网页的文本内容;从所述文本内容中摘取重点语句组成所述文本摘要。
结合第一方面,本发明实施例提供了第一方面的第二种可能的实施方式,其中,所述从所述文本内容中摘取重点语句组成所述文本摘要,包括:依次计算所述文本内容中每两句语句之间的相似性;根据所述相似性的计算结果,对所述文本内容中的语句分类;按照所述分类的结果,从每类语句中分别提取语句进行组合,得到候选摘要;从所述候选摘要中选取与预设文本摘要长度差值最小的候选摘要作为所述新闻网页的摘要文本,其中所述预设文本摘要长度根据待生成的视频长度和预先设定的文本摘要朗读速度确定。
结合第一方面,本发明实施例提供了第一方面的第三种可能的实施方式,其中,所述依次计算所述文本内容中每两句语句之间的相似性,包括:计算当前两句语句中共有词语的数量之和;将所述数量之和除以当前两句语句的长度平均值,得到当前两句语句的相似性;依照获取当前两句语句的相似性的方法计算所述文本内容中每两句语句之间的相似性。
结合第一方面,本发明实施例提供了第一方面的第四种可能的实施方式,其中,所述解析所述文本摘要,得到所述文本摘要中的关键词,包括:对所述文本摘要进行分词;将所述分词后得到的词语与所述语法数据库中的词语模板进行比对,确定分词后得到的词语的词性;根据所述词性的判断结果,从分词后的词语中选取名词及数词作为所述文本摘要的关键词。
结合第一方面,本发明实施例提供了第一方面的第五种可能的实施方式,其中,所述对所述关键词进行语义分析,得到所述关键词本体语义,包括:在所述语法数据库中检索所述关键词,获取与所述关键词相关的所有本体描述;利用网络本体语言OWL从所述关键词的所有本体描述中确定出当前语境下的关键词本体语义。
结合第一方面,本发明实施例提供了第一方面的第六种可能的实施方式,其中,所述按照预设渲染规则,将所述背景图、所述动画模板及所述音频数据合成渲染为视频文件,包括:设定所述音频数据中所述关键词、与所述关键词对应的背景图及动画模板的映射关系;按照所述映射关系,对所述背景图、所述动画模板及所述音频数据进行合成渲染。
第二方面,本发明实施例还提供了一种基于文本的网页内容生成视频摘要的装置,包括:提取模块,用于提取目标新闻网页文本内容的文本摘要;关键词获取模块,用于解析所述文本摘要,得到所述文本摘要中的关键词;语义分析模块,用于对所述关键词进行语义分析,得到所述关键词本体语义;背景图形成模块,用于基于所述关键词本体语义,从互联网络中检索对应的图片或视频,形成背景图;动画模板获取模块,用于基于所述关键词本体语义,从预设的语法数据库中获取与所述关键词对应的动画模板;音频转换模块,用于将所述文本摘要转化为音频数据;视频合成模块,用于按照预设渲染规则,将所述背景图、所述动画模板及所述音频数据合成渲染为视频文件。
结合第二方面,本发明实施例提供了第二方面的第一种可能的实施方式,其中,所述关键词获取模块,包括:分词单元,用于对所述文本摘要进行分词;词性确定单元,用于将所述分词后得到的词语与所述语法数据库中的词语模板进行比对,确定分词后得到的词语的词性;关键词选取单元,用于根据所述词性的判断结果,从分词后的词语中选取名词及数词作为所述文本摘要的关键词。
第三方面,本发明实施例还提供了一种基于文本的网页内容生成视频摘要的系统,包括:用户端及与用户端通过互联网连接的新闻服务器端;所述新闻服务器端包括如第二方面和第二方面第一种可能的实施方式所述的基于文本的网页内容生成视频摘要的装置。
本发明实施例提供的基于文本的网页内容生成视频摘要的方法、装置及系统,能够基于目标新闻网页文本内容生成视频摘要,并将视频摘要在目标新闻网页上展示出来。用户在浏览相应新闻网页时,可以通过观看视频摘要的方式获取新闻信息,相比现有新闻网站通过图片和文字展示新闻的方式,能节省用户阅读新闻网页上新闻的时间成本。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本发明实施例1所提供的基于文本的网页内容生成视频摘要的方法流程示意图;
图2示出了本发明实施例2所提供的基于文本的网页内容生成视频摘要的方法流程示意图;
图3示出了本发明实施例3所提供的基于文本的网页内容生成视频摘要的方法流程示意图;
图4示出了本发明实施例4所提供的基于文本的网页内容生成视频摘要的方法流程示意图;
图5示出了本发明实施例5所提供的基于文本的网页内容生成成视频摘要的方法流程示意图;
图6示出了本发明实施例6所提供的基于文本的网页内容生成视频摘要的装置的结构意图;
图7示出了本发明实施例7所提供的基于文本的网页内容生成视频摘要的装置中关键词获取模块的结构示意图;
图8示出了本发明实施例8所提供的基于文本的网页内容生成视频摘要的系统连接示意图。
主要元件符号说明:
21、提取模块;22、关键词获取模块;23、语义分析模块;24、背景图形成模块;25、动画模板获取模块;26、音频转换模块;27、视频合成模块;22a、分词单元;22b、词性确定单元;22c、关键词选取单元;31、用户端;32、新闻服务器端。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:
本实施例1提供了一种基于文本的网页内容生成视频摘要的方法,其流程示意图为图1,主要处理步骤包括:
步骤S101:提取目标新闻网页文本内容的文本摘要。
新闻信息的文本可能不够简洁,用户需要较多的时间成本获取网页上的新闻信息,通过提取新闻网页文本内容的文本摘要能够以较为简洁且相对完整的向用户介绍新闻信息。
此外,新闻网页除了新闻内容文本外,通常还包括其他附加信息,例如在新闻网页上附加有广告、图片、视频、框架和或图表等,这些附加信息并不是新闻文本的有效内容,因此在提取新闻网页文本内容的文本摘要之前,可以先去除新闻网页上的附加信息。
步骤S102、解析文本摘要,得到文本摘要中的关键词。
文本摘要中的关键词包含新闻内容的关键信息,通过提取关键词可以简便的获取新闻内容的关键信息。通过本步骤,能够得到新闻文本的关键词,为后续步骤提供关键词信息。
步骤S103、对关键词进行语义分析,得到关键词本体语义。
本体是概念化的明确的规范说明,给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延的规则的定义。利用本体语义,可以得到新闻的基本描述,例如“衬衫”的本体描述是“服饰”。一个词语可能有多个本体描述,例如“苹果”的本体描述可以是“水果”,也可以是“公司”,因此需要确定出当前语境下的关键词本体语义。本步骤对关键词进行语义分析得到键词本体语义,以便后续步骤中正确的基于文本的网页内容生成视频摘要。
步骤S104、基于关键词本体语义,从互联网络中检索对应的图片或视频,形成背景图;
合成视频摘要需要素材。根据关键词本体语义,在互联网络搜索引擎中检索相应的图片或视频,形成背景图,作为后续步骤中合成视频摘要的素材。
步骤S105、基于关键词本体语义,从预先设立的语法数据库中获取与关键词对应的动画模板;
语法数据库中存储了不同词语本体语义对应的动画模板,根据关键词本体语义,可以从语法数据库中获取对应的动画模板。将不同关键词对应的模板拼凑起来,能够获得生成完整视频摘要的组建方式。
步骤S106、将文本摘要转化为音频数据;
即利用相应的软件将文本摘要转化成音频数据,以此音频数据作为合成视频摘要的音频素材。在视频摘要中,以音频的方式向用户讲述新闻,相比文字描述,更加简便,节省用户的时间。
步骤S107、按照预设渲染规则,将背景图、动画模板及所音频数据合成渲染为视频文件。
渲染生成视频文件,有相应的软件和渲染规则,按照预设渲染规则,将背景图、动画模板及所音频数据合成渲染为视频文件。合成渲染视频时,设定音频数据中关键词、与关键词对应的背景图及动画模板的映射关系;按照映射关系,对背景图、动画模板及音频数据进行合成渲染。例如关键词1在音频中第3秒时出现,音频中第5秒时出现下一个关键词,则关键词1对应的背景图按照动画模板在第3秒与第5秒之间展现。通过此方法,使得视频摘要中的音频与图像吻合,更好的向用户展示新闻。
本实施例1提供了一种基于文本的网页内容生成视频摘要的方法,能够基于目标新闻网页文本内容生成视频摘要,并将视频摘要在目标新闻网页上展示出来。用户在浏览相应新闻网页时,可以通过观看视频摘要的方式获取新闻内容信息,相比现有新闻网站通过图片和文字展示新闻的方式,能节省用户阅读新闻网页上新闻的时间成本。
实施例2:
本实施例2在实施例1的基础上提供一种优选的基于文本的网页内容生成视频摘要的方法,其流程示意图为图2,主要步骤包括:
步骤S201、基于网页链接,获取新闻网页;
网页链接的地址,可以是用户访问新闻网页时,向新闻服务器发送的当前新闻网页地址;也可以是新闻服务器扫描获取的相应新闻网站上所有新闻网页的地址。新闻服务器基于获取的网页链接,取得相应新闻网页信息。
步骤S202、去除新闻网页中的附加信息,其中附加信息包括以下一种或多种:广告、图片、视频、框架及图表;
新闻服务器获取的新闻网页上,除了包括新闻内容对应的文字介绍外,还可能有其他不相关的附加信息,例如广告、图片、视频、框架及图表,此附加信息对于了解新闻毫无用处,因此步骤S202用来去除新闻网页上的附加信息。
步骤S203、提取去除附加信息后的新闻网页的文本内容;
去除了新闻网页上的附加信息后,新闻服务器得到对新闻进行展示的文本信息,以便在之后的步骤中基于新闻网页上相应的文本信息生成视频摘要。
步骤S204、从文本内容中摘取重点语句组成文本摘要。
新闻网页上的新闻文本可能不够简洁,含有较多的文字,用户需要较多的时间成本获取网页上的新闻信息,因此,需要从文本内容中摘取重点语句组成文本摘要,以便更简洁地向用户介绍新闻网页上的新闻,节省用户获取新闻信息的时间成本。
步骤S205、解析文本摘要,得到文本摘要中的关键词。
本步骤得到新闻摘要的关键词,为后续步骤提供关键词信息。
步骤S206、对关键词进行语义分析,得到关键词本体语义。
本步骤得到关键词的语义分析得到本体语义,以便后续步骤中正确的基于文本生成网页内容视频摘要。
步骤S207、基于关键词本体语义,从互联网络中检索对应的图片或视频,形成背景图;
本步骤得到背景图,作为后续步骤中合成视频摘要的素材。
步骤S208、基于关键词本体语义,从预先设立的语法数据库中获取与关键词对应的动画模板;
本步骤能够获得生成视频摘要的方式。
步骤S209、将文本摘要转化为音频数据;
本步骤将文本摘要转化成音频数据,以此音频数据作为合成视频摘要的音频素材。
步骤S210、按照预设渲染规则,将背景图、动画模板及所音频数据合成渲染为视频文件。
本步骤渲染生成视频文件。
本实施例2提供的一种基于文本的内容生成视频摘要的方法与实施例1提供的方法相比,其工作过程和优点相同,不再赘述。
实施例3:
本实施例3在实施例2的基础上提供一种优选的基于文本的网页内容生成视频摘要的方法,其流程示意图为图3,主要步骤包括:
步骤S301、基于网页链接,获取新闻网页;
本步骤取得相应新闻网页。
步骤S302、去除新闻网页中的附加信息,其中附加信息包括以下一种或多种:广告、图片、视频、框架及图表;
本步骤用来去除新闻网页上的附加信息。
步骤S303、提取去除附加信息后的新闻网页的文本内容;
本步骤得到对新闻的文本信息。
步骤S304、依次计算文本内容中每两句语句之间的相似性。
相似的语句通常包含相似的信息。为了简洁、完整的向用户介展示新闻内容,可以根据相似性将文本内容中语句分类,每个类中提出一句语句,如此便可以简洁、完整的向用户介绍新闻网页上的新闻内容。
具体的计算两句语句之间相似性的方法是:
首先,计算当前两句语句中共有词语的数量之和;
计算同时出现在当前两句话中的所有词语的总数,其总数越大,则认为两句语句之间相似性越大;
其次,将数量之和除以当前两句语句的长度平均值,得到当前两句语句的相似性;
本方法中定义语句的长度为语句中的字数。将同时出现在当前两句话中的所有词语的总数除以两句语句的字数的平均值,得到当前两句语句的相似性,即两句语句共有的词语越多,两句语句平均长度越短,则认为两句语句之间相似性越大。用此方法可以简便地获得两句语句之间的相似性。例如,文本内容中的两句话分别为语句1和语句2;语句1中包含4个词语,每个词语长度为2个字,分别为词语1,词语2,词语3,词语4;语句2中包含6个词语,每个词语长度为2个字,分别为词语3,词语4,词语5,词语6,词语7,词语8。语句1和语句2中共有词语3和词语4共2个词;语句1长度是8个字,语句2长度是12个字,这两句语句平均长度是10个字;故语句1和语句2的相似性为0.2。
利用上述方法,可以计算文本内容中每两句语句之间的相似性。
步骤S305、根据相似性的计算结果,对文本内容中的语句分类;
根据步骤S304计算的结果给所有的语句分类,例如,若语句1与语句2之间的相似性大于语句1与其他所有语句之间的相似性并且语句1与语句2之间的相似性大于语句之间平均相似性,则语句1与语句2分为一个类;否则,语句1与语句2分为不同的类。经过将语句分类,可以认为同一类中的语句表达了同样的意思;将所有类都提取一个语句,可以完整、简洁的向用户介绍新闻网页上的新闻文本摘要信息,节省用户获取新闻的时间成本。
步骤S306、按照分类的结果,从每类语句中分别提取语句进行组合,得到候选摘要;
前面得到的文本内容可以根据语句间的相似性进行分类,文本内容中的语句分为多个类,每个类中可能含有不止一个拥有相似内容的语句。若不从中提取摘要,则新闻内容很繁琐。从每类语句中分别提取一个语句,可以得到候选摘要,能够完整、简洁的向用户介绍新闻网页上的内容。每个语句的类中可能含有多句语句,获得的候选摘要也有多个方案,需要通过后续了步骤采取合适的方案。
步骤S307、从候选摘要中选取与预设文本摘要长度差值最小的候选摘要作为新闻文本的摘要文本,其中预设文本摘要长度根据待生成的视频长度和预先设定的文本摘要朗读速度确定。
预设文本摘要长度根据待生成的视频长度和预先设定的文本摘要朗读速度确定,例如视频长度定为1分钟,文本摘要朗读速度定为120字每分钟,则预设文本摘要长度定为120字。步骤1d3得到的多个文本摘要中,需要筛选出合适的文本摘要。多个文本摘要中与预设的文本摘要长度差值最小的候选摘要被选取为新闻文本的摘要文本。当存在多个方案使得文本内容摘要长度相同时,采用提取最前语句的方案。例如获取的文本语句可分为两个类,其中语句1和语句3是一个类,语句2和语句4是另一个类,语句1加语句2的字数与预设文本摘要长度差值最小且语句1加语句2的长度等于语句3加语句4的长度,此时语句1是文本中最先出现的语句,则文本摘要由语句1和语句2组成。通过此步骤获取文本摘要,能够完整、简洁的向用户展示目标新闻网页上的新闻。
步骤S308、解析文本摘要,得到文本摘要中的关键词。
本步骤能够得到新闻摘要的关键词,为后续步骤提供关键词信息。
步骤S309、对关键词进行语义分析,得到关键词本体语义。
本步骤得到关键词的语义分析得到本体语义,以便后续步骤中正确的基于文本生成网页内容视频摘要。
步骤S310、基于关键词本体语义,从互联网络中检索对应的图片或视频,形成背景图;
本步骤得到背景图,作为后续步骤中合成视频摘要的素材。
步骤S311、基于关键词本体语义,从预先设立的语法数据库中获取与关键词对应的动画模板;
本步骤能够获得关键词对应的视频模板。
步骤S312、将文本摘要转化为音频数据;
本步骤将文本摘要转化成音频数据,以此音频数据作为合成视频摘要的音频素材。
步骤S313、按照预设渲染规则,将背景图、动画模板及所音频数据合成渲染为视频文件。
本步骤渲染生成视频文件。
实施例4:
本实施例4在实施例1的基础上提供一种优选的基于文本的网页内容生成视频摘要的方法,其流程示意图为图4,主要步骤包括:
步骤S401、提取目标新闻网页文本内容的文本摘要。
本步骤获取文本摘要,能够完整、简洁的向用户展示目标新闻网页上的新闻。
步骤S402、对文本摘要进行分词;
中文语句表述中以汉字为基本单位,没有类似英文语句中的分词信息,故首先对文本摘要进行分词,得到文本摘要中分词信息。
步骤S403、将分词后得到的词语与预设的语法数据库中的词语模板进行比对,确定分词后得到的词语的词性;
语法数据库中存储词语模板。通过将分词后得到的词语与预设的语法数据库中的词语模板进行比对,能确定分词后得到的词语的词性,即词语是名词、动词、数词、量词、代词、形容词、副词、介词、连词、助词、拟声词和叹词的词性划分。类似虚词如副词、介词、连词、助词、拟声词和叹词通常不包括关键信息,通过将分词后得到的词语与预设的语法数据库中的词语模板进行比对,确定分词后得到的词语的词性,能够更快速获取关键词。
步骤S404、根据词性的判断结果,从分词后的词语中选取名词及数词作为文本摘要的关键词。
新闻网页中新闻摘要的关键词是名词和数词,名词介绍了新闻的目标与对象,数词介绍了新闻中的数据信息。提取了文本摘要中的名词和数词,能够得到新闻的关键信息。
步骤S405、对关键词进行语义分析,得到关键词本体语义。
本步骤得到关键词的语义分析得到本体语义,以便后续步骤中正确的基于文本生成网页内容视频摘要。
步骤S406、基于关键词本体语义,从互联网络中检索对应的图片或视频,形成背景图;
本步骤得到背景图,作为后续步骤中合成视频摘要的素材。
步骤S407、基于关键词本体语义,从预先设立的语法数据库中获取与关键词对应的动画模板;
本步骤能够获得关键词对应的视频模板。
步骤S408、将文本摘要转化为音频数据;
本步骤将文本摘要转化成音频数据,以此音频数据作为合成视频摘要的音频素材。
步骤S409、按照预设渲染规则,将背景图、动画模板及所音频数据合成渲染为视频文件。
本步骤渲染生成视频文件。
实施例5:
本实施例5在实施例1的基础上提供一种优选的基于文本的网页内容生成视频摘要的方法,其流程示意图为图5,主要步骤包括:
步骤S501、提取目标新闻网页文本内容的文本摘要。
本步骤获取文本摘要,能够完整、简洁的向用户介绍目标新闻网页上的新闻内容。
步骤S502、解析文本摘要,得到文本摘要中的关键词。
本步骤得到新闻摘要的关键词,为后续步骤提供关键词信息。
步骤S503、在预设的语法数据库中检索关键词,获取与关键词相关的所有本体描述;
预设的语法数据库中存储有各个词语对应的本体描述,在语法数据库中检索关键词,可以获取与关键词相关的所有本体描述。例如,通过检索语法数据库,得到“衬衫”的本体描述是“服饰”。
步骤S504、利用网络本体语言OWL从关键词的所有本体描述中确定出当前语境下的关键词本体语义。
关键词可能含有多个本体描述,例如“苹果”,可能是“水果”,也可能是“公司”,此时,可利用OWL确定出当前语境下的关键词本体语义,得到关键词的正确描述,以便后续步骤中正确的基于新闻网页内容生成视频摘要。
步骤S505、基于关键词本体语义,从互联网络中检索对应的图片或视频,形成背景图;
本步骤得到背景图,作为后续步骤中合成视频摘要的素材。
步骤S506、基于关键词本体语义,从预先设立的语法数据库中获取与关键词对应的动画模板;
本步骤能够获得关键词对应的视频模板。
步骤S507、将文本摘要转化为音频数据;
本步骤将文本摘要转化成音频数据,以此音频数据作为合成视频摘要的音频素材。。
步骤S508、按照预设渲染规则,将背景图、动画模板及所音频数据合成渲染为视频文件。
本步骤渲染生成视频文件。
实施例6:
本实施例6提供了一种基于文本的网页内容生成视频摘要的装置,其结构示意图如图6,包括:
提取模块21,用于提取目标新闻网页文本内容的文本摘要;
关键词获取模块22,用于解析文本摘要,得到文本摘要中的关键词;
语义分析模块23,用于对关键词进行语义分析,得到关键词本体语义;
背景图形成模块24,用于基于关键词本体语义,从互联网络中检索对应的图片或视频,形成背景图;
动画模板获取模块25,用于基于关键词本体语义,从预先设立的语法数据库中获取与关键词对应的动画模板;
音频转换模块26,用于将文本摘要转化为音频数据;
视频合成模块27,用于按照预设渲染规则,将背景图、动画模板及音频数据合成渲染为视频文件。
本实施例6提供的一种基于文本的网页内容生成视频摘要的装置,通过提取模块21提取目标新闻网页文本内容的文本摘要;然后由关键词获取模块22解析提取的文本摘要,得到文本摘要中的关键词;之后,语义分析模块23分析关键词得到关键词本体语义,再由背景图形成模块24基于关键词本体语义,从互联网络中检索对应的图片或视频,形成背景图;由动画模板获取模块25基于关键词本体语义,从预先设立的语法数据库中获取与关键词对应的动画模板;音频转换模块26将文本摘要转化为音频数据;最后,视频合成模块27按照预设渲染规则,将背景图、动画模板及音频数据合成渲染为视频文件。当用户访问新闻网页时,可以在网页上看到基于相应新闻网页内容生成视频摘要。
本实施例6提供了一种基于文本的网页内容生成视频摘要的装置,能够基于目标新闻网页文本内容生成视频摘要,并将视频摘要在目标新闻网页上展示出来。用户在浏览相应新闻网页时,可以通过观看视频摘要的方式获取新闻信息,相比现有新闻网站通过图片和文字展示新闻的方式,能节省用户阅读新闻网页上新闻的时间成本。
实施例7:
本实施例7在实施例6的基础上提供了一种基于文本的网页内容生成视频摘要的装置,其中关键词获取模块22结构示意图如图7所示,包括:
分词单元22a,用于对文本摘要进行分词;
词性确定单元22b,用于将分词后得到的词语与预设的语法数据库中的词语模板进行比对,确定分词后得到的词语的词性;
关键词选取单元22c,用于根据词性的判断结果,从分词后的词语中选取名词及数词作为文本摘要的关键词。
实施例8:
本实施例8提供了一种基于文本的网页内容生成视频摘要的的系统,其中包括:用户端31与新闻服务器端32,用户端21与新闻服务器端32通过互联网连接,其连接示意图如图8所示。
新闻服务器端32包括如实施例6或7所提供的基于文本的网页内容生成视频摘要的装置。
新闻服务器端32生成基于新闻网页内容生成视频摘要,用户通过用户端21访问新闻网页时,可以在网页上看到基于相应文本的网页内容生成的视频摘要。
本实施例8提供了一种基于文本的网页内容生成视频摘要的系统,能够基于目标新闻网页文本内容生成视频摘要,并将视频摘要在目标新闻网页上展示出来。用户在浏览相应新闻网页时,可以通过观看视频摘要的方式获取新闻信息,相比现有新闻网站通过图片和文字展示新闻的方式,能节省用户阅读新闻网页上新闻的时间成本。
该实施例中用户端31可以是iPhone手机应用、iPad平板电脑应用、Android手机应用、Android平板电脑应用、电视机顶盒应用、WindowS平台软件应用、Mac平台软件应用、IE浏览器插件、Chrome浏览器插件及Firefox浏览器插件中任何一项。
新闻网站端32可以是WordpreSS插件、Drupal插件、Joomla插件、Mediawiki插件、DiScuz插件、PhpWind插件、及网页javaScript脚本中任何一项。
本发明实施例所提供的各装置和模块,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,该实施例部分未提及之处,可参考前述方法实施例中相应内容。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (8)

1.一种基于文本的网页内容生成视频摘要的方法,其特征在于,包括:
提取目标新闻网页文本内容的文本摘要;
解析所述文本摘要,得到所述文本摘要中的关键词;
对所述关键词进行语义分析,得到所述关键词本体语义;
基于所述关键词本体语义,从互联网络中检索对应的图片或视频,形成背景图;
基于所述关键词本体语义,从预先设立的语法数据库中获取与所述关键词对应的动画模板;
将所述文本摘要转化为音频数据;
按照预设渲染规则,将所述背景图、所述动画模板及所述音频数据合成渲染为视频文件;
其中,所述提取目标新闻网页文本内容的文本摘要,包括:
基于网页链接,获取新闻网页;
去除所述新闻网页中的附加信息,其中所述附加信息包括以下一种或多种:广告、图片、视频、框架及图表;
提取去除所述附加信息后的所述新闻网页的文本内容;
从所述文本内容中摘取重点语句组成所述文本摘要;
其中,所述从所述文本内容中摘取重点语句组成所述文本摘要,包括:
依次计算所述文本内容中每两句语句之间的相似性;
根据所述相似性的计算结果,对所述文本内容中的语句分类;
按照所述分类的结果,从每类语句中分别提取语句进行组合,得到候选摘要;
从所述候选摘要中选取与预设文本摘要长度差值最小的候选摘要作为所述新闻网页的文本摘要,其中所述预设文本摘要长度根据待生成的视频长度和预先设定的文本摘要朗读速度确定。
2.根据权利要求1所述的方法,其特征在于,所述依次计算所述文本内容中每两句语句之间的相似性,包括:
计算当前两句语句中共有词语的数量之和;
将所述数量之和除以当前两句语句的长度平均值,得到当前两句语句的相似性;
依照获取当前两句语句的相似性的方法计算所述文本内容中每两句语句之间的相似性。
3.根据权利要求1所述的方法,其特征在于,所述解析所述文本摘要,得到所述文本摘要中的关键词,包括:
对所述文本摘要进行分词;
将所述分词后得到的词语与所述语法数据库中的词语模板进行比对,确定分词后得到的词语的词性;
根据所述词性的判断结果,从分词后的词语中选取名词及数词作为所述文本摘要的关键词。
4.根据权利要求1所述的方法,其特征在于,所述对所述关键词进行语义分析,得到所述关键词本体语义,包括:
在所述语法数据库中检索所述关键词,获取与所述关键词相关的所有本体描述;
利用网络本体语言OWL从所述关键词的所有本体描述中确定出当前语境下的关键词本体语义。
5.根据权利要求1所述的方法,其特征在于,所述按照预设渲染规则,将所述背景图、所述动画模板及所述音频数据合成渲染为视频文件,包括:
设定所述音频数据中所述关键词、与所述关键词对应的背景图及动画模板的映射关系;
按照所述映射关系,对所述背景图、所述动画模板及所述音频数据进行合成渲染。
6.一种应用权利要求1至5中任一项所述方法的基于文本的网页内容生成视频摘要的装置,其特征在于,包括:
提取模块,用于提取目标新闻网页文本内容的文本摘要;
关键词获取模块,用于解析所述文本摘要,得到所述文本摘要中的关键词;
语义分析模块,用于对所述关键词进行语义分析,得到所述关键词本体语义;
背景图形成模块,用于基于所述关键词本体语义,从互联网络中检索对应的图片或视频,形成背景图;
动画模板获取模块,用于基于所述关键词本体语义,从预设的语法数据库中获取与所述关键词对应的动画模板;
音频转换模块,用于将所述文本摘要转化为音频数据;
视频合成模块,用于按照预设渲染规则,将所述背景图、所述动画模板及所述音频数据合成渲染为视频文件。
7.根据权利要求6所述的装置,其特征在于,所述关键词获取模块,包括:
分词单元,用于对所述文本摘要进行分词;
词性确定单元,用于将所述分词后得到的词语与所述语法数据库中的词语模板进行比对,确定分词后得到的词语的词性;
关键词选取单元,用于根据所述词性的判断结果,从分词后的词语中选取名词及数词作为所述文本摘要的关键词。
8.一种基于文本的网页内容生成视频摘要的系统,其特征在于,包括:用户端及与用户端通过互联网连接的新闻服务器端;
所述新闻服务器端包括权利要求6或7所述的基于文本的网页内容生成视频摘要的装置。
CN201510156123.9A 2015-04-03 2015-04-03 基于文本的网页内容生成视频摘要的方法、装置及系统 Expired - Fee Related CN104731959B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510156123.9A CN104731959B (zh) 2015-04-03 2015-04-03 基于文本的网页内容生成视频摘要的方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510156123.9A CN104731959B (zh) 2015-04-03 2015-04-03 基于文本的网页内容生成视频摘要的方法、装置及系统

Publications (2)

Publication Number Publication Date
CN104731959A CN104731959A (zh) 2015-06-24
CN104731959B true CN104731959B (zh) 2017-10-17

Family

ID=53455846

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510156123.9A Expired - Fee Related CN104731959B (zh) 2015-04-03 2015-04-03 基于文本的网页内容生成视频摘要的方法、装置及系统

Country Status (1)

Country Link
CN (1) CN104731959B (zh)

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106340049A (zh) * 2015-07-15 2017-01-18 中国传媒大学 一种基于动画语义的验证码产生方法
CN105516457A (zh) * 2015-11-24 2016-04-20 小米科技有限责任公司 通讯消息的处理方法及装置
CN106504304B (zh) * 2016-09-14 2019-09-24 厦门黑镜科技有限公司 一种动画合成的方法及装置
CN106777202A (zh) * 2016-12-23 2017-05-31 北京奇虎科技有限公司 基于搜索的资讯信息推荐方法及装置
CN106550268B (zh) * 2016-12-26 2020-08-07 Tcl科技集团股份有限公司 视频处理方法和视频处理装置
US11294533B2 (en) 2017-01-26 2022-04-05 Huawei Technologies Co., Ltd. Method and terminal for displaying 2D application in VR device
CN108965737B (zh) * 2017-05-22 2022-03-29 腾讯科技(深圳)有限公司 媒体数据处理方法、装置及存储介质
CN107943839A (zh) * 2017-10-30 2018-04-20 百度在线网络技术(北京)有限公司 基于图片和文字生成视频的方法、装置、设备及存储介质
CN107832382A (zh) * 2017-10-30 2018-03-23 百度在线网络技术(北京)有限公司 基于文字生成视频的方法、装置、设备及存储介质
CN109756751B (zh) * 2017-11-07 2023-02-03 腾讯科技(深圳)有限公司 多媒体数据处理方法及装置、电子设备、存储介质
CN108009152A (zh) * 2017-12-04 2018-05-08 陕西识代运筹信息科技股份有限公司 一种基于Spark-Streaming的文本相似性分析的数据处理方法和装置
CN108470036A (zh) * 2018-02-06 2018-08-31 北京奇虎科技有限公司 一种基于故事文本生成视频的方法和装置
CN110309351A (zh) * 2018-02-14 2019-10-08 阿里巴巴集团控股有限公司 数据对象的视频影像生成、装置及计算机系统
CN109496295A (zh) * 2018-05-31 2019-03-19 优视科技新加坡有限公司 多媒体内容生成方法、装置和设备/终端/服务器
CN110807126B (zh) * 2018-08-01 2023-05-26 腾讯科技(深圳)有限公司 文章转换成视频的方法、装置、存储介质及设备
CN108986186B (zh) * 2018-08-14 2023-05-05 山东师范大学 文字转化视频的方法和系统
CN109189916B (zh) * 2018-08-17 2022-04-22 杜林蔚 英文摘要关键信息提取方法、装置及电子设备
CN109195007B (zh) * 2018-10-19 2021-09-07 深圳市轱辘车联数据技术有限公司 视频生成方法、装置、服务器及计算机可读存储介质
CN109325135B (zh) * 2018-10-26 2023-08-08 平安科技(深圳)有限公司 基于文本的视频生成方法、装置、计算机设备及存储介质
CN109672909A (zh) * 2018-11-08 2019-04-23 北京奇虎科技有限公司 数据处理方法、装置、电子设备及可读存储介质
CN109978021B (zh) * 2019-03-07 2022-09-16 北京大学深圳研究生院 一种基于文本不同特征空间的双流式视频生成方法
CN111866610B (zh) * 2019-04-08 2022-09-30 百度时代网络技术(北京)有限公司 用于生成信息的方法和装置
CN114666663A (zh) * 2019-04-08 2022-06-24 百度(美国)有限责任公司 用于生成视频的方法和装置
CN110324709A (zh) * 2019-07-24 2019-10-11 新华智云科技有限公司 一种视频生成的处理方法、装置、终端设备及存储介质
CN111801673A (zh) * 2019-09-02 2020-10-20 深圳海付移通科技有限公司 应用程序的介绍方法、移动终端及服务器
CN111158924B (zh) * 2019-12-02 2023-09-22 百度在线网络技术(北京)有限公司 内容分享方法、装置、电子设备及可读存储介质
JP2023513095A (ja) * 2020-02-05 2023-03-30 ループ ナウ テクノロジーズ インコーポレイテッド 選択および表示のための機械学習によるビデオのキュレーション
CN111327960B (zh) * 2020-03-05 2022-07-29 北京字节跳动网络技术有限公司 文章处理方法、装置、电子设备及计算机存储介质
CN111694947A (zh) * 2020-06-15 2020-09-22 中国银行股份有限公司 一种文本摘要展示方法、装置、存储介质及设备
CN112988099A (zh) * 2021-04-09 2021-06-18 上海掌门科技有限公司 视频的显示方法和装置
CN112988100A (zh) * 2021-04-09 2021-06-18 上海掌门科技有限公司 视频的播放方法和装置
CN113905254B (zh) * 2021-09-03 2024-03-29 前海人寿保险股份有限公司 视频合成方法、装置、系统与可读存储介质
CN114297354B (zh) * 2021-12-02 2023-12-12 南京硅基智能科技有限公司 一种弹幕生成方法及装置、存储介质、电子装置
CN114491152B (zh) * 2021-12-02 2023-10-31 南京硅基智能科技有限公司 一种摘要视频的生成方法、存储介质、电子装置
CN114238689A (zh) 2021-12-17 2022-03-25 北京百度网讯科技有限公司 视频生成方法、装置、电子设备、存储介质和程序产品
CN114401431B (zh) * 2022-01-19 2024-04-09 中国平安人寿保险股份有限公司 一种虚拟人讲解视频生成方法及相关装置
CN114390220B (zh) * 2022-01-19 2023-12-08 中国平安人寿保险股份有限公司 一种动画视频生成方法及相关装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103324760A (zh) * 2013-07-11 2013-09-25 中国农业大学 使用解说词文档自动生成营养健康教育视频的方法及系统
CN103559214A (zh) * 2013-10-11 2014-02-05 中国农业大学 视频自动生成方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100306232A1 (en) * 2009-05-28 2010-12-02 Harris Corporation Multimedia system providing database of shared text comment data indexed to video source data and related methods

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103324760A (zh) * 2013-07-11 2013-09-25 中国农业大学 使用解说词文档自动生成营养健康教育视频的方法及系统
CN103559214A (zh) * 2013-10-11 2014-02-05 中国农业大学 视频自动生成方法及装置

Also Published As

Publication number Publication date
CN104731959A (zh) 2015-06-24

Similar Documents

Publication Publication Date Title
CN104731959B (zh) 基于文本的网页内容生成视频摘要的方法、装置及系统
CN104731960B (zh) 基于电子商务网页内容生成视频摘要的方法、装置及系统
US10192544B2 (en) Method and system for constructing a language model
US10394886B2 (en) Electronic device, computer-implemented method and computer program
CN108885617B (zh) 语句解析系统以及程序
US11651015B2 (en) Method and apparatus for presenting information
CN103544321A (zh) 用于微博情感信息的数据处理方法和装置
CN103150331A (zh) 一种提供搜索引擎标签的方法和装置
CN111178056A (zh) 基于深度学习的文案生成方法、装置及电子设备
CN103186522A (zh) 电子设备及其自然语言分析方法
US20220365956A1 (en) Method and apparatus for generating patent summary information, and electronic device and medium
Rizki et al. Word formation process in novel alice’s adventures in wonderland by Lewis Carroll and movie alice in wonderland by Walt Disney
Horbach et al. Improving the performance of standard part-of-speech taggers for computer-mediated communication
Xu et al. RIP emojis and words to contextualize mourning on Twitter
Pandey et al. Sentiment analysis using lexicon based approach
CN110866408A (zh) 数据库制作装置以及检索系统
CN113038175B (zh) 视频处理方法、装置、电子设备及计算机可读存储介质
Philemon et al. A machine learning approach to multi-scale sentiment analysis of amharic online posts
CN104077320B (zh) 一种用于生成待发布信息的方法和装置
CN106708932A (zh) 问答类网站的回复的摘要提取方法及装置
CN106959945B (zh) 基于人工智能的为新闻生成短标题的方法和装置
CN104699662A (zh) 识别整体符号串的方法和装置
CN104615654A (zh) 一种文本摘要获取方法及装置
CN110580313A (zh) 一种数据处理方法、装置和用于数据处理的装置
JP2019053262A (ja) 学習システム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20171017

CF01 Termination of patent right due to non-payment of annual fee