CN106776523B - 基于人工智能的新闻速报生成方法及装置 - Google Patents

基于人工智能的新闻速报生成方法及装置 Download PDF

Info

Publication number
CN106776523B
CN106776523B CN201710047783.2A CN201710047783A CN106776523B CN 106776523 B CN106776523 B CN 106776523B CN 201710047783 A CN201710047783 A CN 201710047783A CN 106776523 B CN106776523 B CN 106776523B
Authority
CN
China
Prior art keywords
news
structured data
target
text
generating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710047783.2A
Other languages
English (en)
Other versions
CN106776523A (zh
Inventor
袁洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201710047783.2A priority Critical patent/CN106776523B/zh
Publication of CN106776523A publication Critical patent/CN106776523A/zh
Application granted granted Critical
Publication of CN106776523B publication Critical patent/CN106776523B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/219Managing data history or versioning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24564Applying rules; Deductive queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Abstract

本发明提出一种基于人工智能的新闻速报生成方法及装置,其中,方法包括:基于历史新闻速报预先构建模板库,其中模板库中包括每个新闻类型用于生成新闻速报的基础框架;确定新闻事件隶属的目标新闻类型,根据目标新闻类型从模板库中,获取目标新闻类型的目标基础框架,从预设的数据库中获取新闻事件的结构化数据,根据结构化数据向目标基础框架中填充内容,得到新闻事件的新闻速报的正文,根据正文生成新闻速报的标题,将标题与正文拼接形成新闻速报。本实施例中,通过对历史新闻速报的学习,可以为不同的新闻类型构建基础框架,然后基于基础框架智能地生成新闻速报,提高新闻事件的报道的时效性。

Description

基于人工智能的新闻速报生成方法及装置
技术领域
本发明涉及信息处理技术领域,尤其涉及一种基于人工智能的新闻速报生成方法及装置。
背景技术
人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语音识别、图像识别、自然语言处理和专家系统等。
目前,传统的新闻速报多采用人工编辑方式产生,使得新闻速报的时效性较差。即使已经有人工编辑好的模板,从获取到用于新闻速报的数据,到校验完成最终生成新闻速报,仍然需要十几分钟的延时。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种基于人工智能的新闻速报生成方法,用于解决现有的通过人工编辑生成新闻速报的失效性较差的问题。
本发明的第二个目的在于提出一种基于人工智能的新闻速报生成装置。
本发明的第三个目的在于提出另一种基于人工智能的新闻速报生成装置。
本发明的第四个目的在于提出一种非临时性计算机可读存储介质。
本发明的第五个目的在于提出一种计算机程序产品。
为达上述目的,本发明第一方面实施例提出了一种基于人工智能的新闻速报生成方法,包括:
基于历史新闻速报预先构建模板库,所述模板库中包括每个新闻类型用于生成新闻速报的基础框架;
确定新闻事件隶属的目标新闻类型;
根据所述目标新闻类型从所述模板库中,获取所述目标新闻类型的目标基础框架;
从预设的数据库中获取所述新闻事件的结构化数据;
根据所述结构化数据向所述目标基础框架中填充内容,得到所述新闻事件的新闻速报的正文;
根据所述正文生成所述新闻速报的标题,将所述标题与所述正文拼接形成所述新闻速报。
本发明实施例的基于人工智能的新闻速报生成方法,通过基于历史新闻速报预先构建模板库,其中模板库中包括每个新闻类型用于生成新闻速报的基础框架;确定新闻事件隶属的目标新闻类型,根据目标新闻类型从模板库中,获取目标新闻类型的目标基础框架,从预设的数据库中获取新闻事件的结构化数据,根据结构化数据向目标基础框架中填充内容,得到新闻事件的新闻速报的正文,根据正文生成新闻速报的标题,将标题与正文拼接形成新闻速报。本实施例中,通过对历史新闻速报的学习,可以为不同的新闻类型构建基础框架,然后基于基础框架智能地生成新闻速报,提高新闻事件的报道的时效性。
为达上述目的,本发明第二方面实施例提出了一种基于人工智能的新闻速报生成装置,包括:
模板库构建模块,用于基于历史新闻速报预先构建模板库,所述模板库中包括每个新闻类型用于生成新闻速报的基础框架;
类型确定模块,用于确定新闻事件隶属的目标新闻类型;
框架获取模块,用于根据所述目标新闻类型从所述模板库中,获取所述目标新闻类型的目标基础框架;
数据获取模块,用于从预设的数据库中获取所述新闻事件的结构化数据;
填充模块,用于根据所述结构化数据向所述目标基础框架中填充内容,得到所述新闻事件的新闻速报的正文;
生成模块,用于根据所述正文生成所述新闻速报的标题,将所述标题与所述正文拼接形成所述新闻速报。
本发明实施例的基于人工智能的新闻速报生成装置,通过基于历史新闻速报预先构建模板库,其中模板库中包括每个新闻类型用于生成新闻速报的基础框架;确定新闻事件隶属的目标新闻类型,根据目标新闻类型从模板库中,获取目标新闻类型的目标基础框架,从预设的数据库中获取新闻事件的结构化数据,根据结构化数据向目标基础框架中填充内容,得到新闻事件的新闻速报的正文,根据正文生成新闻速报的标题,将标题与正文拼接形成新闻速报。本实施例中,通过对历史新闻速报的学习,可以为不同的新闻类型构建基础框架,然后基于基础框架智能地生成新闻速报,提高新闻事件的报道的时效性。
为达上述目的,本发明第三方面实施例提出了另一种基于人工智能的新闻速报生成装置,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为:
基于历史新闻速报预先构建模板库,所述模板库中包括每个新闻类型用于生成新闻速报的基础框架;
确定新闻事件隶属的目标新闻类型;
根据所述目标新闻类型从所述模板库中,获取所述目标新闻类型的目标基础框架;
从预设的数据库中获取所述新闻事件的结构化数据;
根据所述结构化数据向所述目标基础框架中填充内容,得到所述新闻事件的新闻速报的正文;
根据所述正文生成所述新闻速报的标题,将所述标题与所述正文拼接形成所述新闻速报。
为了实现上述目的,本发明第四方面实施例提出了一种非临时性计算机可读存储介质,当所述存储介质中的指令由服务器端的处理器被执行时,使得服务器端能够执行一种基于人工智能的新闻速报生成方法,所述方法包括:
基于历史新闻速报预先构建模板库,所述模板库中包括每个新闻类型用于生成新闻速报的基础框架;
确定新闻事件隶属的目标新闻类型;
根据所述目标新闻类型从所述模板库中,获取所述目标新闻类型的目标基础框架;
从预设的数据库中获取所述新闻事件的结构化数据;
根据所述结构化数据向所述目标基础框架中填充内容,得到所述新闻事件的新闻速报的正文;
根据所述正文生成所述新闻速报的标题,将所述标题与所述正文拼接形成所述新闻速报。
为了实现上述目的,本发明第五方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,执行一种基于人工智能的新闻速报生成方法,所述方法包括:
基于历史新闻速报预先构建模板库,所述模板库中包括每个新闻类型用于生成新闻速报的基础框架;
确定新闻事件隶属的目标新闻类型;
根据所述目标新闻类型从所述模板库中,获取所述目标新闻类型的目标基础框架;
从预设的数据库中获取所述新闻事件的结构化数据;
根据所述结构化数据向所述目标基础框架中填充内容,得到所述新闻事件的新闻速报的正文;
根据所述正文生成所述新闻速报的标题,将所述标题与所述正文拼接形成所述新闻速报。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例提供的一种基于人工智能的新闻速报生成方法的流程示意图;
图2为本发明实施例提供的一种预先构建模板库的流程示意图;
图3为本发明实施例提供的一种基于人工智能的新闻速报生成方法的应用示意图;
图4为本发明实施例提供的另一种基于人工智能的新闻速报生成方法的流程示意图;
图5为本发明实施例提供的另一种基于人工智能的新闻速报生成装置的结构示意图;
图6为本发明实施例提供的另一种基于人工智能的新闻速报生成装置的结构示意图;
图7为本发明实施例提供的另一种基于人工智能的新闻速报生成装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的基于人工智能的新闻速报生成方法及装置。
图1为本发明实施例所提供的一种基于人工智能的新闻速报生成方法的流程示意图。该基于人工智能的新闻速报生成方法包括以下步骤:
S101、基于历史新闻速报预先构建模板库,模板库中包括每个新闻类型用于生成新闻速报的基础框架。
本实施例中,可以从开发数据平台中获取到历史新闻速报,然后对历史新闻速报进行提取和训练,得到一个模板库,在该模板库中包括每个新闻类型用于生成新闻速报的基础框架,即包括每个新闻类别用于生成新闻速报的模板。在基础框架包括生成新闻速报的规则,在新闻事件发生后,根据该规则来生成该新闻事件的速报。本实施例中,新闻速报可以涉及体育赛事、彩票分析、股票看盘等新闻类型。
图2为本发明实施例提供的一种预先构建模板库的流程示意图。该预先构建模板库具体包括以下步骤:
S201、针对同一新闻类型,对所有历史新闻速报进行提取,得到历史新闻速报中结构化数据与新闻语料之间的对应关系。
具体地,采集同一新闻类型的所有历史新闻速报,从所有的历史新闻速报中提取,得到历史新闻速报中的结构化数据,该结构化数据可以为一个数据,例如比赛的比分。该结构化数据也可以为一个数据块,例如双色球的开奖结果。该结构化数据也可以为一个可控集合,例如比赛中球队的球员名单等。
新闻速报中包括对结构化数据的描述内容,这些描述内容就是新闻语料。本实施例中,从历史新闻速报中可以提取出结构化数据与新闻语料之间的对应关系,即结构化数据与新闻速报中各句段之间的对应关系。
S202、利用历史新闻速报中的结构化数据、新闻语料以及所述对应关系形成训练集。
在获取到历史新闻速报中的结构化数据与新闻语料之间的对应关系后,可以利用历史新闻速报中的结构化数据、新闻语料以及所述对应关系,形成一个用于文本训练的训练集。
S203、对训练集进行文本训练,挖掘各历史新闻速报中可替换的结构化数据形成基础框架。
进一步地,可以利用得到的训练集进行文本训练,挖掘历史新闻速报中可替换的结构化数据,然后形成新闻类型的基础框架。例如,可以从新闻速报中提取出新闻速报中可替换的结构化数据,例如比分、球队名称等,队员名称。
在该基础框架中包括形成一个新闻类型的新闻速报的策略。本实施例中,不同的新闻类型形成的基础框架不同。例如,在比赛赛事的新闻速报中可以包括总比分、队员、每节的比分以及对比赛的评价等。在彩票分析的新闻速报中可以包括最近一期的开奖结果、累计奖金、选号分析等内容。
基础框架所包括的形成一个新闻类型的新闻速报的策略,可以包括每段主要介绍的对象或者主干元素,以及段落之间的关系等。例如,在比赛赛事的新闻速报中,可以在不同的段落分别介绍总比分、各节的比分情况,以及队员分布、单个球员所贡献的分值或者进球数,以及球场上个最佳球员等。
本实施例中,通过对历史新闻速报的学习,可以为不同的新闻类型构建基础框架,然后基于基础框架智能地生成新闻速报,提高新闻事件的报道的时效性。
S102、确定新闻事件隶属的目标新闻类型。
具体地,可以实时地或者周期性检测是否有新闻事件发生,当检测到有新闻事件发生后,说明需要对新闻事件进行报道,则需要确定该新闻事件所隶属的目标新闻类型。本实施例中,可以为不同的新闻类型设置不同的触发字段,通过这些触发字段来检测是否有相应类型的新闻事件发生。
S103、根据目标新闻类型从模板库中,获取目标新闻类型的目标基础框架。
由于预先构建的模板库中存储有多个新闻类型的基础矿建,在确定出新闻事件的目标新闻类型后,可以根据该目标新闻类型从模块库中,获取与该目标新闻类型匹配的目标基础框架。本实施例中,可以为一个新闻类型设置多个基础框架。例如,针对同一新闻类型,不同的基础框架所包括的策略中可以设定段落的个数,以及每个段落介绍的对象,以及各个段落之间的位置关系。当针对目标新闻类型有多个基础框架时,可以从该目标新闻类型的所有基础框架中,随机地选取一个基础框架作为目标基础框架,由于每个新闻类型设置有多个基础框架,可以使针对同一新闻类型的新闻速报多样化。
S104、从预设的数据库中获取新闻事件的结构化数据。
在选取了目标基础框架后,为了完成新闻事件的报道,需要从预设的数据库中获取该新闻事件的结构化数据。例如,一个篮球体育赛事刚刚结束,可以从预设的数据库中提取到该体育赛事的结构化数据,包括:两支球队的名称、比分、单节比分、两个球队的球员名称等。
S105、根据结构化数据向目标基础框架中填充内容,得到新闻事件的新闻速报的正文。
为了能够形成一个新闻报道,可以基于知识图谱从数据库中获取与结构化数据相关的内容,然后向目标基础框架中填充结构化数据以及与结构化数据相关的内容,得到新闻速报的正文。例如,根据结构化数据“A队和B队”和“100:78”,基于知识图谱技术,可以得到一个关于两个球队比赛情况介绍的相关内容。A队与B队进行了激烈的角逐,最后比分锁定在100:78,A队大胜B队。然后可以根据单节比分或者队形排布等结构化数据,进一步地获取到相关内容,通过这些相关内容来丰富新闻速报,从而为互联网用户提供更多的关于该篮球赛事的信息。
S106、根据新闻速报的正文生成标题,将标题与正文拼接形成新闻速报。
在获取到新闻速报的正文后,可以根据新闻速报的正文为该新闻速报生成一个标题,然后将标题与新闻速报的正文进行拼接,生成一个新闻速报。例如,该新闻事件为A队与B队的篮球比赛,生成的新闻速报的正文是针对该赛事的介绍,在形成正文后,就可以根据正文内容,智能生成一个标题,如“A队轻取B队,率先冲进八强”。
图3为本实施例提供的基于人工智能的新闻速报生成方法的应用示意图。图3中为一个彩票的新闻速报,该新闻速报为通过基础框架智能生成。其中,基础框架中包括:开奖详情和选号分析两个模块。其中,开奖详情中包括:中奖情况以及奖金和累计奖金等介绍,然后可以在号码分析中对红球表现进行描述。当彩票开奖这一新闻事件发生后,就可以从预设的数据库中获取到新闻事件的结构化数据,例如,多少期、开奖号码、一等奖的注数、二等奖的注数、每注的奖金设置,以及累计的奖金。进一步地还可以获取到号码分析模块所需的结构化数据,例如冷号、温号、热号等。在获取到这些结果化数据后,就可以进一步地获取到与结果话数据相关的内容,将结构化数据以及相关内容填充到基础框架中,形成一个关于彩票开奖的新闻速报的正文,然后添加上题目就可以进行报道。
本实施例提供的基于人工智能的新闻速报生成方法,通过基于历史新闻速报预先构建模板库,其中模板库中包括每个新闻类型用于生成新闻速报的基础框架;确定新闻事件隶属的目标新闻类型,根据目标新闻类型从模板库中,获取目标新闻类型的目标基础框架,从预设的数据库中获取新闻事件的结构化数据,根据结构化数据向目标基础框架中填充内容,得到新闻事件的新闻速报的正文,根据正文生成新闻速报的标题,将标题与正文拼接形成新闻速报。本实施例中,通过对历史新闻速报的学习,可以为不同的新闻类型构建基础框架,然后基于基础框架智能地生成新闻速报,提高新闻事件的报道的时效性。
图4为本发明实施例提供的另一种基于人工智能的新闻速报生成方法的流程示意图。在上述实施例的基础之上,在形成所述该基于人工智能的新闻速报生成方法包括以下步骤:
S301、利用润色语句集中对正文中的同一语义的描述性短语进行随机替换。
本实施例中,针对同一新闻类型,可以在形成基础框架之后,对预设数量的历史新闻速报中每两个描述性短语的语音相似度进行挖掘,然后根据获取到的语义相似度可以确定出表示同一语义的所有描述性短语,例如可以设置一个阈值,将两个短语之间的语义相似度与阈值进行比较,当两个短语之间的语义相似度高于阈值时,可以认定两个短语表示同一语义。进一步地,利用表示同一语义的所有描述性短语生成该同一语义的润色语句集,不同的语义生成不同的润色语句集。进一步地,可以通过所有的润色语句集对生成的新闻速报的内容进行优化和润色。例如,表示胜利这一语义的润色语句集中可以包括“大胜”、“完胜”、“轻取”、“险胜”、“逆袭”、“碾压”等。
本实施例中,为了使智能生成的新闻速报更加多样性,避免针对同一类型的新闻事件的速报出现统一的报道样式,因此,可以在形成新闻速报的正文之后,利用润色语句集对正文中的同一语义的描述性短语进行随机替换,以实现对正文的优化。
S302、利用同义词表中对正文中的同一对象的结构化数据进行随机替换。
进一步地,针对同一新闻类型,可以在形成基础框架之后,对预设数量的历史新闻速报中结构化数据进行挖掘,得到表示对象的结构化数据,然后可以识别出用于同一对象的所有结构化数据,然后利用同一对象的所有结构化数据生成该对象的同义词表。例如,某一球星,该球星的名字就是一个结构化数据,而且该结构化数据为一个名词性结构化数据,该球星可能还有其他的昵称,昵称也可以用来上表示该球星,从而球星的名字、昵称都可以表示该球星,则名字、昵称则可以形成一个与该球星相关的同义词表,可以通过同义词表对生成的新闻速报的内容进行优化和润色。
本实施例中,避免针对同一类型的新闻事件的速报出现统一的报道样式,新闻速报机械生成化的痕迹较重,因此,可以在形成新闻速报的正文之后,利用同一词表对正文中的同一对象的结构化数据进行随机替换,以实现对正文的优化,使得为了使智能生成的新闻速报更加多样性。例如将球星的名字替换成球星的昵称等。
实际应用中,通过人工编辑生成新闻速报时,可能因为人工编辑的成本过高,为了保证新闻速报的超高时效性,人工编辑时只能承担热点事件的跟踪,例如热点赛色、热点股票或者热点彩票的报道,缺少对长尾比赛、股票、彩票等内容的覆盖,使得无法满足长尾用户的需求。而本实施例中,由于新闻速报是基于基础框架智能生成的,不再依赖人工进行编辑,从而可以对长尾比赛、股票、彩票等新闻事件的覆盖,能够满足长尾用户的需求。
此处需要说明,可以单独执行S301也可以单独执行302,也可以先执行S302,再执行S301,来实现对新闻速报的润色和完善,以提高智能生成新闻速报的质量。
图5为本发明实施例提供的一种基于人工智能的新闻速报生成装置的结构示意图。该基于人工智能的新闻速报生成装置包括:模板库构建模块11、类型确定模块12、框架获取模块13、数据获取模块14、填充模块15和生成模块16。
其中,模板库构建模块11,用于基于历史新闻速报预先构建模板库,所述模板库中包括每个新闻类型用于生成新闻速报的基础框架。
类型确定模块12,用于确定新闻事件隶属的目标新闻类型。
框架获取模块13,用于根据所述目标新闻类型从所述模板库中,获取所述目标新闻类型的目标基础框架。
数据获取模块14,用于从预设的数据库中获取所述新闻事件的结构化数据。
填充模块15,用于根据所述结构化数据向所述目标基础框架中填充内容,得到所述新闻事件的新闻速报的正文。
生成模块16,用于根据所述正文生成所述新闻速报的标题,将所述标题与所述正文拼接形成所述新闻速报。
进一步地,模板库构建模块11,具体用于针对同一新闻类型,对所有历史新闻速报进行提取,得到所述历史新闻速报中的结构化数据与新闻语料之间的对应关系,利用所述历史新闻速报中的结构化数据、新闻语料以及所述对应关系形成训练集,对所述训练集进行文本训练,挖掘各历史新闻速报中可替换的结构化数据,形成所述基础框架。
本实施例提供的基于人工智能的新闻速报生成装置,通过基于历史新闻速报预先构建模板库,其中模板库中包括每个新闻类型用于生成新闻速报的基础框架;确定新闻事件隶属的目标新闻类型,根据目标新闻类型从模板库中,获取目标新闻类型的目标基础框架,从预设的数据库中获取新闻事件的结构化数据,根据结构化数据向目标基础框架中填充内容,得到新闻事件的新闻速报的正文,根据正文生成新闻速报的标题,将标题与正文拼接形成新闻速报。本实施例中,通过对历史新闻速报的学习,可以为不同的新闻类型构建基础框架,然后基于基础框架智能地生成新闻速报,提高新闻事件的报道的时效性。
图6为本发明实施例提供的另一种基于人工智能的新闻速报生成装置的结构示意图。在上述实施例的基础之上,该基于人工智能的新闻速报生成装置还包括:润色模块17和优化模块18。
进一步地,模板库构建模块11,还用于挖掘预设数量的所述历史新闻速报中每两个描述性短语的语义相似度,根据所述语义相似度获取表示同一语义的所有描述性短语,利用表示同一语义的所有描述性短语生成该同一语义的润色语句集。
润色模块17,用于利用所述润色语句集中对所述正文中的同一语义的描述性短语进行随机替换。
进一步地,模板库构建模块11,还用于对预设数量的所述历史新闻速报中的结构化数据进行挖掘,得到表示对象的结构化数据;其中,所述对象的结构化数据为名词性的结构化数据,识别用于表示同一对象的所有结构化数据,利用同一对象的所有结构化数据生成该同一对象的同义词表。
优化模块18,用于利用所述同义词表中对所述正文中的同一对象的所述结构化数据进行随机替换。
进一步地,类型确定模块12,具体用于检测是否有所述新闻事件发生,当检测到所述新闻事件后,确定所述新闻事件隶属的所述目标新闻类型。
进一步地,填充模块15,具体用于基于知识图谱从所述数据库中获取与所述结构化数据相关的内容,向所述目标基础框架中填充所述结构化数据以及与所述结构化数据相关的内容,得到所述新闻速报的正文。
本实施例中,通过对历史新闻速报的学习,可以为不同的新闻类型构建基础框架,然后基于基础框架智能地生成新闻速报,提高新闻事件的报道的时效性。进一步地,可以通过生成的润色语句集和同义词表,对生成的新闻速报进行润色和优化,提高新闻速报的可读性。进一步地,由于新闻速报是基于基础框架智能生成的,不再依赖人工进行编辑,从而可以对长尾比赛、股票、彩票等新闻事件的覆盖,能够满足长尾用户的需求。
图7为本发明实施例提供的另一种基于人工智能的新闻速报生成装置的结构示意图。该基于人工智能的新闻速报生成装置包括:
存储器21、处理器22及存储在存储器21上并可在处理器22上运行的计算机程序。
处理器22执行所述程序时实现上述实施例中提供的基于人工智能的新闻速报生成方法。
进一步地,基于人工智能的新闻速报生成装置还包括:
通信接口23,用于存储器21和处理器22之间的通信。
存储器21,用于存放可在处理器22上运行的计算机程序。
存储器21可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
处理器22,用于执行所述程序时实现上述实施例所述的业务管理方法。
如果存储器21、处理器22和通信接口23独立实现,则通信接口21、存储器21和处理器22可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(Industry Standard Architecture,简称为ISA)总线、外部设备互连(PeripheralComponent,简称为PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture,简称为EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器21、处理器22及通信接口23,集成在一块芯片上实现,则存储器21、处理器22及通信接口23可以通过内部接口完成相互间的通信。
处理器22可能是一个中央处理器(Central Processing Unit,简称为CPU),或者是特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者是被配置成实施本发明实施例的一个或多个集成电路。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (16)

1.一种基于人工智能的新闻速报生成方法,其特征在于,包括:
基于历史新闻速报预先构建模板库,所述模板库中包括每个新闻类型用于生成新闻速报的基础框架;
确定新闻事件隶属的目标新闻类型;
根据所述目标新闻类型从所述模板库中,获取所述目标新闻类型的目标基础框架;
从预设的数据库中获取所述新闻事件的结构化数据;
根据所述结构化数据向所述目标基础框架中填充内容,得到所述新闻事件的新闻速报的正文;
根据所述正文生成所述新闻速报的标题,将所述标题与所述正文拼接形成所述新闻速报;
其中,所述基于历史新闻速报,预先构建新闻速报的模板库,所述模板库中包括每个新闻类型用于生成新闻速报的基础框架,包括:
针对同一新闻类型,对所有历史新闻速报进行提取,得到所述历史新闻速报中的结构化数据与新闻语料之间的对应关系;
利用所述历史新闻速报中的结构化数据、新闻语料以及所述对应关系形成训练集;
对所述训练集进行文本训练,挖掘各历史新闻速报中可替换的结构化数据,形成所述基础框架。
2.根据权利要求1所述的基于人工智能的新闻速报生成方法,其特征在于,所述形成所述基础框架之后,还包括:
挖掘预设数量的所述历史新闻速报中每两个描述性短语的语义相似度;
根据所述语义相似度获取表示同一语义的所有描述性短语;
利用表示同一语义的所有描述性短语生成该同一语义的润色语句集。
3.根据权利要求2所述的基于人工智能的新闻速报生成方法,所述根据所述结构化数据向所述目标基础框架中填充内容,得到所述新闻事件的新闻速报的正文之后,还包括:
利用所述润色语句集中对所述正文中的同一语义的描述性短语进行随机替换。
4.根据权利要求1所述的基于人工智能的新闻速报生成方法,其特征在于,所述形成所述基础框架之后,还包括:
对预设数量的所述历史新闻速报中的结构化数据进行挖掘,得到表示对象的结构化数据;其中,所述对象的结构化数据为名词性的结构化数据;
识别用于表示同一对象的所有结构化数据;
利用同一对象的所有结构化数据生成该同一对象的同义词表。
5.根据权利要求4所述的基于人工智能的新闻速报生成方法,所述根据所述结构化数据向所述目标基础框架中填充内容,得到所述新闻事件的新闻速报的正文之后,还包括:
利用所述同义词表中对所述正文中的同一对象的所述结构化数据进行随机替换。
6.根据权利要求1-5任一项所述的基于人工智能的新闻速报生成方法,其特征在于,所述确定新闻事件隶属的目标新闻类型,包括:
检测是否有所述新闻事件发生;
当检测到所述新闻事件后,确定所述新闻事件隶属的所述目标新闻类型。
7.根据权利要求1-5任一项所述的基于人工智能的新闻速报生成方法,其特征在于,所述根据所述结构化数据向所述目标基础框架中填充内容,得到所述新闻事件的新闻速报的正文,包括:
基于知识图谱从所述数据库中获取与所述结构化数据相关的内容;
向所述目标基础框架中填充所述结构化数据以及与所述结构化数据相关的内容,得到所述新闻速报的正文。
8.一种基于人工智能的新闻速报生成装置,其特征在于,包括:
模板库构建模块,用于基于历史新闻速报预先构建模板库,所述模板库中包括每个新闻类型用于生成新闻速报的基础框架;
类型确定模块,用于确定新闻事件隶属的目标新闻类型;
框架获取模块,用于根据所述目标新闻类型从所述模板库中,获取所述目标新闻类型的目标基础框架;
数据获取模块,用于从预设的数据库中获取所述新闻事件的结构化数据;
填充模块,用于根据所述结构化数据向所述目标基础框架中填充内容,得到所述新闻事件的新闻速报的正文;
生成模块,用于根据所述正文生成所述新闻速报的标题,将所述标题与所述正文拼接形成所述新闻速报;
其中,所述模板库构建模块,具体用于针对同一新闻类型,对所有历史新闻速报进行提取,得到所述历史新闻速报中的结构化数据与新闻语料之间的对应关系,利用所述历史新闻速报中的结构化数据、新闻语料以及所述对应关系形成训练集,对所述训练集进行文本训练,挖掘各历史新闻速报中可替换的结构化数据,形成所述基础框架。
9.根据权利要求8所述的基于人工智能的新闻速报生成装置,其特征在于,所述模板库构建模块,还用于挖掘预设数量的所述历史新闻速报中每两个描述性短语的语义相似度,根据所述语义相似度获取表示同一语义的所有描述性短语,利用表示同一语义的所有描述性短语生成该同一语义的润色语句集。
10.根据权利要求9所述的基于人工智能的新闻速报生成装置,还包括:润色模块,用于利用所述润色语句集中对所述正文中的同一语义的描述性短语进行随机替换。
11.根据权利要求8所述的基于人工智能的新闻速报生成装置,其特征在于,所述模板库构建模块,还用于对预设数量的所述历史新闻速报中的结构化数据进行挖掘,得到表示对象的结构化数据;其中,所述对象的结构化数据为名词性的结构化数据,识别用于表示同一对象的所有结构化数据,利用同一对象的所有结构化数据生成该同一对象的同义词表。
12.根据权利要求11所述的基于人工智能的新闻速报生成装置,还包括:优化模块,用于利用所述同义词表中对所述正文中的同一对象的所述结构化数据进行随机替换。
13.根据权利要求8-12任一项所述的基于人工智能的新闻速报生成装置,其特征在于,所述类型确定模块,具体用于检测是否有所述新闻事件发生,当检测到所述新闻事件后,确定所述新闻事件隶属的所述目标新闻类型。
14.根据权利要求8-12任一项所述的基于人工智能的新闻速报生成装置,其特征在于,所述填充模块,具体用于基于知识图谱从所述数据库中获取与所述结构化数据相关的内容,向所述目标基础框架中填充所述结构化数据以及与所述结构化数据相关的内容,得到所述新闻速报的正文。
15.一种基于人工智能的新闻速报生成装置,其特征在于,包括:
存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一所述的基于人工智能的新闻速报生成方法。
16.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的基于人工智能的新闻速报生成方法。
CN201710047783.2A 2017-01-22 2017-01-22 基于人工智能的新闻速报生成方法及装置 Active CN106776523B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710047783.2A CN106776523B (zh) 2017-01-22 2017-01-22 基于人工智能的新闻速报生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710047783.2A CN106776523B (zh) 2017-01-22 2017-01-22 基于人工智能的新闻速报生成方法及装置

Publications (2)

Publication Number Publication Date
CN106776523A CN106776523A (zh) 2017-05-31
CN106776523B true CN106776523B (zh) 2020-04-07

Family

ID=58941559

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710047783.2A Active CN106776523B (zh) 2017-01-22 2017-01-22 基于人工智能的新闻速报生成方法及装置

Country Status (1)

Country Link
CN (1) CN106776523B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107423274B (zh) * 2017-06-07 2020-11-20 北京百度网讯科技有限公司 基于人工智能的比赛解说内容生成方法、装置及存储介质
CN108062389A (zh) * 2017-12-15 2018-05-22 北京百度网讯科技有限公司 简报生成方法和装置
CN110309415B (zh) * 2018-03-16 2022-05-20 阿里巴巴(中国)有限公司 新闻信息生成方法、装置及电子设备可读存储介质
CN109101648B (zh) * 2018-08-22 2022-04-05 歌尔科技有限公司 一种新闻播放方法和装置
CN109408821B (zh) * 2018-10-22 2020-09-04 腾讯科技(深圳)有限公司 一种语料生成方法、装置、计算设备及存储介质
CN109446505A (zh) * 2018-10-31 2019-03-08 广东小天才科技有限公司 一种范文生成方法及系统
CN110134931B (zh) * 2019-05-14 2023-09-22 北京字节跳动网络技术有限公司 媒介标题生成方法、装置、电子设备及可读介质
CN110209838A (zh) * 2019-06-10 2019-09-06 广东工业大学 一种文本模板获取方法及相关装置
CN110309320B (zh) * 2019-06-28 2021-04-06 浙江传媒学院 结合nba赛事知识图谱的nba篮球新闻自动生成方法
CN110489520B (zh) * 2019-07-08 2023-05-16 平安科技(深圳)有限公司 基于知识图谱的事件处理方法、装置、设备和存储介质
CN110727795B (zh) * 2019-08-07 2022-09-20 北京百度网讯科技有限公司 新闻播报的方法及装置
CN110765771B (zh) * 2019-09-17 2023-05-05 创新先进技术有限公司 用于确定广告语句的方法及装置
CN110728151B (zh) * 2019-10-23 2024-03-12 深圳报业集团 基于视觉特征的信息深度处理方法及系统
CN110971964B (zh) * 2019-12-12 2022-11-04 腾讯科技(深圳)有限公司 智能解说生成、播放方法、装置、设备及存储介质
CN111191434B (zh) * 2019-12-23 2024-04-26 苏宁云计算有限公司 基于自然语言的体育新闻写作方法、装置及电子设备
CN111695014A (zh) * 2020-05-07 2020-09-22 广东康云科技有限公司 基于ai自动生成稿件的方法、系统、装置和存储介质
CN111583363B (zh) * 2020-05-11 2024-05-03 中国传媒大学 一种图文新闻的视觉自动生成方法及系统
CN111967268B (zh) * 2020-06-30 2024-03-19 北京百度网讯科技有限公司 文本中的事件抽取方法、装置、电子设备和存储介质
CN112733516B (zh) * 2020-12-31 2024-04-09 京东科技控股股份有限公司 快讯处理方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102929930A (zh) * 2012-09-24 2013-02-13 南京大学 小样本自动化Web文本数据抽取模板生成与抽取方法
CN106021389A (zh) * 2016-05-12 2016-10-12 新华通讯社 基于模板自动生成新闻的系统和方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7519607B2 (en) * 2002-08-14 2009-04-14 Anderson Iv Robert Computer-based system and method for generating, classifying, searching, and analyzing standardized text templates and deviations from standardized text templates

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102929930A (zh) * 2012-09-24 2013-02-13 南京大学 小样本自动化Web文本数据抽取模板生成与抽取方法
CN106021389A (zh) * 2016-05-12 2016-10-12 新华通讯社 基于模板自动生成新闻的系统和方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Combining relations for information extraction from free text;Maslennikov 等;《ACM Transactions on Information Systems》;20100630;第28卷(第3期);第1-35页 *
基于相似计算的信息抽取模板自动获取方法;叶娜 等;《第二届全国学生计算语言学研讨会论文集》;20040801;第434-439页 *

Also Published As

Publication number Publication date
CN106776523A (zh) 2017-05-31

Similar Documents

Publication Publication Date Title
CN106776523B (zh) 基于人工智能的新闻速报生成方法及装置
LeClair et al. A neural model for generating natural language summaries of program subroutines
CN107423274B (zh) 基于人工智能的比赛解说内容生成方法、装置及存储介质
Yang et al. HotpotQA: A dataset for diverse, explainable multi-hop question answering
CN104573028B (zh) 实现智能问答的方法和系统
CN105095190B (zh) 一种基于中文语义结构和细分词库结合的情感分析方法
CN108897732B (zh) 语句类型识别方法和装置、存储介质及电子装置
CN105893478A (zh) 一种标签提取方法及设备
CN113557748B (zh) 跨平台阻挡剧透服务
CN107807915B (zh) 基于纠错平台的纠错模型建立方法、装置、设备和介质
CN103309857B (zh) 一种分类语料确定方法和设备
CN114912448B (zh) 一种文本扩展方法、装置、设备及介质
CN110851575A (zh) 一种对话生成系统及对话实现方法
CN103559172B (zh) 多语混合文本的分句方法和装置
CN109582904A (zh) 已发布内容的修改方法、装置、服务器、终端及存储介质
CN110297897B (zh) 问答处理方法及相关产品
Yang et al. Topkg: Target-oriented dialog via global planning on knowledge graph
CN107491525A (zh) 分布式地址比对方法和装置
CN114676669A (zh) 赛事摘要文本的生成方法、装置、电子设备及存储介质
DE112013002953T5 (de) Instanziieren eines Codier-Wettbewerbs zum Entwickeln eines Programmmoduls in einer vernetztenDatenverarbeitungsumgebung
CN102012904A (zh) 一种棋谱文件的生成方法及系统
CN108460024B (zh) 电子书情节走向的生成方法、计算设备及计算机存储介质
CN113440856B (zh) 游戏中异常账号的识别方法、装置、电子设备及存储介质
CN111222328A (zh) 标签提取方法、装置和电子设备
DE112018005844T5 (de) Phonetische Muster zum Fuzzy Matching bei Verarbeitung natürlicher Sprache

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant