CN105912526A - 一种面向体育比赛直播文字的体育新闻自动构建方法及装置 - Google Patents

一种面向体育比赛直播文字的体育新闻自动构建方法及装置 Download PDF

Info

Publication number
CN105912526A
CN105912526A CN201610235671.5A CN201610235671A CN105912526A CN 105912526 A CN105912526 A CN 105912526A CN 201610235671 A CN201610235671 A CN 201610235671A CN 105912526 A CN105912526 A CN 105912526A
Authority
CN
China
Prior art keywords
sentence
word
live
sports
importance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610235671.5A
Other languages
English (en)
Inventor
张建敏
万小军
姚金戈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN201610235671.5A priority Critical patent/CN105912526A/zh
Publication of CN105912526A publication Critical patent/CN105912526A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars

Abstract

本发明公开了一种新颖的面向体育比赛直播文字的体育新闻自动构建方法及装置,涉及语言文字处理领域。目前体育比赛结束后对于比赛情况进行报道的新闻都是由人工编辑的,经济成本高,且很难保证时效性。本发明提出基于学习排序框架,通过体育比赛直播文字自动构建体育新闻的方法和装置,有效提高体育新闻的时效性,降低编辑成本。其包括如下步骤:构建针对体育直播文字的学习排序模型;应用学习排序模型预测每个直播句子的权重;选取权重最高的句子集合构建体育新闻。本发明适用于比赛过程中会产生比赛文字直播的体育比赛。

Description

一种面向体育比赛直播文字的体育新闻自动构建方法及装置
技术领域
本发明涉及语言文字处理领域,特别涉及一种面向体育比赛直播文字的体育新闻自动构建方法及装置。
背景技术
据了解,面向体育比赛直播文字的体育新闻自动构建方法鲜有成熟的应用成果,也很少见到相关学术成果发表在重要学术会议和期刊上。与此领域相关度比较大的研究成果有Nichols等人从Twitter的状态更新中提取热门体育事件,Tjondronegoro等人根据体育音视频获得体育运动关键点,以及Bouayad-Agha等研究者在2011和2012年使用预先定义的模板构建足球文摘的本体库。
此发明涉及的体育新闻自动构建方法,实质是将新闻构建归结为对直播文本进行自动摘要的过程。而对于文档自动摘要这一问题的研究现已相对成熟。有很多不同的方法应用于此,并取得了不错的效果。单文档摘要是由国际会议DUC和TAC定义的典型任务,对于这个任务,基于抽取的方法都被大量采用。基于抽取的方法是首先对文档中已有的句子进行排序,再从中直接抽取排序靠前的句子组成摘要。此发明的文本自动摘要过程就采用基于抽取的方法。
对于单文档摘要,一系列特征被用来对文档中的句子进行排序,包括词频,句子位置,线索词,特征词和主题签名。其中基于质心的摘要方法——MEAD计算每个句子的三个特征值并线性组合来决定哪个句子更加重要。机器学习技术也被用来进行句子排序。M.Litvak等人提出了一种语言无关的方法来提取摘要,它使用遗传算法对多个句子排序指标进行线性优化。T.Hirao等人运用树形背包问题的方法解决单文档摘要,例如从DEP-DT选取最佳根节点子树作为摘要。近些年基于图的方法被更多得运用于句子排序。我们进一步提出利用邻近文档来提高基于图的单文档摘要效果。其他一些基于图的摘要方法包括在异构图上对句子和其他单元进行混合排序。
学习排序方法是将机器学习的方式应用到排序模型中,让机器自动调整策略,根据输入的特征矩阵训练模型,再对测试矩阵预测排序向量。现在学习排序方法主要分为Pointwise、Pairwise和Listwise。Pointwise方法正如其名字一样,是把数据当作一个个的点来分别进行计算的,这种方法可以把我们的排序问题转换成二值分类问题、回归问题和多值分类问题。在Pairwise方法中,所有参与排序的对象进行两两配对,计算出每两个对象的次序,最终我们就可以获得一个总体的排名。Listwise的输入不再是一个个或一对对的对象,而是一组对象列表,根据排序函数计算出每一个对象列表的排序向量的得分,得分最高的排序向量即为输出。
概括来说,目前自动构建体育新闻的方法还主要停留在根据体育数据,套用模板,生成较为生硬的简短摘要。本发明则提出了一种新的解决途径,从体育比赛直播文字中抽取重要句子构建体育新闻。体育比赛直播文字是在体育比赛直播过程中,由解说员生动的语言变为的文字,保证了由此生成的新闻的生动性和多样性。句子抽取过程采用现今较先进的有监督学习排序框架,并根据直播文字和新闻生成需求,提取恰当的文本特征。
发明内容
本发明提供一种面向体育比赛直播文字的体育新闻自动构建方法,该方法利用学习排序模型,对体育比赛直播文字的句子重要性进行预测,并且选取重要性高的句子构建体育新闻,能够有效地保证新闻的信息重要性、语言生动性。
本发明采用的技术方案包括:一种基于学习排序模型,面向体育比赛直播文字的体育新闻自动构建方法,包括如下步骤:
(1)面向体育比赛直播文字的学习排序模型构建;
(2)根据学习排序模型,预测直播文字句子重要性;
(3)基于直播文字句子重要性进行新闻构建;
进一步,面向体育比赛直播文字的学习排序模型构建的步骤如下:
首先爬取大量体育比赛直播文字和对应比赛的新闻,对其进行简单的预处理,包括去除噪声,分词等。然后将这些数据作为训练集,用于构建学习排序模型。观察训练集直播文字,提取代表其重要性的有效特征。应用有监督的学习排序框架预测直播文字的句子重要性,需要将直播文字转化为向量的形式。具体地,对于每个句子si,将其转化为(xi,yi)的形式。其中xi代表句子si的特征向量,yi代表句子si的目标重要性。在此发明中,使用句子si与这场体育比赛对应的新闻报道的最大句子级别吻合程度作为目标重要性yi。句子级别吻合程度用ROUGE-2F值来度量。
下面以足球比赛直播文字为例介绍直播文字的具体特征。其中1-5维为文档摘要任务使用的传统特征,6-9组为通过观察足球比赛直播文字的语言和形式特点,为其设计的。
1)句子位置信息:表示在候选句子集合中的位置。假设在直播文字中有n个句子,对于句子si,它的这一维特征通过计算;
2)句子长度:表示句子si去掉停用词之后的长度;
3)停用词个数:表示句子si中所包含的停用词的个数,句子包含的停用词过多可以间接反应其重要性不够高;
4)词语权重和:计算句子si中词语TF-IDF值的和;
5)相邻句子相似度:计算每个句子si和它相邻句子的余弦相似度。具体地,计算si与其前后各N个相邻句子的相似度,N可设为1、2;
6)比赛关键点代表词:体现比赛关键点的词语的个数,常常可以反映这个句子的重要性。例如句子中包含“破门”和“红牌”这样的字样说明这句话描述的很有可能是比赛的关键点,重要性会变高。这一组特征包含26维,其中一维表示包含有多少个关键词语,其他25维代表每个有关于足球的关键词语在这句话中是否出现,出现则这一维为“1”,没出现为“0”;
如图1所示,在足球比赛的直播文字中会包含有文字所对应的时间信息、比分信息,这些信息提供更多的有效特征。
7)时间信息特征:体现句子所在的比赛时段,如“上半场”还是“下半场”,所在的具体时间;
8)比分信息特征:体现句子所在的时刻是否有比分变化,或是在比分变化的小范围内,比赛此时为平局或者有比分差别;
9)球员受欢迎程度:此组特征包含两维,一维代表句子中包含的球员的个数,一维代表所有球员的受欢迎程度之和。此受欢迎程度的评估可以利用在搜索引擎中搜索球员姓名得到的新闻数作为指标。
根据训练集句子的特征向量矩阵和对应的目标重要性,就可以使用学习排序算法进行训练,得到面向体育比赛直播文字的学习排序模型。此学习排序模型可以用于预测排序向量。
进一步,根据学习排序模型,预测直播文字句子重要性的步骤如下:
对于一篇新的体育比赛直播文字,首先需要提取上一步提到的各个特征,将直播的每一个句子si转化为特征向量xi,其不同的比赛种类,特征设置上可以进行简单的改动。
然后应用上一步得到的学习排序模型,根据直播的特征向量矩阵对句子的排序向量进行预测。排序向量中每个句子所对应的数值可以当作句子的重要性。经过预测可以得到直播文字si的句子重要性wi
进一步,基于直播文字句子重要性进行新闻构建的步骤如下:
根据上一步得到的句子的重要性分数,应用基于句子间距离进行去冗余的算法进行句子的选取,直到达到所需的字数为止。基于句子间的距离去冗余进行选取句子的算法具体如下:
假设T1表示选入新闻中的句子集合,T2表示未选入新闻中的句子集合。
第一步:选取T2句子集合中重要性分数最高的句子si,将si加入到T1中并将其从T2中删除;
第二步:将T2中所有的剩余句子sj的重要性分数根据以下公式进行惩罚;
w j = w j - λ * w i Dis j , i + 1
其中wj和wi表示句子sj和si的重要性分数,Disj,i是句子sj和si之间的距离,而λ表示需要调节的参数。
第三步:若T1中句子的总字数大于或者等于新闻所需字数,则进行第四步,否则返回第一步。
第四步:将T1中的句子按照原先直播文字中出现的顺序排序,构建出新闻。
以上完成了体育新闻自动构建的过程。
本发明提供一种面向体育比赛直播文字的体育新闻自动构建装置,该装置利用学习排序模型,对体育比赛直播文字的句子重要性进行预测,并且选取重要性高的句子构建体育新闻,包括以下单元:学习排序模型构建单元、句子重要性预测单元、新闻文本生成单元;
其中学习排序模型构建单元通过搭建体育新闻和直播文字数据库,并且处理,提取特征,有监督学习训练,得到面向体育比赛直播文字的学习排序模型;
句子重要性预测单元首先提取体育直播文字的特征,然后应用学习排序模型对直播句子的重要性排序向量进行预测;
新闻文本生成单元根据句子重要性预测单元得到的句子的重要性分数,应用基于句子间距离进行去冗余的算法进行句子的选取,直到达到所需的字数为止,完成新闻构建。
附图说明
图1.足球比赛直播文字的示例
图2.一种面向体育比赛直播文字的体育新闻自动构建方法流程图
具体实施方式
下面结合实施例和附图进一步阐述本发明所述的技术方案:
如图2所示,一种基于学习排序模型,面向体育比赛直播文字的体育新闻自动构建方法,包括如下步骤:
(1)面向体育比赛直播文字的学习排序模型构建;
首先爬取大量体育比赛直播文字和对应比赛的新闻,对其进行简单的预处理,包括去除噪声,分词等。然后将这些数据作为训练集,用于构建学习排序模型。观察训练集直播文字,提取代表其重要性的有效特征。应用有监督的学习排序框架预测直播文字的句子重要性,需要将直播文字转化为向量的形式。具体地,对于每个句子si,将其转化为(xi,yi)的形式。其中xi代表句子si的特征向量,yi代表句子si的目标重要性。在此发明中,使用句子si与这场体育比赛对应的新闻报道的最大句子级别吻合程度作为目标重要性yi。句子级别吻合程度用ROUGE-2F值来度量。
下面以足球比赛直播文字为例介绍直播文字的具体特征。其中1-5维为文档摘要任务使用的传统特征,6-9组为通过观察足球比赛直播文字的语言和形式特点,为其设计的。
1)句子位置信息:表示在候选句子集合中的位置。假设在直播文字中有n个句子,对于句子si,它的这一维特征通过计算;
2)句子长度:表示句子si去掉停用词之后的长度;
3)停用词个数:表示句子si中所包含的停用词的个数,句子包含的停用词过多可以间接反应其重要性不够高;
4)词语权重和:计算句子si中词语TF-IDF值的和;
5)相邻句子相似度:计算每个句子si和它相邻句子的余弦相似度。具体地,计算si与其前后各N个相邻句子的相似度,N可设为1、2;
6)比赛关键点代表词:体现比赛关键点的词语的个数,常常可以反映这个句子的重要性。例如句子中包含“破门”和“红牌”这样的字样说明这句话描述的很有可能是比赛的关键点,重要性会变高。这一组特征包含26维,其中一维表示包含有多少个关键词语,其他25维代表每个有关于足球的关键词语在这句话中是否出现,出现则这一维为“1”,没出现为“0”;
如图1所示,在足球比赛的直播文字中会包含有文字所对应的时间信息、比分信息,这些信息提供更多的有效特征。
7)时间信息特征:体现句子所在的比赛时段,如“上半场”还是“下半场”,所在的具体时间;
8)比分信息特征:体现句子所在的时刻是否有比分变化,或是在比分变化的小范围内,比赛此时为平局或者有比分差别;
9)球员受欢迎程度:此组特征包含两维,一维代表句子中包含的球员的个数,一维代表所有球员的受欢迎程度之和。此受欢迎程度的评估可以利用在搜索引擎中搜索球员姓名得到的新闻数作为指标。
根据训练集句子的特征向量矩阵和对应的目标重要性,就可以使用学习排序算法进行训练,得到面向体育比赛直播文字的学习排序模型。此学习排序模型可以用于预测排序向量。
(2)根据学习排序模型,预测直播文字句子重要性;
对于一篇新的体育比赛直播文字,首先需要提取上一步提到的各个特征,将直播的每一个句子si转化为特征向量xi,其不同的比赛种类,特征设置上可以进行简单的改动。
然后应用上一步得到的学习排序模型,根据直播的特征向量矩阵对句子的排序向量进行预测。排序向量中每个句子所对应的数值可以当作句子的重要性。经过预测可以得到直播文字si的句子重要性wi
(3)基于直播文字句子重要性进行新闻构建;
根据上一步得到的句子的重要性分数,应用基于句子间距离进行去冗余的算法进行句子的选取,直到达到所需的字数为止。基于句子间的距离去冗余进行选取句子的算法具体如下:
假设T1表示选入新闻中的句子集合,T2表示未选入新闻中的句子集合。
第一步:选取T2句子集合中重要性分数最高的句子si,将si加入到T1中并将其从T2中删除;
第二步:将T2中所有的剩余句子sj的重要性分数根据以下公式进行惩罚;
w j = w j - λ * W i Dis j , i + 1
其中wj和wi表示句子sj和si的重要性分数,Disj,i是句子sj和si之间的距离,而λ表示需要调节的参数。
第三步:若T1中句子的总字数大于或者等于新闻所需字数,则进行第四步,否则返回第一步。
第四步:将T1中的句子按照原先直播文字中出现的顺序排序,构建出新闻。
以上完成了体育新闻自动构建的过程。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求所界定的保护范围为准。

Claims (6)

1.一种面向体育比赛直播文字的体育新闻自动构建方法,其特征在于,该方法通过构建学习排序模型并提取体育比赛直播文字中的有效特征,有监督得预测直播句子的重要性,并选取重要性高的句子集合构建体育新闻;该方法方便快捷,有效节省人力物力。
2.一种面向体育比赛直播文字的体育新闻自动构建方法,其特征在于包括如下步骤:
(1)面向体育比赛直播文字的学习排序模型构建;
(2)根据学习排序模型,预测直播文字句子重要性;
(3)基于直播文字句子重要性进行新闻构建。
3.根据权利要求2所述的面向体育比赛直播文字的体育新闻自动构建方法,其特征在于,面向体育比赛直播文字的学习排序模型构建,其具体做法如下:
首先爬取大量体育比赛直播文字和对应比赛的新闻,对其进行简单的预处理,包括去除噪声,分词等;然后将这些数据作为训练集,用于构建学习排序模型。观察训练集直播文字,提取代表其重要性的有效特征;应用有监督的学习排序框架预测直播文字的句子重要性,需要将直播文字转化为向量的形式;具体地,对于每个句子si,将其转化为(xi,yi)的形式;其中xi代表句子si的特征向量,yi代表句子si的目标重要性;在此发明中,使用句子si与这场体育比赛对应的新闻报道的最大句子级别吻合程度作为目标重要性yi;句子级别吻合程度用ROUGE-2 F值来度量。
下面以足球比赛直播文字为例介绍直播文字的具体特征;其中1-5维为文档摘要任务使用的传统特征,6-9组为通过观察足球比赛直播文字的语言和形式特点,为其设计的。
1)句子位置信息:表示在候选句子集合中的位置;假设在直播文字中有n个句子,对于句子si,它的这一维特征通过计算;
2)句子长度:表示句子si去掉停用词之后的长度;
3)停用词个数:表示句子si中所包含的停用词的个数,句子包含的停用词过多可以间接反应其重要性不够高;
4)词语权重和:计算句子si中词语TF-IDF值的和;
5)相邻句子相似度:计算每个句子si和它相邻句子的余弦相似度;具体地,计算si与其前后各N个相邻句子的相似度,N可设为1、2;
6)比赛关键点代表词:体现比赛关键点的词语的个数,常常可以反映这个句子的重要性;例如句子中包含“破门”和“红牌”这样的字样说明这句话描述的很有可能是比赛的关键点,重要性会变高;这一组特征包含26维,其中一维表示包含有多少个关键词语,其他25维代表每个有关于足球的关键词语在这句话中是否出现,出现则这一维为“1”,没出现为“0”;
7)时间信息特征:体现句子所在的比赛时段,如“上半场”还是“下半场”,所在的具体时间;
8)比分信息特征:体现句子所在的时刻是否有比分变化,或是在比分变化的小范围内,比赛此时为平局或者有比分差别;
9)球员受欢迎程度:此组特征包含两维,一维代表句子中包含的球员的个数,一维代表所有球员的受欢迎程度之和;此受欢迎程度的评估可以利用在搜索引擎中搜索球员姓名得到的新闻数作为指标;
根据训练集句子的特征向量矩阵和对应的目标重要性,就可以使用学习排序算法进行训练,得到面向体育比赛直播文字的学习排序模型;此学习排序模型可以用于预测排序向量。
4.根据权利要求2所述的面向体育比赛直播文字的体育新闻自动构建方法,其特征在于,根据学习排序模型,预测直播文字句子重要性,其具体做法如下:
对于一篇新的体育比赛直播文字,首先需要提取上一步提到的各个特征,将直播的每一个句子si转化为特征向量xi,其不同的比赛种类,特征设置上可以进行简单的改动;
然后应用上一步得到的学习排序模型,根据直播的特征向量矩阵对句子的排序向量进行预测;排序向量中每个句子所对应的数值可以当作句子的重要性;经过预测可以得到直播文字si的句子重要性wi
5.根据权利要求2所述的面向体育比赛直播文字的体育新闻自动构建方法,其特征在于,基于直播文字句子重要性进行新闻构建,其具体做法如下:
根据上一步得到的句子的重要性分数,应用基于句子间距离进行去冗余的算法进行句子的选取,直到达到所需的字数为止;基于句子间的距离去冗余进行选取句子的算法具体如下:
假设T1表示选入新闻中的句子集合,T2表示未选入新闻中的句子集合;
第一步:选取T2句子集合中重要性分数最高的句子si,将si加入到T1中并将其从T2中删除;
第二步:将T2中所有的剩余句子sj的重要性分数根据以下公式进行惩罚;
其中wj和wi表示句子sj和si的重要性分数,Disj,i是句子sj和si之间的距离,而λ表示需要调节的参数;
第三步:若T1中句子的总字数大于或者等于新闻所需字数,则进行第四步, 否则返回第一步;
第四步:将T1中的句子按照原先直播文字中出现的顺序排序,构建出新闻;
以上完成了体育新闻自动构建的过程。
6.一种面向体育比赛直播文字的体育新闻自动构建装置,利用学习排序模型,对体育比赛直播文字的句子重要性进行预测,并且选取重要性高的句子构建体育新闻,其特征在于包括以下单元:学习排序模型构建单元、句子重要性预测单元、新闻文本生成单元;
其中学习排序模型构建单元通过搭建体育新闻和直播文字数据库,并且处理,提取特征,有监督学习训练,得到面向体育比赛直播文字的学习排序模型;
句子重要性预测单元首先提取体育直播文字的特征,然后应用学习排序模型对直播句子的重要性排序向量进行预测;
新闻文本生成单元根据句子重要性预测单元得到的句子的重要性分数,应用基于句子间距离进行去冗余的算法进行句子的选取,直到达到所需的字数为止,完成新闻的构建。
CN201610235671.5A 2016-04-15 2016-04-15 一种面向体育比赛直播文字的体育新闻自动构建方法及装置 Pending CN105912526A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610235671.5A CN105912526A (zh) 2016-04-15 2016-04-15 一种面向体育比赛直播文字的体育新闻自动构建方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610235671.5A CN105912526A (zh) 2016-04-15 2016-04-15 一种面向体育比赛直播文字的体育新闻自动构建方法及装置

Publications (1)

Publication Number Publication Date
CN105912526A true CN105912526A (zh) 2016-08-31

Family

ID=56747003

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610235671.5A Pending CN105912526A (zh) 2016-04-15 2016-04-15 一种面向体育比赛直播文字的体育新闻自动构建方法及装置

Country Status (1)

Country Link
CN (1) CN105912526A (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407343A (zh) * 2016-09-06 2017-02-15 首都师范大学 Nba赛事新闻的自动生成方法
CN107102976A (zh) * 2017-03-23 2017-08-29 北京大学 基于微博的娱乐新闻自动构建技术与系统
CN107193792A (zh) * 2017-05-18 2017-09-22 北京百度网讯科技有限公司 基于人工智能的生成文章的方法和装置
CN107644085A (zh) * 2017-09-22 2018-01-30 百度在线网络技术(北京)有限公司 体育赛事新闻的生成方法和装置
CN107766338A (zh) * 2017-10-18 2018-03-06 北京信息科技大学 一种体育新闻自动生成方法
CN109710945A (zh) * 2018-12-29 2019-05-03 北京百度网讯科技有限公司 基于数据生成文本方法、装置、计算机设备和存储介质
CN109740123A (zh) * 2018-12-21 2019-05-10 北京信息科技大学 使用实时数据生成体育赛事战报的方法
CN109979458A (zh) * 2019-01-17 2019-07-05 平安科技(深圳)有限公司 基于人工智能的新闻采访稿自动生成方法及相关设备
CN110309320A (zh) * 2019-06-28 2019-10-08 浙江传媒学院 结合nba赛事知识图谱的nba篮球新闻自动生成方法
CN110516216A (zh) * 2019-05-15 2019-11-29 北京信息科技大学 一种体育新闻自动写作模板库构建方法
CN110516215A (zh) * 2019-05-15 2019-11-29 北京信息科技大学 一种体育新闻自动写作方法
CN110852068A (zh) * 2019-10-15 2020-02-28 武汉工程大学 一种基于BiLSTM-CRF的体育新闻主题词提取方法
CN111324748A (zh) * 2020-02-28 2020-06-23 北京百度网讯科技有限公司 一种体育战报的生成方法、装置、电子设备及存储介质
CN112287098A (zh) * 2020-10-22 2021-01-29 复旦大学 文章的生成方法、装置、设备及存储介质
CN112765950A (zh) * 2021-01-08 2021-05-07 首都师范大学 一种基于余弦相似度的模板库生成方法、系统及存储介质
CN117313747A (zh) * 2023-09-19 2023-12-29 重庆邮电大学 一种由体育赛事解说生成体育战报的方法
CN117633150A (zh) * 2023-11-23 2024-03-01 北京奥邦菲特科技有限公司 一种用于体育比赛直播文字的体育新闻构建方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110191310A1 (en) * 2010-02-03 2011-08-04 Wenhui Liao Method and system for ranking intellectual property documents using claim analysis
CN103077190A (zh) * 2012-12-20 2013-05-01 人民搜索网络股份公司 基于排序学习技术的热门事件排名方法
CN103473263A (zh) * 2013-07-18 2013-12-25 大连理工大学 一种面向新闻事件演变过程的可视化展现方法
CN104199933A (zh) * 2014-09-04 2014-12-10 华中科技大学 一种多模态信息融合的足球视频事件检测与语义标注方法
CN105005590A (zh) * 2015-06-29 2015-10-28 北京信息科技大学 一种信息媒介的专题阶段性摘要的生成方法
CN105005563A (zh) * 2014-04-15 2015-10-28 腾讯科技(深圳)有限公司 一种摘要生成方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110191310A1 (en) * 2010-02-03 2011-08-04 Wenhui Liao Method and system for ranking intellectual property documents using claim analysis
CN103077190A (zh) * 2012-12-20 2013-05-01 人民搜索网络股份公司 基于排序学习技术的热门事件排名方法
CN103473263A (zh) * 2013-07-18 2013-12-25 大连理工大学 一种面向新闻事件演变过程的可视化展现方法
CN105005563A (zh) * 2014-04-15 2015-10-28 腾讯科技(深圳)有限公司 一种摘要生成方法及装置
CN104199933A (zh) * 2014-09-04 2014-12-10 华中科技大学 一种多模态信息融合的足球视频事件检测与语义标注方法
CN105005590A (zh) * 2015-06-29 2015-10-28 北京信息科技大学 一种信息媒介的专题阶段性摘要的生成方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHUN-MIN CHEN 等: "A novel approach for semantic event extraction from sports webcast text", 《MULTIMEDIA TOOLS & APPLICATIONS》 *
黄小江 等: "基于协同图排序的对比新闻自动摘要", 《北京大学学报(自然科学版)》 *

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407343A (zh) * 2016-09-06 2017-02-15 首都师范大学 Nba赛事新闻的自动生成方法
CN106407343B (zh) * 2016-09-06 2019-09-13 首都师范大学 Nba赛事新闻的自动生成方法
CN107102976A (zh) * 2017-03-23 2017-08-29 北京大学 基于微博的娱乐新闻自动构建技术与系统
CN107193792B (zh) * 2017-05-18 2020-10-02 北京百度网讯科技有限公司 基于人工智能的生成文章的方法和装置
CN107193792A (zh) * 2017-05-18 2017-09-22 北京百度网讯科技有限公司 基于人工智能的生成文章的方法和装置
CN107644085A (zh) * 2017-09-22 2018-01-30 百度在线网络技术(北京)有限公司 体育赛事新闻的生成方法和装置
CN107644085B (zh) * 2017-09-22 2020-12-11 百度在线网络技术(北京)有限公司 体育赛事新闻的生成方法和装置
CN107766338A (zh) * 2017-10-18 2018-03-06 北京信息科技大学 一种体育新闻自动生成方法
CN109740123A (zh) * 2018-12-21 2019-05-10 北京信息科技大学 使用实时数据生成体育赛事战报的方法
CN109710945A (zh) * 2018-12-29 2019-05-03 北京百度网讯科技有限公司 基于数据生成文本方法、装置、计算机设备和存储介质
CN109710945B (zh) * 2018-12-29 2022-11-18 北京百度网讯科技有限公司 基于数据生成文本方法、装置、计算机设备和存储介质
CN109979458A (zh) * 2019-01-17 2019-07-05 平安科技(深圳)有限公司 基于人工智能的新闻采访稿自动生成方法及相关设备
CN110516215A (zh) * 2019-05-15 2019-11-29 北京信息科技大学 一种体育新闻自动写作方法
CN110516216A (zh) * 2019-05-15 2019-11-29 北京信息科技大学 一种体育新闻自动写作模板库构建方法
CN110309320B (zh) * 2019-06-28 2021-04-06 浙江传媒学院 结合nba赛事知识图谱的nba篮球新闻自动生成方法
CN110309320A (zh) * 2019-06-28 2019-10-08 浙江传媒学院 结合nba赛事知识图谱的nba篮球新闻自动生成方法
CN110852068A (zh) * 2019-10-15 2020-02-28 武汉工程大学 一种基于BiLSTM-CRF的体育新闻主题词提取方法
CN111324748A (zh) * 2020-02-28 2020-06-23 北京百度网讯科技有限公司 一种体育战报的生成方法、装置、电子设备及存储介质
CN111324748B (zh) * 2020-02-28 2023-08-04 北京百度网讯科技有限公司 一种体育战报的生成方法、装置、电子设备及存储介质
CN112287098A (zh) * 2020-10-22 2021-01-29 复旦大学 文章的生成方法、装置、设备及存储介质
CN112765950A (zh) * 2021-01-08 2021-05-07 首都师范大学 一种基于余弦相似度的模板库生成方法、系统及存储介质
CN117313747A (zh) * 2023-09-19 2023-12-29 重庆邮电大学 一种由体育赛事解说生成体育战报的方法
CN117633150A (zh) * 2023-11-23 2024-03-01 北京奥邦菲特科技有限公司 一种用于体育比赛直播文字的体育新闻构建方法及系统

Similar Documents

Publication Publication Date Title
CN105912526A (zh) 一种面向体育比赛直播文字的体育新闻自动构建方法及装置
CN106528845B (zh) 基于人工智能的检索纠错方法及装置
CN110390006B (zh) 问答语料生成方法、装置和计算机可读存储介质
CN108376131A (zh) 基于seq2seq深度神经网络模型的关键词抽取方法
CN109635083B (zh) 一种用于搜索ted演讲中话题式查询的文档检索方法
CN107608960B (zh) 一种命名实体链接的方法和装置
CN106844658A (zh) 一种中文文本知识图谱自动构建方法及系统
CN106844530A (zh) 一种问答对分类模型的训练方法和装置
CN104765769A (zh) 一种基于词矢量的短文本查询扩展及检索方法
CN110083696B (zh) 基于元结构技术的全局引文推荐方法、推荐系统
CN108717433A (zh) 一种面向程序设计领域问答系统的知识库构建方法及装置
CN107004141A (zh) 对大样本组的高效标注
CN105975596A (zh) 一种搜索引擎查询扩展的方法及系统
CN104484380A (zh) 个性化搜索方法及装置
CN104462408B (zh) 一种基于主题建模的多粒度情感分析方法
CN107748745B (zh) 一种企业名称关键字提取方法
CN106407482B (zh) 一种基于多特征融合的网络学术报告分类方法
CN114492327A (zh) 一种公文智能写作方法
CN109271514A (zh) 短文本分类模型的生成方法、分类方法、装置及存储介质
CN105069080A (zh) 一种文献检索方法及系统
CN102646095A (zh) 一种基于网页分类信息的对象分类方法和系统
CN108595411B (zh) 一种同主题文本集合中多文本摘要获取方法
CN110347812B (zh) 一种面向司法文本的搜索排序方法及系统
Almeida et al. BIT. UA at BioASQ 8: Lightweight Neural Document Ranking with Zero-shot Snippet Retrieval.
JP2008165401A (ja) 文献検索プログラム、文献検索装置、文献検索方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160831