CN110555202A - 文摘播报的生成方法和设备 - Google Patents

文摘播报的生成方法和设备 Download PDF

Info

Publication number
CN110555202A
CN110555202A CN201810538768.2A CN201810538768A CN110555202A CN 110555202 A CN110555202 A CN 110555202A CN 201810538768 A CN201810538768 A CN 201810538768A CN 110555202 A CN110555202 A CN 110555202A
Authority
CN
China
Prior art keywords
digest
candidate
document
candidate words
generating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810538768.2A
Other languages
English (en)
Inventor
崔磊
黄绍晗
葛涛
韦福如
周明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Priority to CN201810538768.2A priority Critical patent/CN110555202A/zh
Priority to PCT/US2019/031908 priority patent/WO2019231635A1/en
Publication of CN110555202A publication Critical patent/CN110555202A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开的各种实施例提供了一种生成文摘播报的方法,包括选取至少一个候选词,所述至少一个候选词与具有预定义传播度的事件相关联;基于文摘模板从所述候选词生成文摘,所述文摘模板指示以下至少一项:所述文摘的字数范围、构成所述文摘所需的模板要素以及所述模板要素之间的语义关系;以及以语音形式播报所述文摘。

Description

文摘播报的生成方法和设备
技术领域
本公开的实施例涉及信息技术,并且更具体地,涉及一种生成文摘播报的方法和设备。
背景技术
电台以及其他类型的内容提供商通常以多种方式获取热点事件、资讯等内容以向用户进行播报。然而,目前由电台或内容提供商播报的内容通常是通过人工编辑对当前的热点事件进行采集和加工之后形成的。这样强烈依赖于人工编辑的播报系统无法提供7天24小时的所谓“及时”以及“全天候”播报服务。此外,这样的播报系统也无法提供准确以及个性化的播报服务。
发明内容
为了进一步改进用户的收听体验,本公开的各种实施例提供了一种基于人工智能(AI)技术的文摘生成方法。根据该方法,可以自动获取与热点事件或重大事件相关联的一个或多个热门词项。随后,可以利用文摘模板并借助于AI技术,基于这些热门词项来生成文摘。最后,将所生成的文摘转化为适于向用户播报的语音形式。这样,可以及时提供给用户对当前热点事件或重大社会新闻事件的及时、准确的播报,而不再需人工编辑的干预。
提供发明内容部分是为了简化的形式来介绍对概念的标识,其在下文的具体实施方式中将被进一步描述。发明内容部分无意标识要求保护的主题的关键特征或主要特征,也无意限制要求保护的主题的范围。
附图说明
图1是示出能够在其中实现本公开的实施例的计算机系统图;
图2示出了根据本公开的一个实施例的生成文摘播报的方法的流程图;
图3示出了根据本公开的一个实施例的爆发网络的示意图;以及
图4示出了根据本公开的一个实施例的文摘生成模块的框图。
这些附图中,相同或相似参考符号用于表示相同或相似元素。
具体实施方式
现在将参照若干示例实施例来论述本公开。应当理解,论述了这些实施例仅是为了使得本领域普通技术人员能够更好地理解且因此实现本公开,而不是暗示对本公开的范围的任何限制。
如本文所使用的,术语“包括”及其变体要被解读为意味着“包括但不限于”的开放式术语。术语“基于”要被解读为“至少部分地基于”。术语“一个实施例”和“一种实施例”要被解读为“至少一个实施例”。术语“另一个实施例”要被解读为“至少一个其他实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
以下参考附图来说明本公开的基本原理和若干示例实施例。图1示出了能够实现本公开的多个实施例的设备100的框图。应当理解,图1所示出的设备100仅仅是示例性的,而不应当构成对本公开所描述的实施例的功能和范围的任何限制。如图1所示,设备100包括通用计算设备形式的设备100。设备100的组件可以包括但不限于一个或多个处理器或处理单元110、存储器120、存储设备130、一个或多个通信单元140、一个或多个输入设备150以及一个或多个输出设备160。
在一些实施例中,设备100可以被实现为各种用户终端或服务终端。服务终端可以是各种服务提供方提供的服务器、大型计算设备等。用户终端诸如是任意类型的移动终端、固定终端或便携式终端,包括移动手机、多媒体计算机、多媒体平板、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、个人通信系统(PCS)设备、个人导航设备、个人数字助理(PDA)、音频/视频播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或者其任意组合,包括这些设备的配件和外设或者其任意组合。还可预见到的是,设备100能够支持任意类型的针对用户的接口(诸如“可佩戴”电路等)。
处理单元110可以是实际或虚拟处理器并且能够根据存储器120中存储的程序来执行各种处理。在多处理器系统中,多个处理单元并行执行计算机可执行指令,以提高设备100的并行处理能力。处理单元110也可以被称为中央处理单元(CPU)、微处理器、控制器、微控制器。
设备100通常包括多个计算机存储介质。这样的介质可以是设备100可访问的任何可以获得的介质,包括但不限于易失性和非易失性介质、可拆卸和不可拆卸介质。存储器120可以是易失性存储器(例如寄存器、高速缓存、随机访问存储器(RAM))、非易失性存储器(例如,只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪存)或其某种组合。
存储器120可以包文摘生成模块122,其被配置为执行本文所描述的各种实施例的功能。注意,在本公开中,“文摘生成方法”和“文摘生成模块”这两个术语可互换使用。文摘生成模块122可以由处理单元110访问和运行,以实现相应功能。存储设备130可以是可拆卸或不可拆卸的介质,并且可以包括机器可读介质,其能够用于存储信息和/或数据并且可以在设备100内被访问。
通信单元140实现通过通信介质与另外的计算设备进行通信。附加地,设备100的组件的功能可以以单个计算集群或多个计算机器来实现,这些计算机器能够通过通信连接进行通信。因此,设备100可以使用与一个或多个其他服务器、个人计算机(PC)或者另一个一般网络节点的逻辑连接来在联网环境中进行操作。设备100还可以根据需要通过通信单元140与一个或多个外部设备(未示出)进行通信,外部设备诸如存储设备、显示设备等,与一个或多个使得用户与设备100交互的设备进行通信,或者与使得设备100与一个或多个其他计算设备通信的任何设备(例如,网卡、调制解调器等)进行通信。这样的通信可以经由输入/输出(I/O)接口(未示出)来执行。
输入设备150可以是一个或多个各种输入设备,例如鼠标、键盘、触摸屏、追踪球、语音输入设备等。输出设备160可以是一个或多个输出设备,例如显示器、扬声器、打印机等。
下面讨论本公开的实施例的原理。
设备100可以借助于通信单元140从诸如新闻网站、博客、自媒体等的各种网络资源中以主动或被动方式接收内容。设备100可以响应于经由输入设备140接收到的用户请求而接收内容。文摘生成模块122随后可以从所接收到的内容中获取一个或多个候选词,并基于这些候选词来生成新的文摘,随后将所生成的文摘转化为语音形式并提供给输出设备160(例如,扬声器)以向用户播报所形成的文摘。
此外,文摘生成模块122还可以附加地将输出(例如,可视化的文摘列表)提供给显示器等输出设备160以供用户查看并选择。例如,用户可以通过例如触摸屏等输入设备150对所输出的文摘中令其感兴趣的文摘进行选择性播放,或手动跳过令其不感兴趣的文摘条目。将会理解,文摘生成模块122与输入和输出设备150和160之间的通信可借助于设备100上的操作系统(OS)所提供的接口来实现。这种接口的示例包括但不限于各种应用编程接口(API)。
本公开的实施例所提出的文摘生成方法包括根据过去一段时间内或正在发生的热点事件、热搜事件或重要事件而自动生成并向用户推送用户可能感兴趣的内容。这样,用户无需主动搜索任何相关内容,就可以基于客观发生的重大事件或被大多数人所公认的热点事件来收听到相关的文摘。需要指出,本文中描述的用于向用户播报的文摘并不完全等同于传统的新闻或博客的形式,而是一种更为简练的形式。
此外,随着人工智能(AI)的发展,可以根据本公开的实施例所提出的文摘生成方法来构建一个自动播放系统(例如,播客)。这种AI支持的播放系统可以提供7天24小时的不间断广播服务,而无需任何人工编辑的干预。这样,用户的收听体验将极大提升。
图2示出了示出了根据本公开的一个实施例的生成文摘播报的方法200的流程图。将会理解,方法200可由设备100的文摘生成模块122来实现。
在210处,选取一个或多个候选词,该候选词与具有预定义传播度的事件相关联。本文中所述的具有预定义传播度的事件包括具有一定热度和/或具有一定传播广度的事件。例如,根据本公开的实施例,可以从各种网络资源(诸如新闻、博客、自媒体等)中已有文本文档中的任何文字部分获取候选词。例如,可以从标题、首段以及正文部分获取一个或多个候选词,也可以从结尾处的参考文献部分、页眉或页脚等任何部分获取候选词。当然,在其他实施例中,也可以将例如音频、视频文档、和/或图片中的文字部分等转换为文本形式,以便从中提取候选词。为便于描述,以下将以文档为例描述本公开的实施例。
在某些实施例中,选取上述一个或多个候选词可以包括:从所输入的查询项中选取候选词。例如,可以将用户在例如搜索引擎中所输入的查询项作为候选词。
在某些实施例中,选取上述一个或多个候选词还可以包括:选取在预定时间范围内、(例如在搜索引擎中)被搜索的次数高于预定义第一阈值的候选词(这样的候选词在本文中也称为“热搜候选词“),或者选取在预定时间范围内、被点击的次数高于预定义第二阈值的候选词(这样的候选词在本文中也称为“热点候选词”)。例如,在过去一小时、一天或一周内被大量用户搜索或点击累积超过预定次数的一个或多个候选词。
备选地或附加地,选取上述一个或多个候选词也可以包括:选取在预定时间范围内、出现频率高于预定义第三阈值的候选词。这些候选词例如可以是在预定时间范围内与特定客观事件(诸如,一些具有重大社会影响力的事件)的发生相关联的一个或多个文档(在本文中也称为“爆发文档”)中的候选词。在一些实施例中,爆发文档可以是预先已经检测到的。在另外一些示例实施例中,爆发文档可能需要进一步确定,这样的确定将如下文详细描述的。
爆发文档中的词项可以被获取为候选词。例如,与发生在海地的震级为7.0的地震相关的、在2010年1月12日至1月31日之间的新闻文本流,以及与发生在智利的震级为8.8的地震相关的、在2010年2月27日至3月7日之间的新闻文本流。由于这两次地震造成了数万人死亡和不可估量的经济损失,因此导致了“地震”这一词项在地震事件后成为新闻媒体的讨论热点,从而导致该词项在地震发生后的一定时间段内的词频急剧上升,也因此称为词项的“爆发”。
在一些示例实施例中,某一词项的爆发可以通过如下方式而被检测到。具体来说,一个词项的爆发状态序列可以被定义为S={s1,s2,s3,…,st,…,sT},其中st的值为1或0,分别表示该词项在时间t是爆发还是没有爆发。一个词项的爆发状态可以通过最小化如下损失函数的方法来确定:
其中p=(p1,…,pt,…,pT);T表示预定义的时间段;pt是该词项在时间段T中的时间点t出现的概率;q(st)的取值为q(0)或q(1),其中q(0)是该词项的基础概率,其通常被定义为这个词项在整个文本流中的单位时间内出现的平均概率;q(1)是该词项在爆发状态时的出现概率,并且q(1)通常被定义为:
q(1)=a×q(0)(a>1) (2)
公式(2)中的参数a可以被看作是爆发倍率,即当一个词在某个时段的词频接近或者超过其平时词频的a倍时,该词被倾向认为处于爆发状态。参数a的大小可以根据实际任务和需要来进行调整。在确定词项的爆发状态s时,具体来说,公式(1)中右边的第一项衡量了pt与q(st)的比值。如果该词项在时间t爆发(即pt远大于q(0)),那么|log pt-log q(1)|将会小于|log pt-log q(0)|,那么在最优序列S中,st的取值倾向于为1;否则,st的取值倾向于为0。公式(1)中右边的后一项则是为了平滑(或惩罚)在爆发状态序列中的爆发状态的突变或频繁变换,公式(1)中的参数b是控制这一部分权重的参数。
需要注意的是,如果某一词项在某一时间段内的每个时刻都呈爆发态,那么这个时间段被称为该词项的一个爆发时间段,或称该词项在这段时间内爆发。例如,在上面所描述的例子中,“地震”一词共有2个爆发时间段,即,“2010年1月12日至1月31日”和“2010年2月27日至2010年3月7日”。
继续参考图2,在220处,基于文摘模板、从以上述方式获得的一个或多个候选词中生成文摘。在本文中,该文摘模板至少指示以下各项:文摘的字数范围、构成文摘所需的模板要素(例如时间、地点、人物、主语、谓语、宾语等构成该文摘所必不可少的要素)、以及模板要素之间的语义关系。
例如,文摘的字数范围可以将篇幅过长的文章首先滤除,这在例如新闻文摘生成方面是有必要的,因为新闻文摘在大部分情况下应具有篇幅简短的特点。此外,所生成的文摘必须符合预定义的语义关系。例如,可以规定在文摘的开头处必须首先出现时间、地点、人物等模板要素,然后才是对具体事件的描述以及评论。又例如,文摘模板中可以规定文摘中必须具有主语、谓语、宾语、定语、状语、补语等要素,并且还可以进一步规定这些要素之间的相对位置关系,以更加符合自然语言的表达习惯。
文摘生成方式可以有多种。例如,在某些实施例中,可以通过“提取式”方式来生成文摘播报的全部或一部分。具体来说,可以首先通过候选词来确定与其相关联的文档。在本文中,与候选词相关联的文档指代包含有上述候选词中的一个或多个候选词。随后从该文档中提取已有的完整语句(注意,该语句中可以包含或不包含该候选词)。最后,基于上述文摘模板将所提取的完整语句直接用作待生成文摘,也即,以句子为单位来形成文摘的内容。在这种“提取式”文摘生成中,如上所述,可以通过文摘模板的字数范围来限定用于形成该文摘的句子的数目,并进而通过文摘模板中的语义关系来确定各个句子之间的前后关系。例如,可以规定包含有时间状语和地点状语的句子出现在包含有主语的句子之前。
在一些实施例中,可以首先判断所提取的已有的完整语句是否包含有上述模板要素并且满足预定义的语义关系,并且只有确定了该语句包含有上述模板要素并且满足预定义的语义关系时,才可以使用该语句生成文摘。
在某些实施例中,也可以通过“生成式”方式来生成文摘。具体来说,可以直接以获取的候选词为单位、基于上述文摘模板来直接生成文摘播报的全部或一部分。需要指出,这种“生成式”文摘生成方式可能需要添加额外的词汇来辅助形成满足一定语义关系的文摘。
在基于“生成式”方式生成文摘的一些实施例中,可以在生成文摘之后删除不满足文摘模板的一些文摘。可选地或附加地,在基于“生成式”方式生成文摘的一些实施例中,可以在文摘生成模型的训练过程中引入例如“惩罚项(penalty term)”,以使得在训练过程中所生成的文摘不满足文摘模板的情况下,对文摘生成模型进行一定的惩罚。
可以理解的是,一篇文摘中可以同时包含以“提取式”方式形成的文摘部分和以“生成式”方式生成的文摘部分。
在某些实施例中,在具有多个候选词的情况下,可以基于任意两个候选词之间的关联程度来进一步筛选出一部分相关的候选词。随后仅基于所筛选出的部分候选词来确定与其相关联的文档。例如,如果两个候选词之间的关联程度较低(或者,具有不太重要的关联),则不会同时基于这两个候选词来确定一篇文档。相反,如果两个候选词之间的关联程度较高(或者,具有重要的关联),则很可能同时基于这两个候选词来确定一篇文档。
在一些实施例中,两个候选词之间的关联程度可以是两个候选词共同出现在同一文档中的次数。直观上,在文本流中,共同出现在同一文档中越频繁的候选词的关联程度可能越强。在一些实施例中,尤其在具有大量候选词的情况下,可以通过建立所谓的“爆发信息网络”来辅助确定候选词及其相关联的文档。这在下文中将参考图3的示例来描述。
图3示出了一个示例爆发信息网络300的示意图。如图所示,爆发信息网络300由相互关联的多个节点(例如节点301、302、303、304、305、…)构成,其中每个节点中包含相应词项以及该词项爆发的时间段。特别地,每个节点可以被表示成一个元素组<w、P>,其中w表示词项,P表示词项w的一个爆发时间段。以节点301为例,该节点301中包含的词项w为“海地”,并且“海地”这一词项爆发的时间段为“1月12日至1月31日”。
多个节点可以基于它们之间的关联程度来相互连接。例如,如上所述,可以基于两个候选词共同出现在同一文档中的次数来将多个节点进行连接(或不连接)。在图3中,节点之间的连线312,323,324,335表示了节点之间的关联。在一些实施例中,关联程度较小的连线(即,不太重要的关联)以虚线表示,关联程度较高的连线(即,较重要的关联)以实线表示。可以通过将关联程度与阈值相比较来判断节点之间的连线。
在一些示例中,还可以基于不同候选词对之间的关联程度,从爆发信息网络300中省略一些候选词对,而仅考虑其他候选词。例如,在图3所示的网络300中,由于节点303对应的“智利”和节点305对应的“银行”这两个词项出现在同一文档中的次数较低(例如,低于预定阈值),由此可以确定节点303与节点305之间关联335的关联程度较低。因此可以去掉二者之间的关联335,以降低网络规模,从而能提升网络分析的效率。这样,在基于候选词确定文档的步骤中,就不会考虑同时基于节点303和节点305对应的词项来确定同一篇文档。相反,节点301、302、303和304之间的关联312、323和324的关联程度可能较高。因此,可以确定这些节点属于同一重大事件的概率较高。具体来说,由于发生在海地的震级为7.0的地震和发生在智利的震级为8.8的地震,使得“海地”、“地震、“伤亡”、“智利”这些词项可能频繁出现在“2010年1月12日至1月31日”和“2010年2月27日至2010年3月7日”这两个时段的新闻流中。以这样的方式,可以确定出一篇或多篇包含有上述多个词项的文档,以用于随后的文摘生成。
可以根据由候选词之间的关联程度建立的信息爆发网络,确定要用于生成文摘播报的文档。在某些实施例中,在确定与至少两个候选词相关联的文档中,可以首先确定一篇或多篇候选文档,其中每篇候选文档都包含具有关联的至少一对候选词,也即这些候选词同时出现在该候选文档中。可以通过从信息爆发网络(例如网络300)中与候选词对应的两个节点之间是否存在连线来确定这两个候选词是否具有关联。然后,获取这一篇或多篇候选文档中每篇候选文档所包含的候选词所属网页的网页排名(PageRank)分数之和。基于网页排名分数之和,可以从一篇或多篇候选文档中确定出一个文档。该文档可以被称为所谓的“爆发文档”,因为该文档同时包含较多的爆发词项。在这种情况下,可以根据爆发文档来生成文摘。上述这种爆发文档的标识方式也称为无监督式爆发文档识别。在一些示例性实施例中,在该文档中包含的多个候选词的所属网页的PageRank分数之和高于预定义的阈值的情况下,可以确定该文档为爆发文档,否则,为一般文档。
在某些另外的实施例中,在从候选文档中确定用于生成文摘播报的爆发文档时,可以提取这一篇或多篇候选文档中的每篇候选文档所包含的候选词的如下属性中的至少一个:词项,所属网页的网页排名(PageRank)分数的最大值、平均值、或总和,以及个数。最后,基于所确定的上述属性,从这一篇或多篇中确定出爆发文档,以用于从中生成文摘。
上述基于所提取的属性来标识爆发文档可以通过预先训练一个排序学习模型来实现。具体地,可以例如由用户人为标注某些历史热点文档,并将这样的文档认为是爆发文档。对于标注数据,可以建立(爆发文档、非爆发文档)的偏序对,然后对每篇文档,都提取上述要考虑的属性,用于对预定排序学习模型进行学习(也称为训练)。训练得到的排序学习模型可以用于基于候选文档的上述属性来确定候选文档是否为爆发文档。
继续参考图2,在文摘生成之后,在230处,以语音形式播报文摘。
在某些实施例中,用户可以根据自己的偏好,使用如图1中所示的输入设备150将当前正在播报给该用户的某个文摘跳过,或者通过输入设备150将之前播报过的文摘进行重播。以这样的方式,在针对该用户的历史收听行为进行大量收集并分析之后,可以确定出该用户的一些偏好。例如,该用户可能对某一类的词项(例如,“军事”)特别感兴趣,或对某一类的词项(例如,“娱乐”)特别不感兴趣。这样,在将来针对该用户的文摘生成中,可以将用户的偏好考虑在内,以实现更具针对性的文摘生成。例如,用户偏好可以在筛选用于生成文摘播报的文档时被考虑在内,例如影响选择哪些文档用于生成文摘。备选地或附加地,用户偏好也可以在基于具体文档来生成文摘时被考虑在内,例如影响文摘所包括的具体语句。
在一个示例性实施例中,如果用户在过去对娱乐类的文摘表现出了极度不感兴趣的行为(例如,总是跳过此类内容),则在图3所示的爆发网络300中,会对与娱乐相关的词项(或节点)进行标注。这样,尽管与娱乐相关的词项在一段时间内可能成为热点,但当在针对该用户生成文摘时,仍然不会将该词项(或节点)考虑在内。
在另一个示例性实施例中,如果用户对已经播报的某一条或某几条文摘(例如通过输入设备150)做出一定的反馈(诸如,进行标识或重播),则可以确定与该已经播报的文摘相关联的另一文摘。例如,如果用户对某一条已经播报的新闻做了标记或进行了重播(以例如表示出该用户可能对该条新闻感兴趣),则后续将会为该用户推送与该新闻相关的其他新闻或后续报道。例如,可以从已经形成的播放列表中优先播报与该新闻相关的其他新闻或后续报道。又例如,可以在用户对某一条已经播报的新闻表现出了兴趣之后,优先生成与该新闻相关的另一新闻。
在又一个示例性实施例中,所生成的多条文摘向用户推送的顺序也可以根据用户的偏好(以及该用户的历史访问情况)来确定或调整。
图4示出了根据本公开的一个实施例的文摘生成模块122的框图。如图4所示,文摘生成模块122可以包括如下若干模块:内容获取模块410、筛选模块420、生成模块430、文本/语音转换模块(TTS)440、以及用户简档/行为模块450。
获取模块410被配置为从各个内容源(新闻网站、博客、自媒体等)获取内容。筛选模块420被配置为对所获取的内容进行筛选,如上所述,例如,从热搜文档、热点文档或爆发文档中获取一个或多个候选词。生成模块430被配置为基于文摘模板、从所获取的候选词生成文摘,文摘模板指示以下至少一项:所述文摘的字数范围、构成所述文摘所需的模板要素以及所述模板要素之间的语义关系。文本/语音转换模块440被配置为将生成的文摘转化为语音形式,以向用户播报。用户简档/行为模块450被配置为向生成模块430定期反馈用户的偏好或过去一段时间内的操作行为。
上述各个模块的其他功能已经在有关文摘生成方法的实施例中进行了详细描述,因此,不再赘述。应当注意,本公开的实施例同样适用于汉语之外的任何其他语言,语言本身并不构成对本公开范围的任何限制。
以下列出了本公开的一些示例实施例。
在一个方面,提供了一种生成文摘播报的方法,包括:选取至少一个候选词,至少一个候选词与具有预定义传播度的事件相关联;基于文摘模板从候选词生成文摘,文摘模板至少指示以下各项:文摘的字数范围、构成文摘所需的模板要素以及模板要素之间的语义关系;以及以语音形式播报文摘。
在一些实施例中,选取至少一个候选词包括以下至少一者:选取在预定时间范围内被搜索的次数高于预定义第一阈值的候选词;选取在预定时间范围内被点击的次数高于预定义第二阈值的候选词;选取在预定时间范围内、出现频率高于预定义第三阈值的候选词;以及从所输入的查询项中选取候选词。
在一些实施例中,生成文摘包括:确定包含候选词的文档;从文档中提取语句;以及基于文摘模板从语句生成文摘的至少一部分。
在一些实施例中,基于文摘模板从语句生成文摘的至少一部分包括:响应于确定语句中包含有模板要素并且满足模板要素之间的语义关系,从语句生成文摘的至少一部分。
在一些实施例中,生成文摘包括:基于文摘模板从候选词生成文摘的至少一部分。
在一些实施例中,至少一个候选词包括多个候选词,并且其中确定包含候选词的文档包括:确定多个候选词中的任意两个候选词之间的关联程度;基于关联程度,选择多个候选词中相关联的候选词;以及确定包含相关联的候选词的文档。
在一些实施例中,关联程度包括:两个候选词共同出现在同一文档中的次数。
在一些实施例中,确定包含相关联的候选词的文档包括:确定至少一个候选文档,至少一个候选文档至少包含相关联的候选词中的一对候选词;获取至少一个候选文档中的每个候选文档所包含的候选词所属网页的网页排名(PageRank)分数之和;以及基于网页排名分数之和,从至少一个候选文档中确定文档。
在一些实施例中,确定包含相关联的候选词的文档包括:确定至少一个候选文档,至少一个候选文档至少包含相关联的候选词中的一对候选词;提取至少一个候选文档中的每个候选文档所包含的候选词的如下属性中的至少一个:词项,所属网页的网页排名(PageRank)分数的最大值、平均值、或总和,以及个数;以及基于所确定的属性,从至少一个候选文档中确定文档。
在一些实施例中,生成文摘包括:基于模板和用户偏好从候选词生成文摘。
在一些实施例中,生成文摘包括:生成多个文摘;以及基于用户偏好,确定向用户播报多个文摘的顺序。
在一些实施例中,生成文摘包括:基于用户对已播报的一个或多个文摘的反馈,来确定文摘。
在另一方面,提供了一种设备,包括:处理单元;以及存储器,耦合至处理单元并且存储有指令,指令在由处理单元执行时执行以下动作:选取至少一个候选词,至少一个候选词与具有预定义传播度的事件相关联;基于文摘模板从候选词生成文摘,文摘模板指示以下至少一项:文摘的字数范围、构成文摘所需的模板要素以及模板要素之间的语义关系;以及以语音形式播报文摘。
在一些实施例中,选取至少一个候选词包括以下至少一者:选取在预定时间范围内被搜索的次数高于预定义第一阈值的候选词;选取在预定时间范围内被点击的次数高于预定义第二阈值的候选词;选取在预定时间范围内、出现频率高于预定义第三阈值的候选词;以及从所输入的查询项中选取候选词。
在一些实施例中,生成文摘包括:确定包含候选词的文档;从文档中提取语句;以及基于文摘模板从语句生成文摘的至少一部分。
在一些实施例中,基于文摘模板从语句生成文摘的至少一部分包括:响应于确定语句中包含有模板要素并且满足模板要素之间的语义关系,从语句生成文摘的至少一部分。
在一些实施例中,生成文摘包括:基于文摘模板从候选词生成文摘的至少一部分。
在一些实施例中,至少一个候选词包括多个候选词,并且其中确定包含候选词的文档包括:确定多个候选词中的任意两个候选词之间的关联程度;基于关联程度,选择多个候选词中相关联的候选词;以及确定包含相关联的候选词的文档。
在一些实施例中,关联程度包括:两个候选词共同出现在同一文档中的次数。
在一些实施例中,确定包含相关联的候选词的文档包括:确定至少一个候选文档,至少一个候选文档至少包含相关联的候选词中的一对候选词;获取至少一个候选文档中的每个候选文档所包含的候选词所属网页的网页排名(PageRank)分数之和;以及基于网页排名分数之和,从至少一个候选文档中确定文档。
在一些实施例中,确定包含相关联的候选词的文档包括:确定至少一个候选文档,至少一个候选文档至少包含相关联的候选词中的一对候选词;提取至少一个候选文档中的每个候选文档所包含的候选词的如下属性中的至少一个:词项,所属网页的网页排名(PageRank)分数的最大值、平均值、或总和,以及个数;以及基于所确定的属性,从至少一个候选文档中确定文档。
在一些实施例中,生成文摘包括:基于模板和用户偏好从候选词生成文摘。
在一些实施例中,生成文摘包括:生成多个文摘;以及基于用户偏好,确定向用户播报多个文摘的顺序。
在一些实施例中,生成文摘包括:基于用户对已播报的一个或多个文摘的反馈,来确定文摘。
在又一方面,提供了一种计算机程序产品,计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括机器可执行指令,机器可执行指令在被执行时使机器执行以下动作:选取至少一个候选词,至少一个候选词与具有预定义传播度的事件相关联;基于文摘模板从候选词生成文摘,文摘模板至少指示以下各项:文摘的字数范围、构成文摘所需的模板要素以及模板要素之间的语义关系;以及以语音形式播报文摘。
在一些实施例中,生成文摘包括:确定包含候选词的文档;从文档中提取语句;以及基于文摘模板从语句生成文摘的至少一部分。
在一些实施例中,选取至少一个候选词包括以下至少一者:选取在预定时间范围内被搜索的次数高于预定义第一阈值的候选词;选取在预定时间范围内被点击的次数高于预定义第二阈值的候选词;选取在预定时间范围内、出现频率高于预定义第三阈值的候选词;以及从所输入的查询项中选取候选词。
在一些实施例中,基于文摘模板从语句生成文摘的至少一部分包括:响应于确定语句中包含有模板要素并且满足模板要素之间的语义关系,从语句生成文摘的至少一部分。
在一些实施例中,生成文摘包括:基于文摘模板从候选词生成文摘的至少一部分。
在一些实施例中,至少一个候选词包括多个候选词,并且其中确定包含候选词的文档包括:确定多个候选词中的任意两个候选词之间的关联程度;基于关联程度,选择多个候选词中相关联的候选词;以及确定包含相关联的候选词的文档。
在一些实施例中,关联程度包括:两个候选词共同出现在同一文档中的次数。
在一些实施例中,确定包含相关联的候选词的文档包括:确定至少一个候选文档,至少一个候选文档至少包含相关联的候选词中的一对候选词;获取至少一个候选文档中的每个候选文档所包含的候选词所属网页的网页排名(PageRank)分数之和;以及基于网页排名分数之和,从至少一个候选文档中确定文档。
在一些实施例中,确定包含相关联的候选词的文档包括:确定至少一个候选文档,至少一个候选文档至少包含相关联的候选词中的一对候选词;提取至少一个候选文档中的每个候选文档所包含的候选词的如下属性中的至少一个:词项,所属网页的网页排名(PageRank)分数的最大值、平均值、或总和,以及个数;以及基于所确定的属性,从至少一个候选文档中确定文档。
在一些实施例中,生成文摘包括:基于模板和用户偏好从候选词生成文摘。
在一些实施例中,生成文摘包括:生成多个文摘;以及基于用户偏好,确定向用户播报多个文摘的顺序。
在一些实施例中,生成文摘包括:基于用户对已播报的一个或多个文摘的反馈,来确定文摘。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
此外,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims (20)

1.一种生成文摘播报的方法,包括:
选取至少一个候选词,所述至少一个候选词与具有预定义传播度的事件相关联;
基于文摘模板从所述候选词生成文摘,所述文摘模板至少指示以下各项:所述文摘的字数范围、构成所述文摘所需的模板要素以及所述模板要素之间的语义关系;以及
以语音形式播报所述文摘。
2.根据权利要求1所述的方法,其中选取所述至少一个候选词包括以下至少一者:
选取在预定时间范围内被搜索的次数高于预定义第一阈值的候选词;
选取在预定时间范围内被点击的次数高于预定义第二阈值的候选词;
选取在预定时间范围内出现频率高于预定义第三阈值的候选词;以及
从所输入的查询项中选取候选词。
3.根据权利要求1所述的方法,其中生成所述文摘包括:
确定包含所述候选词的文档;
从所述文档中提取语句;以及
基于所述文摘模板从所述语句生成所述文摘的至少一部分。
4.根据权利要求3所述的方法,其中基于所述文摘模板从所述语句生成所述文摘的至少一部分包括:
响应于确定所述语句中包含有所述模板要素并且满足所述模板要素之间的语义关系,从所述语句生成所述文摘的至少一部分。
5.根据权利要求1所述的方法,其中生成所述文摘包括:
基于所述文摘模板从所述候选词生成所述文摘的至少一部分。
6.根据权利要求3所述的方法,其中所述至少一个候选词包括多个候选词,并且其中确定包含所述候选词的文档包括:
确定所述多个候选词中的任意两个候选词之间的关联程度;
基于所述关联程度,选择所述多个候选词中相关联的候选词;以及
确定包含所述相关联的候选词的文档。
7.根据权利要求6所述的方法,其中所述关联程度包括:两个候选词共同出现在同一文档中的次数。
8.根据权利要求6所述的方法,其中确定包含所述相关联的候选词的文档包括:
确定至少一个候选文档,所述至少一个候选文档至少包含所述相关联的候选词中的一对候选词;
获取所述至少一个候选文档中的每个候选文档所包含的候选词所属网页的网页排名(PageRank)分数之和;以及
基于所述网页排名分数之和,从所述至少一个候选文档中确定所述文档。
9.根据权利要求6所述的方法,其中确定包含所述相关联的候选词文档包括:
确定至少一个候选文档,所述至少一个候选文档至少包含所述相关联的候选词中的一对候选词;
提取所述至少一个候选文档中的每个候选文档中所包含的候选词的如下属性中的至少一个:
词项,
所属网页的网页排名(PageRank)分数的最大值、平均值、或总和,以及
个数;以及
基于所确定的属性,从所述至少一个候选文档中确定所述文档。
10.根据权利要求1所述的方法,其中生成所述文摘包括:
基于所述模板和用户偏好从所述候选词生成所述文摘。
11.根据权利要求1所述的方法,其中生成所述文摘包括:
生成多个文摘;以及
基于用户偏好,确定向所述用户播报所述多个文摘的顺序。
12.根据权利要求1所述的方法,其中生成所述文摘包括:
基于用户对已播报的一个或多个文摘的反馈,来确定所述文摘。
13.一种设备,包括:
处理单元;以及
存储器,耦合至所述处理单元并且存储有指令,所述指令在由所述处理单元执行时执行以下动作:
选取至少一个候选词,所述至少一个候选词与具有预定义传播度的事件相关联;
基于文摘模板从所述候选词生成文摘,所述文摘模板指示以下至少一项:所述文摘的字数范围、构成所述文摘所需的模板要素以及所述模板要素之间的语义关系;以及
以语音形式播报所述文摘。
14.根据权利要求13所述的设备,其中选取所述至少一个候选词包括以下至少一者:
选取在预定时间范围内被搜索的次数高于预定义第一阈值的候选词;
选取在预定时间范围内被点击的次数高于预定义第二阈值的候选词;
选取在预定时间范围内出现频率高于预定义第三阈值的候选词;以及
从所输入的查询项中选取候选词。
15.根据权利要求13所述的设备,其中生成所述文摘包括:
确定包含所述候选词的文档;
从所述文档中提取语句;以及
基于所述文摘模板从所述语句生成所述文摘的至少一部分。
16.根据权利要求15所述的设备,其中生成所述文摘包括:
基于所述文摘模板从所述候选词生成所述文摘的至少一部分。
17.根据权利要求15所述的设备,其中所述至少一个候选词包括多个候选词,并且其中确定包含所述候选词的文档包括:
确定表示所述多个候选词中的任意两个候选词之间关联的关联程度;
基于所述关联程度,选择所述多个候选词中相关联的候选词;以及
确定包含所述相关联的候选词的文档。
18.根据权利要求17所述的方法,其中所述关联程度包括:两个候选词共同出现在同一文档中的次数。
19.根据权利要求16所述的设备,其中确定包含所述相关联的候选词的文档包括:
确定至少一个候选文档,所述至少一个候选文档至少包含所述相关联的候选词中的一对候选词;
获取所述至少一个候选文档中的每个候选文档所包含的候选词所属网页的网页排名(PageRank)分数之和;以及
基于所述网页排名分数之和,从所述至少一个文档中确定所述文档。
20.一种计算机程序产品,所述计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括机器可执行指令,所述机器可执行指令在被执行时使机器执行以下动作:
选取至少一个候选词,所述至少一个候选词与具有预定义传播度的事件相关联;
基于文摘模板从所述候选词生成文摘,所述文摘模板至少指示以下各项:所述文摘的字数范围、构成所述文摘所需的模板要素以及所述模板要素之间的语义关系;以及
以语音形式播报所述文摘。
CN201810538768.2A 2018-05-30 2018-05-30 文摘播报的生成方法和设备 Pending CN110555202A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201810538768.2A CN110555202A (zh) 2018-05-30 2018-05-30 文摘播报的生成方法和设备
PCT/US2019/031908 WO2019231635A1 (en) 2018-05-30 2019-05-13 Method and apparatus for generating digest for broadcasting

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810538768.2A CN110555202A (zh) 2018-05-30 2018-05-30 文摘播报的生成方法和设备

Publications (1)

Publication Number Publication Date
CN110555202A true CN110555202A (zh) 2019-12-10

Family

ID=66676911

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810538768.2A Pending CN110555202A (zh) 2018-05-30 2018-05-30 文摘播报的生成方法和设备

Country Status (2)

Country Link
CN (1) CN110555202A (zh)
WO (1) WO2019231635A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116414972A (zh) * 2023-03-08 2023-07-11 浙江方正印务有限公司 一种资讯内容自动播报和生成简讯的方法
CN117217185A (zh) * 2023-11-07 2023-12-12 江西五十铃汽车有限公司 一种文档生成方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1133460A (zh) * 1994-11-18 1996-10-16 松下电器产业株式会社 信息提取方法,信息提取设备,加权方法和图文电视广播接收设备
CN102411621A (zh) * 2011-11-22 2012-04-11 华中师范大学 一种基于云模型的中文面向查询的多文档自动文摘方法
CN104657496A (zh) * 2015-03-09 2015-05-27 杭州朗和科技有限公司 一种计算信息热度值的方法和设备
CN106257449A (zh) * 2015-06-19 2016-12-28 阿里巴巴集团控股有限公司 一种信息确定方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104636465B (zh) * 2015-02-10 2018-11-16 百度在线网络技术(北京)有限公司 网页摘要生成方法、展示方法及相应装置
US10509860B2 (en) * 2016-02-10 2019-12-17 Weber State University Research Foundation Electronic message information retrieval system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1133460A (zh) * 1994-11-18 1996-10-16 松下电器产业株式会社 信息提取方法,信息提取设备,加权方法和图文电视广播接收设备
CN102411621A (zh) * 2011-11-22 2012-04-11 华中师范大学 一种基于云模型的中文面向查询的多文档自动文摘方法
CN104657496A (zh) * 2015-03-09 2015-05-27 杭州朗和科技有限公司 一种计算信息热度值的方法和设备
CN106257449A (zh) * 2015-06-19 2016-12-28 阿里巴巴集团控股有限公司 一种信息确定方法和装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116414972A (zh) * 2023-03-08 2023-07-11 浙江方正印务有限公司 一种资讯内容自动播报和生成简讯的方法
CN116414972B (zh) * 2023-03-08 2024-02-20 浙江方正印务有限公司 一种资讯内容自动播报和生成简讯的方法
CN117217185A (zh) * 2023-11-07 2023-12-12 江西五十铃汽车有限公司 一种文档生成方法及系统
CN117217185B (zh) * 2023-11-07 2024-03-01 江西五十铃汽车有限公司 一种文档生成方法及系统

Also Published As

Publication number Publication date
WO2019231635A1 (en) 2019-12-05

Similar Documents

Publication Publication Date Title
US11315546B2 (en) Computerized system and method for formatted transcription of multimedia content
CN109783651B (zh) 提取实体相关信息的方法、装置、电子设备和存储介质
US8990065B2 (en) Automatic story summarization from clustered messages
TWI506460B (zh) 內容推薦系統及方法
CN110020104B (zh) 新闻处理方法、装置、存储介质及计算机设备
CN110430476B (zh) 直播间搜索方法、系统、计算机设备和存储介质
US8126897B2 (en) Unified inverted index for video passage retrieval
JP6538277B2 (ja) 検索クエリ間におけるクエリパターンおよび関連する総統計の特定
US20070208732A1 (en) Telephonic information retrieval systems and methods
US20140040181A1 (en) Automatic faq generation
US20130198268A1 (en) Generation of a music playlist based on text content accessed by a user
US9449002B2 (en) System and method to retrieve relevant multimedia content for a trending topic
CN102436495A (zh) 一种提供动态搜索页面的方法及其装置
US10108698B2 (en) Common data repository for improving transactional efficiencies of user interactions with a computing device
US20140379719A1 (en) System and method for tagging and searching documents
EP3996373A2 (en) Method and apparatus of generating bullet comment, device, and storage medium
CN114817706A (zh) 用于个性化即时查询建议的媒体消费场境
US11797590B2 (en) Generating structured data for rich experiences from unstructured data streams
US11361759B2 (en) Methods and systems for automatic generation and convergence of keywords and/or keyphrases from a media
US20200257724A1 (en) Methods, devices, and storage media for content retrieval
US20140280099A1 (en) Method, apparatus and computer storage medium for acquiring hot content
CN110555202A (zh) 文摘播报的生成方法和设备
KR20160002199A (ko) 연관 키워드를 이용한 이슈 데이터 추출방법 및 시스템
US20140136963A1 (en) Intelligent information summarization and display
KR101651963B1 (ko) 시공간 연관 정보 생성 방법, 이를 수행하는 시공간 연관 정보 생성 서버 및 이를 저장하는 기록매체

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination