CN117651950A - 具有上下文感知的经阐明的自然语言人工产物重组 - Google Patents
具有上下文感知的经阐明的自然语言人工产物重组 Download PDFInfo
- Publication number
- CN117651950A CN117651950A CN202280049066.2A CN202280049066A CN117651950A CN 117651950 A CN117651950 A CN 117651950A CN 202280049066 A CN202280049066 A CN 202280049066A CN 117651950 A CN117651950 A CN 117651950A
- Authority
- CN
- China
- Prior art keywords
- candidate text
- user
- content
- computer
- text items
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000006798 recombination Effects 0.000 title description 2
- 238000005215 recombination Methods 0.000 title description 2
- 238000000034 method Methods 0.000 claims abstract description 119
- 238000003058 natural language processing Methods 0.000 claims abstract description 76
- 239000013598 vector Substances 0.000 claims abstract description 74
- 238000012545 processing Methods 0.000 claims description 81
- 230000008569 process Effects 0.000 claims description 66
- 230000015654 memory Effects 0.000 claims description 52
- 238000003860 storage Methods 0.000 claims description 51
- 230000008451 emotion Effects 0.000 claims description 28
- 238000004458 analytical method Methods 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 20
- 238000012549 training Methods 0.000 claims description 19
- 230000004044 response Effects 0.000 claims description 8
- 238000010586 diagram Methods 0.000 description 25
- 230000006870 function Effects 0.000 description 14
- 230000014509 gene expression Effects 0.000 description 12
- 238000007726 management method Methods 0.000 description 12
- 238000005457 optimization Methods 0.000 description 12
- 230000000875 corresponding effect Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 230000036651 mood Effects 0.000 description 6
- 230000002776 aggregation Effects 0.000 description 5
- 238000004220 aggregation Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 5
- 230000001149 cognitive effect Effects 0.000 description 5
- 238000007418 data mining Methods 0.000 description 4
- 230000000670 limiting effect Effects 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000008520 organization Effects 0.000 description 4
- 238000013442 quality metrics Methods 0.000 description 4
- 238000012552 review Methods 0.000 description 4
- 238000012384 transportation and delivery Methods 0.000 description 4
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000000835 fiber Substances 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000000873 masking effect Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000006855 networking Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000001364 causal effect Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 239000004744 fabric Substances 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 230000008521 reorganization Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 208000027418 Wounds and injury Diseases 0.000 description 1
- 230000003466 anti-cipated effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000012098 association analyses Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009172 bursting Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/197—Version control
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/04—Billing or invoicing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1097—Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
Abstract
实施例包括使用一种或多种自然语言处理技术基于与指定子主题的相关性,从多个数字内容数据集之中候选文本项集合。该实施例使用相关性得分和特征向量将候选文本项分组为预定数量的组。该实施例使用指定的一组所选文本项来训练预训练的编码器‑解码器模型,其中该预训练的编码器‑解码器模型被预训练以根据特定书写风格来生成文本内容。该实施例使用该预训练的编码器‑解码器模型生成特定书写风格的机器创作的文本内容,从而得到基于所述指定的一组所选文本项的关于所述指定子主题的文章。该实施例还包括将该文章作为针对网站的更新而发送到远程web服务器。
Description
背景技术
本发明一般地涉及通过通信网络分发计算机数据的领域,并且更具体地涉及具有上下文感知的经阐明的自然语言人工产物重组。
自然语言处理(NLP)是指计算机科学和人工智能(AI)以及语言学的领域,其涉及某种形式的自然语言输入处理。自然语言输入通常是非结构化数据的形式。非结构化数据是指不具有预定义的数据模型或未以预定义的方式组织的信息。非结构化数据通常主要由某种形式(例如以书面或音频形式)的文本组成。在高级别,NLP通常涉及将非结构化数据转换成结构化数据。
NLP的例子包括自然语言生成(NLG)和自然语言理解(NLU)。NLU是NLP的一个领域,其主要涉及分析文本和从非结构化内容中提取元数据,诸如概念、实体、关键字、类别、情绪、情感、关系和语义角色。NLU通常使用深度学习算法分析非结构化文本并从中提取这样的信息。例如,NLU可以用于通过执行客户评论的语义分析并识别评论是正面的还是负面的,来分析客户反馈。
NLG是NLP的一个领域,其主要涉及创建机器创作的内容。例如,NLG可用于抽取式摘要。抽取式摘要包括分析大文档以识别关键术语和短语,然后使用该信息来准备文档的摘要。
这些和其它形式的NLP可通过用于执行诸如数据挖掘或抽取式摘要的任务的相应平台和服务来获得。这些技术可用于建立用于分析信息主体或语料库的NLP管线,并将返回根据在相应NLP管线中实现的技术而变化的结果。这在寻求不同形式的信息的情况下可能是有用的。例如,可以建立一个NLP管线来搜索某些一般感兴趣领域的统计信息,并且可以建立另一个NLP管线来搜索相同的一般感兴趣领域中的编辑评论,其中由于正在寻求不同类型的信息,这两个NLP管线涉及不同形式的NLP。然而,由于这两个NLP管线的差异,统计信息结果和编辑评论结果可能触及相同的一般感兴趣领域,但被具体地定向到该一般感兴趣领域的不同方面。结果,试图将多个NLP管线的输出组合成单个内聚性摘要、文章或文档可能是困难的或不可行的。
发明内容
说明性实施例提供了具有上下文感知的经阐明的自然语言人工产物重组。实施例包括作为从语料库提取内容的一部分,将多个数字内容数据集加载到存储器中,其中所述多个数字内容数据集满足查询语句,所述查询语句包括与所述多个数字内容数据集相关的内容主题。该实施例还包括使用针对每个候选文本项计算的相关性得分,基于每个候选文本项与子主题的相关性,从所述多个数字内容数据集之中识别候选文本项集合,其中通过利用一种或多种自然语言处理技术分析相应候选文本项的文本内容来确定所计算的相关性得分,其中对候选文本项的文本内容的分析产生针对候选文本项中的每个候选文本项的相应特征向量,并且其中所述特征向量均包括相应相关性值和相应质量值。该实施例还包括作为在处理器中执行一组指令的结果,使用所计算的相关性得分和特征向量,将来自候选文本项集合的候选文本项分组到预定数量的候选文本项组中。该实施例还包括使用候选文本项组中的第一指定候选文本项组来训练第一预训练的编码器-解码器模型,其中第一预训练的编码器-解码器模型被预先训练以根据第一书写风格来生成文本内容。该实施例还包括利用第一预训练的编码器-解码器模型,基于第一指定候选文本项组生成第一书写风格的机器创作的文本内容,从而得到关于所指定的子主题的第一文章。该实施例还包括使用候选文本项组中的第二指定候选文本项组来训练第二预训练的编码器-解码器模型,其中第二预训练的编码器-解码器模型被预先训练以根据第二书写风格来生成文本内容。该实施例还包括利用第二预训练的编码器-解码器模型基于第二指定候选文本项组生成第二书写风格的机器创作的文本内容,从而得到关于所指定的子主题的第二文章。该实施例还包括将第一文章和第二文章发送到远程web服务器,作为远程web服务器所托管的网站的更新。这个方面的其它实施例包括相应的计算机系统、装置和记录在一个或多个计算机存储装置上的计算机程序,每个被配置成执行本实施例的动作。
一些这样的实施例还包括将由用户生成的用户生成内容加载到存储器中,并且基于选择的用户生成内容与主题的相关性从用户生成内容中识别所选择的用户生成内容。相关的用户生成内容的加载有利地允许这样的实施例,该实施例还包括作为确定用户对主题的情绪的一部分,分析所选择的用户生成内容,导致确定所选择的用户生成内容的极性。确定用户对主题的情绪有利地允许这样的实施例,该实施例还包括基于用户对主题的情绪生成权重向量,其中将候选文本项分组为候选文本项组还包括使用权重向量来调整特征向量的值。使用这种权重向量调整特征向量有利地允许为用户定制第一文章和第二文章,使得发送第一文章和第二文章可以用作定制网页的更新,其中所述定制网页是为所述用户定制的。
根据本公开的另一方面,实施例包括执行查询过程,该查询过程在多个语料库中搜索与指定的主题相关的内容。该实施例还包括使用针对每个候选文本项计算的相关性得分,基于每个候选文本项与指定的子主题的相关性,从接收自查询过程的搜索结果中提取候选文本项集合,其中计算的相关性得分是通过利用一种或多种自然语言处理技术分析相应候选文本项的文本内容来确定的。该实施例还包括,其中对候选文本项的文本内容的分析产生每个候选文本项的相应特征向量。该实施例还包括,其中特征向量每个均包括相应相关性值和相应质量值。该实施例还包括将用户生成的用户生成内容加载到存储器中。该实施例还包括作为确定用户对指定的子主题的情绪的一部分,分析用户生成内容,导致确定用户生成内容的极性。该实施例还包括基于用户对指定的子主题的情绪生成权重向量。该实施例还包括作为在处理器中执行一组指令的结果,使用所计算的相关性得分、权重向量和特征向量,将来自候选文本项集合的候选文本项分组到预定数量的候选文本项组中。该实施例还包括使用候选文本项组中的指定候选文本项组来训练预训练的编码器-解码器模型。该实施例还包括利用预训练的编码器-解码器模型基于所述指定候选文本项组来生成机器创作的文本内容,从而得到关于指定的子主题的文章。该实施例还包括将所述文章发送到远程web服务器作为用于内容的显示的更新,该内容基于用户的情绪而针对该用户被个性化。这个方面的其它实施例包括对应的计算机系统、装置和记录在一个或多个计算机存储装置上的计算机程序,每个被配置成执行该实施例的动作。
实施例包括计算机可用程序产品。该计算机可用程序产品包括计算机可读存储介质和存储在该存储介质上的程序指令。
实施例包括计算机系统。该计算机系统包括处理器、计算机可读存储器、计算机可读存储介质以及存储在该存储介质上以经由存储器供处理器执行的程序指令。
附图说明
在所附权利要求中阐述了被认为是本发明的特性的新颖特征。然而,通过参考以下结合附图对说明性实施例的详细描述,将最好地理解本发明本身及其优选使用模式、进一步的目的和优点,其中:
图1描绘了可以实现说明性实施例的数据处理系统的框图;
图2描绘了根据说明性实施例的示例配置的框图;
图3A描绘了根据说明性实施例的示例配置的框图;
图3B描绘了根据说明性实施例的另一示例配置的框图;
图4描绘了根据说明性实施例的另一示例配置的框图
图5描绘了根据说明性实施例的示例CAA系统的框图;
图6描绘了根据说明性实施例的示例CAA系统的框图;
图7描绘了根据说明性实施例的用于认知聚合和创作的示例过程的流程图;
图8描绘了根据说明性实施例的用于认知聚合和创作的示例过程的流程图;
图9描绘了根据本发明实施例的云计算环境;以及
图10描绘了根据本发明实施例的抽象模型层。
具体实施方式
可用于消费的信息量继续以空前的步伐增长。例如,近年来已经看到自然语言文本数据的显著增长,包括网页、新闻文章、科学文献、电子邮件、企业文档和社交媒体(诸如博客文章、论坛帖子、产品评论和推文)。这种信息正被不断增长的获得对因特网的访问的全球用户的受众所消费。最近的统计表明现在超过40亿人具有对因特网的某种形式的访问,这代表了超过一半的世界人口。
能够访问大量信息大量用户正在产生对帮助人们有效和高效地管理和分析大量信息的强大软件工具的日益增长的需求。解决这种需求的应用包括诸如个性化新闻聚合器之类的东西,其在一个位置收集发表的web内容(诸如在线报纸、博客、播客(podcast)和视频博客(VLog)),以便容易地观看。已经认识到,可以通过使用NLP技术来生成每个聚合文章的摘要并且将这些摘要提供给用户,从而使他能够更快地接收聚合内容的概览,来改进这样的应用。
NLP技术已被证明对于帮助用户从大量可用信息中获得洞察的许多这样的应用是有用的。已知许多不同类型的NLP技术和算法用于产生供用户消费的文本内容。文本内容的递送、内容和风格根据用于收集和产生它的NLP技术而变化。通常,多个NLP技术被组合以形成用于执行NLP过程的组合的NLP管线。可能希望使用多个不同的NLP管线来收集和处理信息,以便实现所积累的信息的风格和内容的多样性。然而,当试图使用由不同的NLP管线提供的内容来组装内聚性作品(例如文章、文档或网页)时,这种多样性变得有问题。
作为一个例子,专用于诸如体育赛事、博览会或会议的主要事件的应用或网页可以使用多个不同的NLP管线来收集内容,所述NLP管线使用不同类型的NLP技术。一个NLP管线通过搜索大量信息以寻找主题相关文章、使用抽取式摘要来概括文章、基于与主题的相关性、信息质量和其它因素对摘要进行排名、以及输出某一数量的最高排名摘要来提供仿真陈述(factoids)。如在此所使用的,“仿真陈述”指的是关于主题的新闻文章的摘要,或者关于主题知之甚少(即,微不足道)但有趣的信息。另一NLP管线通过以下操作来提供统计句子(在此也被称为“洞察”(insights)):查询统计数据库以寻找作为结构化数据提供的主题相关统计、使用自然语言生成来基于主题相关统计写新句子、基于与主题的相关性、信息质量和其它因素对统计句子进行排名、以及输出某一数量的最高排名统计句子。
尽管所得到的摘要和统计句子可能与特定主题相关,例如特定的运动、音乐流派或技术领域,但是它们仍然可以针对主题的不同方面。例如,在主题是特定运动的情况下,摘要可以针对运动员的家庭生活、新体育场和训练技巧,而统计句子针对在某些天气条件下的运动员表现、团队记录和联盟记录。单独呈现的是,这是用户可能发现有益和有趣的给定主题的所有相关信息。然而,存在技术问题,因为这些结果包括与主题的多个方面有关的信息,这些方面太不相关而不能被连贯地组合成与主题有关的单个内聚性文章。
AI技术现在还包括NLP技术,诸如自然语言生成,其产生机器创作的内容,诸如机器创作的故事、内容摘要和小说文本。这些技术生成与输入数据密切相关的文本,这将这些技术限制为使用来自单个NLP管线的输入数据来生成新的文本内容。因此,当试图从不同的NLP管线生成内聚性内容时,这些技术缺乏克服上述技术问题的能力。
其它技术问题包括这些技术也缺乏为每个用户个性化生成的文本的能力。例如,可以基于用户输入或活动来确定用户偏好,以便确定诸如用户对某些主题的情绪和/或用户偏好的书写风格方面之类的事情。然而,现有的文本生成技术缺乏生成具有匹配用户的偏好的特性的针对用户个性化的文本内容的能力,所述特性诸如为书写风格或主题情绪。
说明性实施例通过提供组合从多个NLP管线提供的输入,并使用组合的输入作为生成新的机器创作的文本内容的基础,解决了这些技术问题。所公开的实施例创建了使用多重背包问题(MKP)算法来组合从多个NLP管线提供的输入的NLP管线。所公开的实施例检测用户偏好,并应用掩蔽技术来调整文本生成过程,以生成具有基于用户偏好而选择的一个或多个特性的文本。
通过从多个不同的NLP管线识别相关的内容项,可解决从多个不同的NLP管线生成机器创作的文本内容的问题。作为被提供以帮助理解本公开的非限制性示例,实施例包括提供用于仿真陈述的输入数据的第一NLP管线,以及提供用于洞察的输入数据的第二NLP管线。在一些实施例中,第一和第二NLP管线查询一个或多个语料库以寻找满足查询语句的数字内容数据集。在一些这样的实施例中,查询语句包括对特定的感兴趣主题(例如,来自以上示例的篮球)的引用。
在一些这样的实施例中,第一和第二NLP管线通过提取满足查询的数字内容数据集(例如,第一NLP管线的仿真陈述和第二NLP管线的洞察)来提供输入,并将它们加载到存储器中。数字内容项可以是文本项,并且可以包括短语、句子或其他文本块。在一些这样的实施例中,输入被用于创建用于在用户设备上运行的应用的内容,该用户设备显示与特定主题相关的内容。周期性地更新所显示的内容(在该示例中被称为当前相关内容),使得较旧的创建内容不时地被较新的创建内容替换。
从相关的多个不同的NLP管线中识别内容项的问题可被重述为在同一应用显示内一起具有仿真陈述、洞察和当前相关内容的联合概率的优化。
作为一个优化问题,该问题可以被建模为下面的表达式(1)。
通过一系列置换,表达式(1)可以被写为表达式(2),然后(3),然后(4)。
在表达式(1)-(4)中,P(Rc)=具有相关内容的概率,取决于是否可以检索到与当前主题相关的输入数据。例如,如果当前主题是关于用户参加的事件,例如篮球比赛,这是NLP管线提供与篮球或篮球比赛相关的输入的概率。P(Factoids|Insights)=获得与洞察相关的仿真陈述的概率。使用决策优化算法创建高度相关且相互关联的仿真陈述和洞察的包组。P(Insights)=从作为关于主题(即,这个示例中的篮球)的高度精确结构化信息的源数据中生成高质量和多样化洞察的概率。实施例使用自然语言生成、变换器模型和决策优化算法来提高生成高质量和多样化洞察的可能性。
进一步关注由表达式(1)-(4)建模的优化问题,可以通过使表达式(4)最大化来优化模型,可以通过最大化下面示出为表达式(5)和(6)的两个项来最大化表达式(4)。
P(Factoids|Rc) (5)
P(Insights|Rc) (6)
因此,NLP路线图可以聚焦于优化在给定用户当前正在观看的内容的情况下的洞察和仿真陈述的检索。所公开的实施例寻求使用新颖的多头注意力变换器来解决这种优化,以基于定制或页面编辑而聚焦于最相关的信息。
在一些说明性实施例中,优化问题被建模为MKP。有许多已知的求解MKP的算法,其中任何一种都可以用作用于创建包组的决策优化算法。MKP算法寻求对数字内容数据集(例如,从第一NLP管线接收的仿真陈述句子和从第二NLP管线接收的洞察句子)进行分组。
在一些这样的实施例中,在来自NLP管线的内容被MKP算法处理之前,从数据集中选择某些候选项以减少MKP算法所需的处理量。在一些这样的实施例中,从多个数字内容数据集中识别候选文本项的一个或多个集合(对应于相应子主题)。在一些这样的实施例中,基于与和候选项的集合相关联的子主题的相关性来识别每个集合中的候选文本项。
跟随上述讨论的主题是篮球的示例,仅出于说明性目的提供的子主题的三个示例可以包括团队比赛、运动员传记和伤情报告。在一些实施例中,针对与子主题中的每一个的相关性来分析候选项。在一些这样的实施例中,还可以针对其他因素(诸如质量(例如,语法或拼写错误的量、冒犯性内容的存在等)、情绪(例如,表达意见的强度、所采用的争论方等)、长度或其他度量)来评估候选项。在一些这样的实施例中,该分析得到针对每个候选文本项计算的相关性得分,其中所计算的相关性得分是通过利用一种或多种自然语言处理技术分析相应候选文本项的文本内容来确定的。该信息被用于为仿真陈述和洞察候选项目中的每一个生成特征向量,其中“特征”是预先选择的子主题,并且特征值指示仿真陈述或洞察与相应子主题有多相似。在一些实施例中,特征向量可以包括比本示例更多或更少的特征。因此,特征向量包括表示相关联的仿真陈述或洞察与子主题中的每一个有多么相关的数值,以及质量分数和其他期望因素的值。
在说明性实施例中,MKP算法接收候选项和每个候选仿真陈述和每个洞察的特征向量。MLP算法作为在处理器中执行一组指令的结果,使用所计算的相关性得分和特征向量,将来自候选文本项集合的候选文本项分组为预定数量的候选文本项组。
一些说明性实施例包括使用具有交叉熵质量度量的抽取式摘要来从包组之一中挑选句子的子集。在一些实施例中,可以使用类似交叉熵摘要(CES)的方法来选择句子的子集,以用于选择最“有希望的”句子子集。作为背景,交叉熵(CE)方法提供了用于解决困难的组合问题的一般蒙特卡罗优化框架。为此,CE获得例如以及对最大摘要长度的约束L作为输入。令
表示CE方法的单次调用。这种调用的结果是单个长度可行的摘要S*,其包含从最大化的D中选择的句子子集。例如,CES是通过调用下式实现的
对于给定句子s∈D,令表示其应当被包括在摘要S中的可能性。从具有最高熵(即,/>)的选择策略开始,CE方法学习使/>最大化的选择策略/>
为此,利用重要性采样方法递增地学习在每次迭代t=1、2、...处,根据在前一次迭代t-1中学习的选择策略/>产生N个句子子集的样本Sj。根据下面的表达式(7)(通过交叉熵最小化)估计在迭代t处挑选句子s∈D的可能性。
这里,δ[·]表示Kronecker-delta(指标)函数,并且γt表示样本性能的(1-ρ)分位数(p∈(0,1))。因此,当句子被包括在性能高于当前最小要求质量目标值γt的更多(子集)样本中时,挑选句子s∈D的可能性将增加。在一些实施方案中,/>还可如下被平滑:
其中α∈[0,1]。
当CE方法终止时,CE方法预期收敛于全局最佳选择策略然后,可基于该收敛产生单个摘要/>为了强制将仅产生可行的摘要,每当采样的摘要Sj长度超过L字限制时,可以设置/>或者,最大长度约束可在采样期间直接强制执行。
在一些实施例中,因为假定无监督设置,所以没有实际参考摘要可用于训练。类似地,实际质量目标Q(S|q,D)不能被直接优化。相反,Q(S|q,D)可以由几个摘要质量预测度量来“替代”:
每个这样的质量‘预测器'被设计为估计给定候选摘要S的显著性或聚焦的水平,并且被假定为与实际摘要质量相关(达到某种程度)。为了简单起见,假设若干质量预测器彼此独立,并且通过取它们的积将其组合成单个优化目标:
在一些实施例中,本摘要器可以采用若干不同的预测器,例如,五个不同的预测器。作为非限制性示例,在一些实施例中,前两个预测器分别使用从仿真陈述语料库和统计语料库建立的一元语法(unigram)语言模型。它们使用已知的技术来测量句子中有多少信息覆盖查询以及有多少质量对查询有贡献。第三个预测器确定摘要的多少覆盖了包集合。第四个预测器测量熵以实现句子的多样性。后两个提供了长度较长并且用谓语论元结构描述的偏倚句子。在一些实施例中,本摘要器可以采用更多或更少的预测器。
因此,如以上表达式(7)所示的优化等式提供了用于找到遵循原始约束(以上表达式(5)和(6))的句子的最佳组合的模型。然后,将句子的这种组合输入到算法中,该算法通过将句子重写成内聚性的文本单元来生成机器创作的文本内容,诸如T5变换器。
在一些实施例中,内容是针对终端用户个性化的。在一些这样的实施例中,用于个性化内容的过程将用户生成内容加载到存储器中。例如,在一些实施例中,该过程向用户发送反馈请求,该反馈请求包括对关于在与子主题相关的编辑文章中表达的意见的反馈的请求。可以邀请用户评论该意见或简单地指示他们同意还是不同意该意见。用户生成内容因此将包括响应于反馈请求从用户接收的反馈。在一些实施例中,用户生成内容可以包括用户响应于与子主题相关的帖子或文章而例如在新闻网站或社交媒体网站上张贴的一个或多个评论。在这样的实施例中,用户先前本已提供他们主动参与的这样的网站的列表,并且本已指示他们同意选择加入以允许该过程访问先前由用户张贴的这些评论。
在一些实施例中,该过程分析用户生成内容以便确定用户生成内容的极性,该过程使用该极性来确定用户对指定的子主题的情绪。在一些这样的实施例中,该过程基于用户对指定的子主题的情绪来生成权重向量。该权重向量与候选项和每个候选仿真陈述和洞察的特征向量一起被输入到MKP算法。权重向量具有用于特征向量中的每个值的值,其充当用于强调或削弱特征向量的某些特征的掩模。例如,如果用户对第一和第三子主题感兴趣,而对第二子主题不感兴趣,则对于用户感兴趣的子主题,权重值可以被设置为第一值(例如,1或100),而对于用户不感兴趣的子主题,其他权重值可以被设置为第二值(例如,零)。结果,MKP算法基于所计算的相关性得分、权重向量和特征向量将候选文本项分组为预定数量的组。
而且,在一些这样的实施例中,该过程使用候选文本项组中指定的候选文本项组来训练预训练的编码器-解码器模型。该过程然后利用预训练的编码器-解码器模型来生成机器创作的文本内容,从而产生基于指定的候选文本项组的关于指定的子主题的文章。
可以针对任何类型的数据、数据源或通过数据网络对数据源的访问来实现说明性实施例。在本发明的范围内,任何类型的数据存储设备可以在本地在数据处理系统处或通过数据网络向本发明的实施例提供数据。在使用移动设备描述实施例的情况下,在说明性实施例的范围内,适于与移动设备一起使用的任何类型的数据存储设备可以在移动设备本地或者通过数据网络向这样的实施例提供数据。
使用特定代码、设计、架构、协议、布局、示意图和工具来描述说明性实施例,这些仅作为示例,而不是对说明性实施例的限制。此外,为了描述的清楚,在一些实例中使用特定软件、工具和数据处理环境仅作为示例来描述说明性实施例。说明性实施例可以结合其他可比较或类似目的的结构、系统、应用或架构来使用。例如,在本发明的范围内,其他可比较的移动设备、结构、系统、应用或其架构可以与本发明的这种实施例结合使用。说明性实施例可以以硬件、软件或其组合来实现。
本公开中的示例仅用于清楚描述,而不是限制于说明性实施例。从本公开可以想到另外的数据、操作、动作、任务、活动和操纵,并且在说明性实施例的范围内可以设想它们。
本文列出的任何优点仅是示例,并且不旨在限制说明性实施例。通过特定的说明性实施例可以实现附加的或不同的优点。此外,特定说明性实施例可具有上文所列出的优点中的一些、全部或不具有上文所列出的优点。
应当理解,尽管本公开包括关于云计算的详细描述,但是本文所陈述的教导的实现不限于云计算环境。相反,本发明的实施例能够结合现在已知或以后开发的任何其它类型的计算环境来实现。
云计算是一种服务递交模型,用于实现对可配置计算资源(例如,网络、网络带宽、服务器、处理、存储器、存储、应用、虚拟机和服务)的共享池的方便的按需网络访问,所述可配置计算资源可以以最小的管理努力或与服务的提供者的交互来快速供应和释放。该云模型可以包括至少五个特性、至少三个服务模型和至少四个部署模型。
特征如下:
按需自助:云消费者可以单方面地自动地根据需要提供计算能力,诸如服务器时间和网络存储,而不需要与服务的提供者进行人工交互。
广域网接入:能力在网络上可用,并且通过标准机制来访问,该标准机制促进由异构的薄或厚客户端平台(例如,移动电话、膝上型计算机和个人数字助理(PDA))使用。
资源池化:供应商的计算资源被集中以使用多租户模型来服务多个消费者,其中不同的物理和虚拟资源根据需求被动态地分配和重新分配。存在位置无关的意义,因为消费者通常不控制或不知道所提供的资源的确切位置,但是能够在较高抽象级别(例如国家、州或数据中心)指定位置。
快速弹性:在一些情况下,可以快速且弹性地提供快速向外扩展的能力和快速向内扩展的能力。对于消费者,可用于提供的能力通常看起来不受限制,并且可以在任何时间以任何数量购买。
测量的服务:云系统通过利用在适合于服务类型(例如,存储、处理、带宽和活动用户账户)的某一抽象级别的计量能力来自动地控制和优化资源使用。可以监视、控制和报告资源使用,从而为所利用服务的提供者和消费者两者提供透明性。
服务模型如下:
软件即服务(SaaS):提供给消费者的能力是使用在云基础设施上运行的提供者的应用。应用程序可通过诸如web浏览器(例如,基于web的电子邮件)等瘦客户端界面从各种客户端设备访问。消费者不管理或控制包括网络、服务器、操作系统、存储、或甚至个别应用能力的底层云基础结构,可能的例外是有限的用户专用应用配置设置。
平台即服务(PaaS):提供给消费者的能力是将消费者创建或获取的应用部署到云基础设施上,该消费者创建或获取的应用是使用由提供商支持的编程语言和工具创建的。消费者不管理或控制包括网络、服务器、操作系统或存储的底层云基础设施,但具有对部署的应用和可能的应用托管环境配置的控制。
基础设施即服务(IaaS):提供给消费者的能力是提供处理、存储、网络和消费者能够部署和运行任意软件的其它基本计算资源,所述软件可以包括操作系统和应用。消费者不管理或控制底层云基础设施,但具有对操作系统、存储、部署的应用的控制,以及可能对选择的联网组件(例如,主机防火墙)的有限控制。
部署模型如下:
私有云:云基础设施仅为组织操作。它可以由组织或第三方管理,并且可以存在于建筑物内或建筑物外。
社区云:云基础设施由若干组织共享,并且支持具有共享关注(例如,任务、安全要求、策略和合规性考虑)的特定社区。它可以由组织或第三方管理,并且可以存在于场所内或场所外。
公有云:云基础设施可用于一般公众或大型工业群体,并且由销售云服务的组织拥有。
混合云:云基础设施是两个或更多云(私有、共同体或公共)的组合,所述云保持唯一实体,但是通过使数据和应用能够移植的标准化或私有技术(例如,用于云之间的负载平衡的云突发)绑定在一起。
云计算环境是面向服务的,其焦点在于无状态、低耦合、模块性和语义互操作性。在云计算的核心是包括互连节点的网络的基础设施。
参考附图,并且特别参考图1和图2,这些附图是可以实现说明性实施例的数据处理环境的示例图。图1和图2仅仅是例子,并不意图断言或暗示关于可以实现不同实施例的环境的任何限制。特定实现可以基于以下描述对所描绘的环境进行许多修改。
图1描述了可以实现说明性实施例的数据处理系统的网络的框图。数据处理环境100是可以实现说明性实施例的计算机网络。数据处理环境100包括网络102。网络102是用于在数据处理环境100内连接在一起的各种设备和计算机之间提供通信链路的介质。网络102可以包括诸如有线、无线通信链路或光纤电缆的连接。
客户端或服务器仅是连接到网络102的某些数据处理系统的示例角色,并且不旨在排除这些数据处理系统的其他配置或角色。服务器104和服务器106连同存储单元108一起耦合到网络102。软件应用可以在数据处理环境100中的任何计算机上执行。客户端110、112和114也耦合到网络102。诸如服务器104或106或客户端110、112或114的数据处理系统可以包含数据,并且可以具有在其上执行的软件应用或软件工具。在一个实施例中,数据处理系统104包括存储器124,其包括可以被配置为实现根据一个或多个实施例的本文描述的一个或多个数据处理器功能的应用105A。
服务器106与存储单元108一起耦合到网络102。存储单元108包括数据库109,其被配置为存储如本文关于各种实施例所描述的数据,例如图像数据和属性数据。服务器106是常规的数据处理系统。在一个实施例中,服务器106包括神经网络应用105B,其可以被配置为实现根据一个或多个实施例的本文描述的处理器功能中的一个或多个。
客户端110、112和114也耦合到网络102。诸如服务器106或客户端110、112或114的常规数据处理系统可包含数据,并可具有在其上执行常规计算过程的软件应用程序或软件工具。
仅作为示例,且不暗示对这样的架构的任何限制,图1描绘了可在实施例的示例实现中使用的某些组件。例如,服务器104和106以及客户端110、112、114被描绘为服务器和客户端,仅作为示例,而不是暗示对客户端-服务器架构的限制。作为另一个例子,一个实施例可以分布在如图所示的几个数据处理系统和数据网络上,而另一个实施例可以在说明性实施例的范围内的单个数据处理系统上实现。数据处理系统104、106、110、112和114还表示适于实现实施例的集群、分区和其它配置中的示例节点。
设备132是本文描述的设备的示例。例如,设备132可以采取智能电话、平板计算机、膝上型计算机、固定或便携式形式的客户端110、可穿戴计算设备或任何其他合适的设备的形式。被描述为在图1中的另一数据处理系统中执行的任何软件应用可以被配置为以类似的方式在设备132中执行。在图1中的另一数据处理系统中存储或产生的任何数据或信息可以被配置为以类似的方式在设备132中存储或产生。
应用105A/105B实现这里描述的实施例。应用105A/B在服务器104和106、客户端110、112和114以及设备132中的任何一个中执行。
服务器104和106、存储单元108、客户端110、112和114以及设备132可以使用有线连接、无线通信协议或其他合适的数据连接耦合到网络102。客户端110、112和114可以是例如个人计算机或网络计算机。
在所描述的示例中,服务器104可以向客户端110、112和114提供数据,例如引导文件、操作系统映像和应用。在该示例中,客户端110、112和114可以是服务器104的客户端。客户端110、112、114或其某种组合可以包括它们自己的数据、引导文件、操作系统映像和应用。数据处理环境100可以包括未示出的附加服务器、客户端和其他设备。
在所描绘的示例中,存储器124可以向处理器122提供数据,诸如引导文件、操作系统映像和应用。处理器122可以包括其自己的数据、引导文件、操作系统映像和应用。数据处理环境100可以包括未示出的附加存储器、处理器和其他设备。
在所描述的示例中,数据处理环境100可以是因特网。网络102可以表示使用传输控制协议/网际协议(TCP/IP)和其它协议来彼此通信的网络和网关的集合。在因特网的核心是主节点或主机计算机之间的数据通信链路的主干,包括路由数据和消息的数千个商业、政府、教育和其它计算机系统。当然,数据处理环境100也可以实现为许多不同类型的网络,例如内联网、局域网(LAN)或广域网(WAN)。图1旨在作为示例,而不是作为对不同说明性实施例的架构限制。
除了其他用途之外,数据处理环境100可以用于实现其中可以实现示例性实施例的客户端-服务器环境。一种客户端-服务器环境,使得软件应用程序和数据能够分布在网络上,以便应用程序通过使用客户端数据处理系统和服务器数据处理系统之间的交互性来工作。数据处理环境100还可以采用面向服务的架构,其中分布在网络上的可互操作的软件组件可以被打包在一起作为一致的业务应用。数据处理环境100还可以采取云的形式,并且采用服务递送的云计算模型以实现对可配置计算资源(例如,网络、网络带宽、服务器、处理、存储器、存储、应用、虚拟机和服务)的共享池的方便的按需网络访问,所述可配置计算资源可以以最小的管理努力或与服务的提供者的交互来快速供应和释放。
参考图2,该图描述了可以实现说明性实施例的数据处理系统的框图。数据处理系统200是计算机的示例,例如图1中的服务器104和106、或客户端110、112和114、或另一类型的设备,其中可以为示例性实施例设置实现处理的计算机可用程序代码或指令。
数据处理系统200还代表数据处理系统或其中的配置,例如图1中的数据处理系统132,其中可以放置实现示例性实施例的处理的计算机可用程序代码或指令。数据处理系统200仅作为示例被描述为计算机,而不限于此。在不脱离这里描述的数据处理系统200的操作和功能的一般描述的情况下,诸如图1中的设备132的其他设备的形式的实现可以诸如通过添加触摸接口来修改数据处理系统200,并且甚至从数据处理系统200中去除某些描绘的组件。
在所描述的例子中,数据处理系统200采用集线器架构,该架构包括北桥和存储器控制器集线器(NB/MCH)202以及南桥和输入/输出(I/O)控制器集线器(SB/ICH)204。处理单元206、主存储器208和图形处理器210耦合到NB/MCH 202。处理单元206可以包含一个或多个处理器,并且可以使用一个或多个异构处理器系统来实现。处理单元206可以是多核处理器。在某些实现中,图形处理器210可以通过加速图形端口(AGP)耦合到NB/MCH 202。
在所描述的例子中,LAN适配器212耦合到SB/ICH 204。音频适配器216、键盘和鼠标适配器220、调制解调器222、只读存储器(ROM)224、通用串行总线(USB)和其它端口232、以及PCI/PCIe设备234通过总线238耦合到SB/ICH 204。硬盘驱动器(HDD)或固态驱动器(SSD)226和光盘只读存储器(CD-ROM)230通过总线240耦合到SB/ICH 204。PCI/PCIe设备234可以包括例如以太网适配器、附加卡和用于笔记本计算机的PC卡。PCI使用卡总线控制器,而PCIe不使用。ROM 224可以是例如闪存二进制输入/输出系统(BIOS)。HDD 226和CD-ROM 230可使用例如集成驱动电子(IDE)、串行高级技术附件(SATA)接口或诸如外SATA(eSATA)和微SATA(mSATA)的变体。超级I/O(SIO)设备236可以通过总线238耦合到SB/ICH204。
存储器,例如主存储器208、ROM 224或闪存(未示出),是计算机可用存储设备的一些示例。HDD或SSD 226、CD-ROM 230和其它类似可用的设备是包括计算机可用存储介质的计算机可用存储设备的一些示例。
操作系统在处理单元206上运行。操作系统协调并提供对图2中的数据处理系统200内的各种组件的控制,操作系统可以是用于任何类型的计算平台的商业上可用的操作系统,包括但不限于服务器系统、个人计算机和移动设备。面向对象或其它类型的编程系统可以与操作系统一起操作,并且提供从在数据处理系统200上执行的程序或应用对操作系统的调用。
用于操作系统、面向对象的编程系统以及诸如图1中的应用105的应用或程序的指令位于存储设备上,诸如以硬盘驱动器226上的代码226A的形式,并且可以被加载到诸如主存储器208的一个或多个存储器中的至少一个中,以便由处理单元206执行。说明性实施例的过程可以由处理单元206使用计算机实现的指令来执行,所述指令可以在存储器中,例如主存储器208、只读存储器224,或者在一个或多个外围设备中。
此外,在一种情况下,代码226A可以通过网络201A从远程系统201B下载,其中类似的代码201C存储在存储设备201D上。在另一种情况下,代码226A可以通过网络201A下载到远程系统201B,其中下载的代码201C存储在存储设备201D上。
图1-2中的硬件可以根据实现而变化。除了图1-2中描述的硬件之外,或者作为其替代,可以使用诸如闪存、等效的非易失性存储器或光盘驱动器等的其它内部硬件或外围设备。此外,说明性实施例的过程可以被应用于多处理器数据处理系统。
在一些说明性示例中,数据处理系统200可以是PDA,其通常配置有闪存以提供用于存储操作系统文件和/或用户生成的数据的非易失性存储器。总线系统可以包括一个或多个总线,例如系统总线、I/O总线和PCI总线。当然,总线系统可以使用任何类型的通信结构或架构来实现,所述通信结构或架构提供在附接到该结构或架构的不同组件或设备之间的数据传输。
通信单元可以包括一个或多个用于发送和接收数据的设备,例如调制解调器或网络适配器。存储器可以是例如主存储器208或高速缓存,诸如在NB/MCH 202中找到的高速缓存。处理单元可以包括一个或多个处理器或CPU。
图1-2中所描绘的示例和上述示例并非旨在暗示架构限制。例如,数据处理系统200除了采取移动或可穿戴设备的形式之外,还可以是平板计算机、膝上型计算机或电话设备。
在计算机或数据处理系统被描述为虚拟机、虚拟设备或虚拟组件的情况下,虚拟机、虚拟设备或虚拟组件使用数据处理系统200中所描绘的一些或所有组件的虚拟化表现来以数据处理系统200的方式操作。例如,在虚拟机、虚拟设备或虚拟组件中,处理单元206被表现为主机数据处理系统中可用的所有或一些数量的硬件处理单元206的虚拟化实例,主存储器208被表现为主机数据处理系统中可用的主存储器208的所有或一些部分的虚拟化实例,并且盘226被表现为主机数据处理系统中可用的盘226的所有或一些部分的虚拟化实例。在这种情况下,主机数据处理系统由数据处理系统200表示。
参考图3A和图3B,这些图描绘了根据说明性实施例的示例配置300A和300B的框图。示例实施例每个包括认知聚合和创作(CAA)系统302。在一些实施例中,CAA系统302是图1的应用105A/105B的示例。
在所示实施例中,诸如个人计算机的用户设备310用于发送对信息的请求。例如,用户设备310可以请求接收与当前标题(headlines)或特定主题相关的新闻文章和/或其他形式的数字内容,所述特定主题诸如为与用户正在参加的事件相关的主题或用户感兴趣的另一主题。用户设备310通过网络308向CAA系统302发出请求。如下面更详细地讨论的,CAA系统302从多个数据源接收信息,例如从数据库304和306或者经由因特网可用的其他信息源接收信息。CAA系统302使用该信息来生成机器创作的内容。在一些实施例中,CAA系统302通过识别与主题相关的多个信息并将多个主题相关信息组织成组,来生成特定主题的内容。在一些实施例中,CAA系统302使用多重背包算法来优化组,以最大化所分组的信息的相关性和其它期望的质量度量。CAA系统302然后选择一个组并使用该组中的信息来生成机器创作的内容。
在一些实施例中,例如图3A中所示的配置300A,用户设备310通过网络308直接向CAA系统302上的服务发出对信息的请求。在替代实施例中,例如图3B所示的配置300B,用户设备310间接地向CAA系统302发出请求。例如,在配置300B的所示实施例中,用户设备310向第三方服务312发出请求,该第三方服务继而与CAA系统302交互。在一些这样的实施例中,第三方服务312运营新闻网站或移动应用,诸如在线报纸、数字杂志或新闻聚合器,第三方服务312为其从CAA系统302接收内容。
参考图4,该图描绘了根据说明性实施例的示例配置400的框图。示例性实施例包括CAA系统418。在一些实施例中,CAA系统418是图3A和3B的CAA系统302以及图1的应用105A/105B的示例。
在所示实施例中,诸如智能电话、平板计算机或其他计算设备之类的用户设备422运行发送对信息的请求的应用424。例如,用户设备422请求接收与当前标题或特定主题相关的新闻文章和/或其他形式的数字内容,所述特定主题诸如为与用户正在参加的事件相关的主题或用户感兴趣的另一主题。用户设备422通过网络420向CAA系统418(直接或间接地)发出请求。如下面更详细地讨论的,CAA系统418从多个数据源接收信息,例如,从语料库414-416或通过因特网可用的其他信息源接收信息。CAA系统418使用该信息来生成机器创作的内容。在一些实施例中,CAA系统418通过识别与主题相关的多个信息并将多个主题相关片段组织成组,来生成特定主题的内容。在一些实施例中,CAA系统418使用多重背包算法优化组,以最大化所分组的信息的相关性和其它期望的质量度量。CAA系统418然后选择一个组并使用该组中的信息来生成机器创作的内容。
在一些实施例中,例如图4中所示的配置400,由各自独立的NLP管线410-412生成语料库414-416。NLP管线410使用来自NLP管线410经由网络406访问的数据源402的数据来构建语料库414。NLP管线411使用来自NLP管线411经由网络407访问的数据源403的数据来构建语料库415。NLP管线412使用来自NLP管线412经由网络408访问的数据源404的数据来构建语料库416。
虽然示出了三个NLP管线410-412,另选实施例可以包括任何数量的管线。可以用作CAA系统418的信息源的NLP管线的示例包括文本分析系统,其可以涉及信息检索、用于研究词频分布的词汇分析、模式识别、标记/注释、信息提取、包括链接和关联分析的数据挖掘技术、可视化和预测分析。
在一些实施例中,NLP管线410和412中的一个或多个包括用于使用从结构化数据生成的文本内容来生成洞察的处理。例如,在一些实施例中,NLP处理包括数据挖掘大量数据源,例如通过查询数万或数十万个数据源以获得与某个主题相关的信息,并在查询结果中获得几千兆字节的数据。在一些这样的实施例中,NLP处理还包括使用自然语言生成、变换器模型和决策优化来生成有洞察力的摘要,例如解释特定上下文或场景内的因果的摘要,包括识别负责或帮助理解该因果的关系和行为。
在一些实施例中,NLP管线410和412中的一个或多个包括用于从被批准的数据源生成仿真陈述作为文本内容的处理。这里所使用的“仿真陈述”指的是一种不太已知(即,不重要的)、但是有趣的信息。在一些这样的实施例中,NLP处理包括数据挖掘大量数据源,例如通过查询数万或数十万个数据源以获得与某个主题相关的信息,并在查询结果中获得几千兆字节的数据。该处理然后包括对查询结果内的文章应用抽取式摘要以找到概括了文章或文章的部分的句子。在一些实施例中,一个或多个质量度量被用于例如基于结果与感兴趣的特定主题有多紧密相关、书写质量(例如,结果是否包括语法错误、拼写错误或粗俗语言)或其他期望的标准来对结果进行排名。
参考图5,该图描绘了根据说明性实施例的示例CAA系统500的框图。在特定实施例中,CAA系统是图1的应用105A/105B、图3A和3B的CAA系统302以及图4的CAA系统418的示例。
在一些实施例中,CAA系统500包括加载模块502、候选选择模块504、分组模块506、训练模块508、文章生成模块510、文章发布模块512、管理接口514、存储器516和处理器518。在替代实施例中,CAA系统500可以包括这里描述的一些或全部功能,但是不同地分组为一个或多个模块。在一些实施例中,本文描述的功能分布在多个系统中,所述多个系统可以包括基于软件和/或硬件的系统的组合,例如专用集成电路(ASIC)、计算机程序或智能电话应用。在一些实施例中,模块502-512和管理接口514是软件模块,其包括能够由处理器518执行以使处理器518执行本文所述的操作的程序指令。
在所示的实施例中,作为从一个或多个语料库520提取内容的一部分,加载模块502将多个数字内容数据集加载到存储器516中。该多个数字内容数据集满足包括该多个数字内容数据集与之相关的内容主题的查询语句。
候选选择模块504使用针对每个候选文本项计算的相关性得分,基于每个候选文本项与一个或多个相应子主题的相关性,从所述多个数字内容数据集中识别候选文本项的一个或多个集合。在一些实施例中,项是句子或短语。在一些实施例中,候选选择模块504通过利用一种或多种自然语言处理技术分析相应候选文本项的文本内容来计算相关性。在一些实施例中,候选选择模块504基于对候选文本项的分析,为每个候选文本项生成特征向量。在一些实施例中,特征向量各自包括一个或多个相关性值以及可选地包括一个或多个质量值。在一些实施例中,候选文本项集合包括来自第一信息源的仿真陈述和来自第二信息源的统计。在一些实施例中,候选文本项集合包括以相应的不同书写风格书写的第一候选文本项和第二候选文本项。
分组模块506使用计算出的相关性得分和特征向量,将来自候选文本项集合的候选文本项分组为预定数量的候选文本项组。在一些实施例中,分组模块506通过确定MKP的解来对候选文本项进行分组,从而得到预定数量的候选文本项组。
训练模块508使用候选文本项组中的指定的候选文本项组来训练预训练的编码器-解码器模型。预训练的编码器-解码器模型被预训练以根据特定的书写风格来生成文本内容。文章生成模块510利用预训练的编码器-解码器模型生成特定书写风格的机器创作的文本内容,从而得到基于指定的候选文本项组的关于指定的子主题的文章。
在一些实施例中,训练模块508训练多个预训练的编码器-解码器,所述多个预训练的编码器-解码器是使用候选文本项组中的多个指定的候选文本项组中的相应候选文本项组来建模的。根据可能彼此不同的相应书写风格,所述多个预训练的编码器-解码器模型被预训练以生成文本内容。文章生成模块510利用多个预训练的编码器-解码器模型,生成相应书写风格的机器创作的文本内容,从而得到基于指定的候选文本项组的关于指定的(多个)子主题的多个文章。
文章发布模块512将(多个)文章发送到远程web服务器522,作为对由远程web服务器522所托管的网站的更新。在一些这样的实施例中,文章发布模块512将(多个)文章作为定制网页的更新传输到远程web服务器522,其中定制网页是为用户定制的。在一些这样的实施例中,存储器516存储由用户生成的指示用户对主题或子主题的情绪的用户生成内容。在一些实施例中,用户操作计算设备524经由用户管理接口514输入,从而例如通过回答调查问题、填写用户简档或其他过程来输入用户生成内容的至少一部分。在一些这样的实施例中,候选选择模块504基于用户对主题或子主题的情绪生成权重向量,并且分组模块506使用权重向量将候选文本项分组到候选文本项组中以调整特征向量的值。
参考图6,该图描述了根据说明性实施例的示例CAA系统600的框图。在特定实施例中,CAA系统是图1的应用105A/105B、图3A和3B的CAA系统302以及图4的CAA系统418的示例。
在一些实施例中,CAA系统600包括加载模块602、候选选择模块604、分组模块606、训练模块608、文章生成模块610、文章发布模块612、管理接口614、存储器616和处理器618、情绪分析模块626、掩蔽模块634、极性检测模块636和用户反馈模块638。在替代实施例中,CAA系统600可以包括这里描述的一些或全部功能,但是不同地分组为一个或多个模块。在一些实施例中,本文描述的功能分布在多个系统中,所述多个系统可以包括基于软件和/或硬件的系统(例如ASIC、计算机程序或智能电话应用)的组合。在一些实施例中,模块602-612、626以及634-638以及管理接口614是包括可由处理器618执行以使处理器618执行本文所述的操作的程序指令的软件模块。
在所示的实施例中,作为从一个或多个语料库620提取内容的一部分,加载模块602将多个数字内容数据集加载到存储器616中。多个数字内容数据集满足包括内容主题的查询语句,该多个数字内容数据集与该内容主题相关。
候选选择模块604使用针对每个候选文本项计算的相关性得分,基于每个候选文本项与一个或多个相应子主题的相关性,从多个数字内容数据集之中识别候选文本项的一个或多个集合。在一些实施例中,项是句子或短语。在一些实施例中,候选选择模块604通过利用一种或多种自然语言处理技术分析相应候选文本项的文本内容来计算相关性。在一些实施例中,候选选择模块604基于对候选文本项的分析,为每个候选文本项生成特征向量。在一些实施例中,极性检测模块636使用NLP来确定每个候选文本项的极性,并给出指示文章固执己见的程度的极性分数,并且还可以包括文章支持的问题的一方的指示。在一些实施例中,特征向量各自包括一个或多个相关性值以及可选地包括一个或多个质量值和极性得分。在一些实施例中,候选文本项集合包括来自第一信息源的仿真陈述和来自第二信息源的统计。在一些实施例中,候选文本项集合包括以相应的不同书写风格书写的第一候选文本项和第二候选文本项。
用户反馈模块638将用户生成的用户生成内容加载到存储器616中。作为确定用户对子主题的情绪的一部分,情绪分析模块626分析用户生成的内容,从而确定用户生成内容的极性。掩蔽模块634基于用户对子主题的情绪生成权重向量。
分组模块606使用计算出的相关性得分、权重向量和特征向量,将来自候选文本项集合的候选文本项分组到预定数量的候选文本项组中。在一些实施例中,分组模块606通过确定MKP的解来对候选文本项进行分组,从而得到预定数量的候选文本项组。
训练模块608使用候选文本项组中的指定的候选文本项组训练预训练的编码器-解码器模型。预训练的编码器-解码器模型被预训练以根据特定的书写风格来生成文本内容。文章生成模块610利用预训练的编码器-解码器模型生成特定书写风格的机器创作的文本内容,从而得到基于指定的候选文本项组的关于指定的子主题的文章。
在一些实施例中,训练模块608训练多个预训练的编码器-解码器,这些预训练的编码器-解码器是使用候选文本项组中的多个指定候选文本项组中的相应候选文本项组建模的。根据可能彼此不同的相应书写风格,所述多个预训练的编码器-解码器模型被预训练以生成文本内容。文章生成模块610利用多个预训练的编码器-解码器模型生成相应书写风格的机器创作的文本内容,从而得到基于指定的候选文本项组的关于指定的(多个)子主题的多个文章。
文章发布模块612经由可以包括因特网的网络628将(多个)文章作为用于在诸如智能电话或平板电脑的计算设备630上操作的应用的更新文章632发送到远程web服务器622。由远程web服务器622托管的网站。在一些这样的实施例中,文章发布模块612将(多个)文章作为定制网页的更新发送到远程web服务器622,其中定制网页是为用户定制的。在一些这样的实施例中,存储器616存储由用户生成的指示用户对主题或子主题的情绪的用户生成内容。在一些实施例中,用户操作计算设备624经由用户管理接口614输入,以例如通过回答调查问题、填写用户简档或其他过程来输入用户生成内容的至少一部分。在一些这样的实施例中,候选选择模块604基于用户对主题或子主题的情绪生成权重向量,并且分组模块606使用权重向量调整特征向量的值以将候选文本项分组到候选文本项组中。
参考图7,该图描绘了根据说明性实施例的用于认知聚合和创作的示例过程700的流程图。在一些实施例中,CAA系统302、CAA系统418、CAA系统500或CAA系统600执行过程700。
在实施例中,在框702处,作为从语料库提取内容的一部分,该过程将多个数字内容数据集加载到存储器中。该多个数字内容数据集满足包括内容主题的查询语句,该多个数字内容数据集与该内容主题相关。
接着,在框704,该过程使用为每个候选文本项计算的相关性得分,基于每个候选文本项与子主题的相关性,从多个数字内容数据集之中识别候选文本项集合。在一些实施例中,项是句子或短语。在一些实施例中,通过利用一种或多种自然语言处理技术分析相应候选文本项的文本内容来确定所计算的相关性得分。在一些实施例中,对候选文本项的文本内容的分析得到每个候选文本项的相应特征向量。在一些实施例中,特征向量各自包括相应的相关性值和相应的质量值。在一些实施例中,候选文本项集合包括来自第一信息源的仿真陈述和来自第二信息源的统计。在一些实施例中,候选文本项集合包括以相应的不同书写风格书写的第一候选文本项和第二候选文本项。
接着,在框706,作为在处理器中执行一组指令的结果,该过程使用计算的相关性得分和特征向量,将来自候选文本项集合的候选文本项分组为预定数量的候选文本项组。在一些实施例中,对候选文本项进行分组包括确定导致预定数量的候选文本项组的MKP的解。接着,在框708,该过程使用候选文本项组中的第一指定候选文本项组,训练第一预训练的编码器-解码器模型。预训练第一预训练的编码器-解码器模型以根据第一书写风格生成文本内容。接着,在框710,该过程利用第一预训练的编码器-解码器模型生成第一书写风格的机器创作的文本内容,从而得到基于第一指定候选文本项组的关于指定子主题的第一文章。接着,在框712,该过程使用候选文本项组中的第二指定候选文本项组,训练第二预训练的编码器-解码器模型。第二预训练的编码器-解码器模型被预训练以根据第二书写风格生成文本内容。接着,在框714,该过程利用第二预训练的编码器-解码器模型生成第二书写风格的机器创作的文本内容,从而得到基于第二指定候选文本项组的关于指定子主题的第二文章。
接下来,在框716处,该过程将第一文章和第二文章传输到远程web服务器作为由所述远程web服务器托管的网站的更新。在一些这样的实施例中,将第一文章和第二文章作为网站的更新而传输到远程web服务器包括将第一文章及第二文章作为定制网页的更新而传输,其中所述定制网页是针对用户而定制。在一些这样的实施例中,该过程包括将由用户生成的用户生成内容加载到存储器中,作为确定用户对主题的情绪的一部分,分析所选择的用户生成内容,从而确定所选择的用户生成内容的极性,以及基于所选择的用户生成内容与主题的相关性从用户生成内容中识别所选择的用户生成内容。在一些这样的实施例中,该过程包括基于用户对主题的情绪生成权重向量,其中将候选文本项分组为候选文本项组还包括使用权重向量来调整特征向量的值。
参考图8,该图描绘了根据说明性实施例的用于认知聚合和创作的示例过程800的流程图。在一些实施例中,CAA系统302、CAA系统418、CAA系统500或CAA系统600执行过程800。
在一个实施例中,在框802,该过程执行在多个语料库中搜索与指定主题相关的内容的查询过程。
接着,在框804,该过程使用为每个候选文本项计算的相关性得分,基于每个候选文本项与指定子主题的相关性,从自查询过程接收的搜索结果中提取候选文本项集合。通过使用一种或多种自然语言处理技术分析候选文本项的文本内容来确定所计算的相关性得分。对候选文本项的文本内容的分析产生每个候选文本项的相应特征向量。特征向量每个包括相应的相关性值和相应的质量值。
接下来,在框806,该过程将用户生成内容加载到存储器中。例如,在一些实施例中,该过程向用户发送反馈请求,该反馈请求包括对关于在与子主题相关的编辑文章中表达的意见的反馈的请求。可以邀请用户评论该意见或简单地指示他们同意还是不同意该意见。用户生成内容因此将包括响应于反馈请求从用户接收的反馈。在一些实施例中,用户生成内容可以包括用户响应于与子主题相关的帖子或文章而例如在新闻网站或社交媒体网站上张贴的一个或多个评论。在这样的实施例中,用户先前本已提供他们主动参与的这样的网站的列表,并且还本已指示他们同意选择加入以允许该过程访问先前由用户发布的这些评论。
接下来,在框808,该过程分析用户生成内容,以便确定用户生成内容的极性,该过程使用该极性来确定用户对指定的子主题的情绪。
接下来,在框810,该过程基于用户对指定子主题的情绪来生成权重向量。接着,在框812,该过程基于所计算的相关性得分、权重向量和特征向量将候选文本项分组为预定数量的组。
接着,在框814,该过程使用候选文本项组中的指定的候选文本项组训练预训练的编码器-解码器模型。接着,在框816,该过程利用预训练的编码器-解码器模型生成机器创作的文本内容,从而得到基于指定的候选文本项组的关于指定的子主题的文章。接下来,在框818,该过程将文章发送到远程web服务器,作为用于基于用户的情绪为用户个性化的内容显示的更新。
参考图9,该图是云计算环境950的说明。如图所示,云计算环境950包括云消费者使用的本地计算设备可以与其通信的一个或多个云计算节点910,所述本地计算设备例如为个人数字助理(PDA)或蜂窝电话954A、台式计算机954B、膝上型计算机954C和/或汽车计算机系统954N。节点910可以彼此通信。它们可以被物理地或虚拟地分组(未示出)在一个或多个网络中,诸如如上文描述的私有云、社区云、公共云或混合云或其组合。这允许云计算环境950提供云消费者不需要为其维护本地计算设备上的资源的基础设施、平台和/或软件即服务。应当理解,图9中所示的计算设备954A-N的类型仅旨在说明,并且计算节点910和云计算环境950可以通过任何类型的网络和/或网络可寻址连接(例如,使用web浏览器)与任何类型的计算机化设备通信。
参考图10,该图示出了由云计算环境950(图9)提供的一组功能抽象层。应当预先理解,图10中所示的组件、层和功能仅旨在说明,并且本发明的实施例不限于此。如所描绘的,提供了以下层和相应的功能:
硬件和软件层1060包括硬件和软件组件。硬件组件的示例包括:主机1061;基于精简指令集计算机(RISC)架构的服务器1062;服务器1063;刀片服务器1064;存储装置1065;以及网络和联网组件1066。在一些实施例中,软件组件包括网络应用服务器软件1067和数据库软件1068。
虚拟化层1070提供抽象层,从该抽象层可以提供虚拟实体的以下示例:虚拟服务器1071;虚拟存储器1072;虚拟网络1073,包括虚拟专用网络;虚拟应用和操作系统1074;以及虚拟客户端1075。
在一个示例中,管理层1080可以提供以下描述的功能。资源供应1081提供对被用来在云计算环境内执行任务的计算资源和其他资源的动态采购。计量和定价1082提供了在云计算环境中利用资源时的成本跟踪,以及用于消耗这些资源的记帐或发票。在一个示例中,这些资源可以包括应用软件许可证。安全性为云消费者和任务提供身份验证,以及为数据和其他资源提供保护。用户门户1083为消费者和系统管理员提供对云计算环境的访问。服务级别管理1084提供云计算资源分配和管理,使得满足所需的服务级别。服务水平协议(SLA)规划和履行1085提供对云计算资源的预安排和采购,其中根据SLA预期未来需求。
工作负载层1090提供了可以利用云计算环境的功能的示例。可以从该层提供的工作负载和功能的示例包括:地图绘制和导航1091;软件开发和生命周期管理1092;虚拟教室教育传送1093;数据分析处理1094;交易处理1095;以及需求驱动场所管理1096。
以下定义和缩写用于解释权利要求和说明书。如本文所用,术语“包含”、“包括”、“具有”、“含有”或其任何其它变型旨在涵盖非排他性的包括。例如,包括一系列要素的组合物、混合物、工艺、方法、制品或装置不一定仅限于那些要素,而是可以包括未明确列出的或此类组合物、混合物、工艺、方法、制品或装置固有的其他要素。
另外,术语“说明性”在本文中用于表示“充当实例、例子或说明”。在此描述为“说明性”的任何实施例或设计不一定被解释为比其它实施例或设计更优选或有利。术语“至少一个”和“一个或多个”应理解为包括大于或等于一的任何整数,即,一、二、三、四等。术语“多个”应理解为包括大于或等于二的任何整数,即,二、三、四、五等。术语“连接”可以包括间接“连接”和直接“连接”。
说明书中对“一个实施例”、“实施例”、“示例实施例”等的引用指示所描述的实施例可以包括特定特征、结构或特性,但是每个实施例可以包括或者可以不包括该特定特征、结构或特性。此外,这些短语不一定是指相同的实施例。此外,当结合实施例描述特定特征、结构或特性时,认为结合其它实施例来影响这种特征、结构或特性是在本领域技术人员的知识范围内的,而不管是否明确描述。
术语“约”、“基本上”、“大约”及其变体旨在包括与基于提交本申请时可用的设备的特定量的测量相关联的误差度。例如,“约”可以包括给定值的±8%或5%或2%的范围。
已经出于说明的目的给出了本发明的各种实施例的描述,但是其不旨在是穷尽的或限于所公开的实施例。在不背离所描述的实施例的范围和精神的情况下,许多修改和变化对于本领域的普通技术人员将是显而易见的。选择本文所使用的术语以最好地解释实施例的原理、实际应用或对市场上存在的技术改进,或使本领域的其他普通技术人员能够理解本文所描述的实施例。
已经出于说明的目的给出了本发明的各种实施例的描述,但是其不旨在是穷尽的或限于所公开的实施例。在不背离所描述的实施例的范围和精神的情况下,许多修改和变化对于本领域的普通技术人员将是显而易见的。选择本文所使用的术语以最好地解释实施例的原理、实际应用或对市场上存在的技术改进,或使本领域的其他普通技术人员能够理解本文所描述的实施例。
因此,在说明性实施例中提供了一种计算机实现的方法、系统或装置以及计算机程序产品,用于管理在线社区的参与以及其他相关特征、功能或操作。在关于一种类型的设备描述实施例或其一部分的情况下,计算机实现的方法、系统或装置、计算机程序产品或其一部分被适配或配置成与该类型的设备的适当且可比较的表现一起使用。
在描述了在应用中实现的实施例的情况下,在说明性实施例的范围内,可以设想以SaaS模型交付应用。在SaaS模型中,通过在云基础设施中执行应用,向用户提供实现实施例的应用的能力。用户可以通过诸如web浏览器(例如,基于web的电子邮件)或其他轻量客户端应用之类的瘦客户端接口使用各种客户端设备来访问应用。用户不管理或控制底层云基础设施,包括网络、服务器、操作系统或云基础设施的存储。在一些情况下,用户甚至可能不管理或控制SaaS应用的能力。在一些其它情况下,应用的SaaS实施方案可允许有限的用户特定应用配置设定的可能例外。
本发明可以是任何可能的技术细节集成水平的系统、方法和/或计算机程序产品。计算机程序产品可以包括其上具有计算机可读程序指令的计算机可读存储介质(或多个介质),所述计算机可读程序指令用于使处理器执行本发明的各方面。
计算机可读存储介质可以是能够保留和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质可以是例如但不限于电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或前述的任何合适的组合。计算机可读存储介质的更具体示例的非穷举列表包括以下:便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式CD-ROM、数字多功能盘(DVD)、记忆棒、软盘、诸如穿孔卡片或其上记录有指令的凹槽中的凸起结构的机械编码设备,以及上述的任何合适的组合。如本文所使用的计算机可读存储介质不应被解释为暂时性信号本身,诸如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如,通过光纤线缆的光脉冲)、或通过导线传输的电信号。
本文描述的计算机可读程序指令可以从计算机可读存储介质下载到相应的计算/处理设备,或者经由网络,例如因特网、局域网、广域网和/或无线网络,下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或网络接口从网络接收计算机可读程序指令,并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。
用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路的配置数据,或者以一种或多种编程语言(包括面向对象的编程语言,例如Smalltalk、C++等)和过程编程语言(例如“C”编程语言或类似的编程语言)的任意组合编写的源代码或目标代码。计算机可读程序指令可以完全在用户的计算机上执行,部分在用户的计算机上执行,作为独立的软件包执行,部分在用户的计算机上并且部分在远程计算机上执行,或者完全在远程计算机或服务器上执行。在后一种情况下,远程计算机可以通过任何类型的网络,包括LAN或WAN,连接到用户的计算机,或者可以连接到外部计算机(例如,使用因特网服务提供商通过因特网)。在一些实施例中,为了执行本发明的各方面,包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来执行计算机可读程序指令以使电子电路个性化。
在此参考根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明的各方面。将理解,流程图和/或框图的每个框以及流程图和/或框图中的框的组合可以由计算机可读程序指令来实现。
这些计算机可读程序指令可以被提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器以产生机器,使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现流程图和/或框图的一个或多个框中指定的功能/动作的装置。这些计算机可读程序指令还可以存储在计算机可读存储介质中,其可以引导计算机、可编程数据处理装置和/或其他设备以特定方式工作,使得其中存储有指令的计算机可读存储介质包括制品,该制品包括实现流程图和/或框图的一个或多个框中指定的功能/动作的各方面的指令。
计算机可读程序指令还可以被加载到计算机、其他可编程数据处理装置或其他设备上,以使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤,以产生计算机实现的过程,使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图的一个或多个框中指定的功能/动作。
附图中的流程图和框图示出了根据本发明的各种实施例的系统、方法和计算机程序产品的可能实现的架构、功能和操作。在这点上,流程图或框图中的每个框可以表示指令的模块、段或部分,其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些替代实施方案中,框中所注明的功能可不按图中所注明的次序发生。例如,连续示出的两个框实际上可以基本上同时执行,或者这些框有时可以以相反的顺序执行,这取决于所涉及的功能。还将注意,框图和/或流程图图示的每个框以及框图和/或流程图图示中的框的组合可以由执行指定功能或动作或执行专用硬件和计算机指令的组合的专用的基于硬件的系统来实现。
本发明的实施例还可以作为与客户公司、非盈利组织、政府实体、内部组织结构等的服务约定的一部分来交付。这些实施例的方面可以包括配置计算机系统以执行,以及部署实现本文描述的方法中的一些或全部的软件、硬件和web服务。这些实施例的方面还可以包括分析客户的操作、响应于分析创建推荐、构建实现推荐的部分的系统、将系统集成到现有过程和基础设施中、计量系统的使用、向系统的用户分配费用以及为系统的使用计费。尽管已经通过分别陈述它们各自的优点描述了本发明的上述实施例,但是本发明不限于其特定组合。相反,根据本发明的预期部署,这些实施例还可以以任何方式和数量组合,而不会失去其有益效果。
Claims (25)
1.一种计算机实现的方法,包括:
作为从语料库提取内容的一部分,将多个数字内容数据集加载到存储器中,其中所述多个数字内容数据集满足查询语句,所述查询语句包括所述多个数字内容数据集与之相关的内容主题;
使用针对每个候选文本项计算的相关性得分,基于每个候选文本项与子主题的相关性,从所述多个数字内容数据集之中识别候选文本项集合,其中所计算的相关性得分是通过利用一种或多种自然语言处理技术分析相应候选文本项的文本内容来确定的,
其中对所述候选文本项集合的文本内容的分析得到每个候选文本项的相应特征向量,
其中所述特征向量每个包括相应的相关性值和相应的质量值;
作为在处理器中执行一组指令的结果,使用所计算的相关性得分和特征向量,将来自所述候选文本项集合的候选文本项分组到预定数量的候选文本项组中;
使用候选文本项组中的第一指定候选文本项组来训练第一预训练的编码器-解码器模型,其中第一预训练的编码器-解码器模型被预训练以根据第一书写风格来生成文本内容;
利用第一预训练的编码器-解码器模型生成第一书写风格的机器创作的文本内容,从而得到基于第一指定候选文本项组的关于所述子主题的第一文章;
使用候选文本项组中的第二指定候选文本项组来训练第二预训练的编码器-解码器模型,其中第二预训练的编码器-解码器模型被预训练以根据第二书写风格来生成文本内容;
利用第二预训练的编码器-解码器模型生成第二书写风格的机器创作的文本内容,从而得到基于第二指定候选文本项组的关于所述子主题的第二文章;以及
将第一文章和第二文章作为由远程web服务器托管的网站的更新传输到所述远程web服务器。
2.根据权利要求1所述的计算机实现的方法,其中所述候选文本项集合包括来自第一信息源的仿真陈述和来自第二信息源的统计。
3.根据前述权利要求中任一项所述的计算机实现的方法,其中所述候选文本项集合包括以相应的不同书写风格书写的第一候选文本项和第二候选文本项。
4.根据前述权利要求中任一项的计算机实现方法,其中候选文本项的分组包括确定导致所述预定数量的候选文本项组的多重背包问题的解。
5.根据前述权利要求中任一权利要求所述的计算机实施的方法,其中将第一文章和第二文章作为所述网站的更新而传输到所述远程web服务器包括将第一文章和第二文章作为定制网页的更新传输,其中所述定制网页是针对用户定制的。
6.根据权利要求5所述的计算机实现的方法,还包括:
将用户生成的用户生成内容加载到存储器中;以及
基于所选择的用户生成内容与所述主题的相关性,从所述用户生成内容中识别所选择的用户生成内容。
7.根据权利要求6所述的计算机实现的方法,还包括:
作为确定所述用户对所述主题的情绪的一部分,分析所选择的用户生成内容,从而确定所选择的用户生成内容的极性。
8.根据权利要求7所述的计算机实现的方法,还包括:
基于所述用户对所述主题的所述情绪生成权重向量,
其中将候选文本项分组为候选文本项组还包括使用所述权重向量来调整所述特征向量的值。
9.根据前述权利要求中任一项所述的计算机实现的方法,其中所述候选文本项集合包括句子。
10.一种计算机程序产品,包括一个或多个计算机可读存储介质以及共同存储在所述一个或多个计算机可读存储介质上的程序指令,所述程序指令可由处理器执行以使所述处理器执行操作,所述操作包括:
作为从语料库提取内容的一部分,将多个数字内容数据集加载到存储器中,其中所述多个数字内容数据集满足查询语句,所述查询语句包括所述多个数字内容数据集与之相关的内容主题;
使用针对每个候选文本项计算的相关性得分,基于每个候选文本项与子主题的相关性,从所述多个数字内容数据集之中识别候选文本项集合,其中所计算的相关性得分是通过利用一种或多种自然语言处理技术分析相应候选文本项的文本内容来确定的,
其中对所述候选文本项的文本内容的分析产生每个候选文本项的相应特征向量,
其中所述特征向量每个包括相应的相关性值和相应的质量值;
作为在处理器中执行一组指令的结果,使用所计算的相关性得分和特征向量,将来自所述候选文本项集合的候选文本项分组到预定数量的候选文本项组中;
使用候选文本项组中的第一指定候选文本项组来训练第一预训练的编码器-解码器模型,其中第一预训练的编码器-解码器模型被预训练以根据第一书写风格来生成文本内容;
利用第一预训练的编码器-解码器模型生成第一书写风格的机器创作的文本内容,从而得到基于第一指定候选文本项组的关于所述子主题的第一文章;
使用候选文本项组中的第二指定候选文本项组来训练第二预训练的编码器-解码器模型,其中第二预训练的编码器-解码器模型被预训练以根据第二书写风格来生成文本内容;
利用第二预训练的编码器-解码器模型生成第二书写风格的机器创作的文本内容,从而得到基于第二指定候选文本项组的关于所述子主题的第二文章;以及
将第一文章和第二文章作为由远程web服务器托管的网站的更新而传输到所述远程web服务器。
11.根据权利要求10所述的计算机程序产品,其中所存储的程序指令被存储在数据处理系统中的计算机可读存储设备中,并且其中所存储的程序指令通过网络从远程数据处理系统被传送。
12.根据权利要求10至11中任一项所述的计算机程序产品,其中所存储的程序指令被存储在服务器数据处理系统中的计算机可读存储设备中,并且其中所存储的程序指令响应于请求而通过网络被下载到远程数据处理系统,以在与所述远程数据处理系统相关联的计算机可读存储设备中使用,所述计算机程序产品还包括:
计量与所述请求相关联的所述程序指令的使用的程序指令;以及
用于基于所计量的使用来生成发票的程序指令。
13.根据权利要求10至12中任一项所述的计算机程序产品,其中所述候选文本项集合包括来自第一信息源的仿真陈述和来自第二信息源的统计。
14.根据权利要求10至13中任一项所述的计算机程序产品,其中所述候选文本项集合包括以相应的不同书写风格书写的第一候选文本项和第二候选文本项。
15.根据权利要求10到14中任一项所述的计算机程序产品,其中候选文本项的所述分组包括确定导致所述预定数量的候选文本项组的多重背包问题的解。
16.根据权利要求10至15中任一项所述的计算机程序产品,其中将第一文章和第二文章作为所述网站的更新发送至所述远程web服务器包括将第一文章和第二文章作为针对定制网页的更新进行发送,其中所述定制网页是针对用户定制的。
17.一种计算机系统,包括处理器和一个或多个计算机可读存储介质、以及共同存储在所述一个或多个计算机可读存储介质上的程序指令,所述程序指令可由所述处理器执行以使所述处理器执行操作,所述操作包括:
作为从语料库提取内容的一部分,将多个数字内容数据集加载到存储器中,其中所述多个数字内容数据集满足查询语句,所述查询语句包括所述多个数字内容数据集与之相关的内容主题;
使用针对每个候选文本项计算的相关性得分,基于每个候选文本项与子主题的相关性,从所述多个数字内容数据集之中识别候选文本项集合,其中所计算的相关性得分是通过利用一种或多种自然语言处理技术分析相应候选文本项的文本内容来确定的,
其中对所述候选文本项的文本内容的分析产生每个候选文本项的相应特征向量,
其中所述特征向量每个包括相应的相关性值和相应的质量值;
作为在处理器中执行一组指令的结果,使用所计算的相关性得分和特征向量,将来自所述候选文本项集合的候选文本项分组到预定数量的候选文本项组中;
使用候选文本项组中的第一指定候选文本项组来训练第一预训练的编码器-解码器模型,其中第一预训练的编码器-解码器模型被预训练以根据第一书写风格来生成文本内容;
利用第一预训练的编码器-解码器模型生成第一书写风格的机器创作的文本内容,从而得到基于第一指定候选文本项组的关于所述子主题的第一文章;
使用候选文本项组中的第二指定候选文本项组来训练第二预训练的编码器-解码器模型,其中第二预训练的编码器-解码器模型被预训练以根据第二书写风格来生成文本内容;
利用第二预训练的编码器-解码器模型生成第二书写风格的机器创作的文本内容,从而得到基于第二指定候选文本项组的关于所述子主题的第二文章;以及
将第一文章和第二文章作为针对由远程web服务器托管的网站的更新而传输到所述远程web服务器。
18.根据权利要求17的计算机系统,其中所述候选文本项集合包括来自第一信息源的仿真陈述和来自第二信息源的统计。
19.根据权利要求17至18中任一项所述的计算机系统,其中所述候选文本项集合包括以相应的不同书写风格书写的第一候选文本项和第二候选文本项。
20.根据权利要求17到19中任一项所述的计算机系统,其中候选文本项的所述分组包括确定导致预定数量的候选文本项组的多重背包问题的解。
21.一种计算机实现的方法,包括:
执行查询过程,所述查询过程在多个语料库中搜索与指定主题相关的内容;
使用针对每个候选文本项计算的相关性得分,基于每个候选文本项与子主题的相关性,从接收自所述查询过程的搜索结果中提取候选文本项集合,其中所计算的相关性得分是通过利用一种或多种自然语言处理技术分析相应候选文本项的文本内容来确定的,
其中对所述候选文本项的文本内容的分析产生每个候选文本项的相应特征向量,
其中所述特征向量每个包括相应的相关性值和相应的质量值;
将用户生成的用户生成内容加载到存储器中;
作为确定所述用户对所述子主题的情绪的一部分,分析所述用户生成内容,从而确定所述用户生成内容的极性;
基于所述用户对所述子主题的所述情绪生成权重向量;
作为在处理器中执行一组指令的结果,使用所计算的相关性得分、权重向量和特征向量,将来自所述候选文本项集合的候选文本项分组到预定数量的候选文本项组中;
使用候选文本项组中的指定候选文本项组来训练预训练的编码器-解码器模型;
利用所述预训练的编码器-解码器模型生成机器创作的文本内容,从而得到基于所述指定候选文本项组的关于所述子主题的文章;以及
将所述文章作为针对内容显示的更新而发送到远程web服务器,所述内容显示基于所述用户的所述情绪而针对所述用户被个性化。
22.根据权利要求21所述的计算机实现的方法,还包括向所述用户发送反馈请求,其中所述反馈请求包括对来自所述用户的关于与所述子主题相关的意见的反馈的请求,其中所述用户生成内容包括响应于所述反馈请求而从所述用户接收的反馈。
23.根据权利要求21至22中任一项所述的计算机实现的方法,其中所述用户生成内容包括由所述用户响应于与所述子主题相关的文章而张贴的评论。
24.一种计算机程序产品,包括一个或多个计算机可读存储介质以及共同存储在所述一个或多个计算机可读存储介质上的程序指令,所述程序指令可由处理器执行以使所述处理器执行操作,所述操作包括:
执行查询过程,所述查询过程在多个语料库中搜索与指定主题相关的内容;
使用针对每个候选文本项计算的相关性得分,基于每个候选文本项与子主题的相关性,从接收自所述查询过程的搜索结果中提取候选文本项集合,其中所计算的相关性得分是通过利用一种或多种自然语言处理技术分析相应候选文本项的文本内容来确定的,
其中对所述候选文本项的文本内容的分析产生每个候选文本项的相应特征向量,
其中所述特征向量每个包括相应的相关性值和相应的质量值;
将用户生成的用户生成内容加载到存储器中;
作为确定所述用户对所述子主题的情绪的一部分,分析所述用户生成内容,从而确定所述用户生成内容的极性;
基于所述用户对所述子主题的所述情绪生成权重向量;
作为在处理器中执行一组指令的结果,使用所计算的相关性得分、权重向量和特征向量,将来自所述候选文本项集合的候选文本项分组到预定数量的候选文本项组中;
使用候选文本项组中的指定候选文本项组来训练预训练的编码器-解码器模型;
利用所述预训练的编码器-解码器模型生成机器创作的文本内容,从而得到基于所述指定候选文本项组的关于所述子主题的文章;以及
将所述文章作为针对内容显示的更新而发送到远程web服务器,所述内容显示基于所述用户的所述情绪而针对所述用户被个性化。
25.根据权利要求24所述的计算机程序产品,还包括可由所述处理器执行以使所述处理器执行操作的程序指令,所述操作包括:
向所述用户发送反馈请求,其中所述反馈请求包括对来自所述用户的关于与所述子主题相关的意见的反馈的请求,
其中所述用户生成内容包括响应于所述反馈请求而从所述用户接收的反馈。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/372,702 | 2021-07-12 | ||
US17/372,702 US11475211B1 (en) | 2021-07-12 | 2021-07-12 | Elucidated natural language artifact recombination with contextual awareness |
PCT/EP2022/069202 WO2023285327A1 (en) | 2021-07-12 | 2022-07-08 | Elucidated natural language artifact recombination with contextual awareness |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117651950A true CN117651950A (zh) | 2024-03-05 |
Family
ID=82799798
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202280049066.2A Pending CN117651950A (zh) | 2021-07-12 | 2022-07-08 | 具有上下文感知的经阐明的自然语言人工产物重组 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11475211B1 (zh) |
CN (1) | CN117651950A (zh) |
WO (1) | WO2023285327A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116610872B (zh) * | 2023-07-19 | 2024-02-20 | 深圳须弥云图空间科技有限公司 | 新闻推荐模型的训练方法及装置 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100241698A1 (en) | 2009-03-18 | 2010-09-23 | Talk3, Inc. | Methods and systems for auto-generating models of networks for network management purposes |
US20120137367A1 (en) | 2009-11-06 | 2012-05-31 | Cataphora, Inc. | Continuous anomaly detection based on behavior modeling and heterogeneous information analysis |
US11507064B2 (en) | 2016-05-09 | 2022-11-22 | Strong Force Iot Portfolio 2016, Llc | Methods and systems for industrial internet of things data collection in downstream oil and gas environment |
US10579725B2 (en) * | 2017-03-15 | 2020-03-03 | International Business Machines Corporation | Automated document authoring assistant through cognitive computing |
US10534847B2 (en) * | 2017-03-27 | 2020-01-14 | Microsoft Technology Licensing, Llc | Automatically generating documents |
CN106970898A (zh) * | 2017-03-31 | 2017-07-21 | 百度在线网络技术(北京)有限公司 | 用于生成文章的方法和装置 |
US10380259B2 (en) * | 2017-05-22 | 2019-08-13 | International Business Machines Corporation | Deep embedding for natural language content based on semantic dependencies |
NZ759818A (en) | 2017-10-16 | 2022-04-29 | Illumina Inc | Semi-supervised learning for training an ensemble of deep convolutional neural networks |
US11074303B2 (en) * | 2018-05-21 | 2021-07-27 | Hcl Technologies Limited | System and method for automatically summarizing documents pertaining to a predefined domain |
US11347752B2 (en) * | 2018-07-23 | 2022-05-31 | Apple Inc. | Personalized user feed based on monitored activities |
CN111428508A (zh) * | 2018-12-24 | 2020-07-17 | 微软技术许可有限责任公司 | 风格可定制的文本生成 |
US10977439B2 (en) * | 2019-04-01 | 2021-04-13 | International Business Machines Corporation | Controllable style-based text transformation |
EP3734471A1 (en) | 2019-04-30 | 2020-11-04 | Tata Consultancy Services Limited | Method and system for utilizing domain knowledge to automatically identify solution to a problem |
CA3231830A1 (en) * | 2019-08-05 | 2021-02-11 | Ai21 Labs | Systems and methods of controllable natural language generation |
US11741306B2 (en) * | 2019-12-18 | 2023-08-29 | Microsoft Technology Licensing, Llc | Controllable grounded text generation |
-
2021
- 2021-07-12 US US17/372,702 patent/US11475211B1/en active Active
-
2022
- 2022-07-08 CN CN202280049066.2A patent/CN117651950A/zh active Pending
- 2022-07-08 WO PCT/EP2022/069202 patent/WO2023285327A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
US11475211B1 (en) | 2022-10-18 |
WO2023285327A1 (en) | 2023-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Qi et al. | Finding all you need: web APIs recommendation in web of things through keywords search | |
CN110692050B (zh) | 语义图中元关系的自适应评估 | |
US11049149B2 (en) | Determination of targeted food recommendation | |
US11216509B2 (en) | Dynamic faceting for personalized search and discovery | |
US11636376B2 (en) | Active learning for concept disambiguation | |
US10824806B2 (en) | Counterintuitive recommendations based upon temporary conditions | |
US11308540B2 (en) | Real time recommendation engine | |
US10354006B2 (en) | System, method, and recording medium for web application programming interface recommendation with consumer provided content | |
US11276099B2 (en) | Multi-perceptual similarity detection and resolution | |
US20210287102A1 (en) | Interpretable knowledge contextualization by re-weighting knowledge graphs | |
US20200285636A1 (en) | Context-sensitive cross-lingual searches | |
US11250219B2 (en) | Cognitive natural language generation with style model | |
US11250204B2 (en) | Context-aware knowledge base system | |
US11681876B2 (en) | Cascaded fact-based summarization | |
US20230100501A1 (en) | Dynamically generated knowledge graphs | |
US11275777B2 (en) | Methods and systems for generating timelines for entities | |
US11614934B1 (en) | Monolithic computer application refactoring | |
CN117651950A (zh) | 具有上下文感知的经阐明的自然语言人工产物重组 | |
US11379504B2 (en) | Indexing and mining content of multiple data sources | |
US11120014B2 (en) | Enhanced search construction and deployment | |
US20220004718A1 (en) | Ontology-Driven Conversational Interface for Data Analysis | |
US20240054282A1 (en) | Elucidated natural language artifact recombination with contextual awareness | |
JP2023508599A (ja) | 会話型エージェント・システム、方法、プログラム | |
CN115552389A (zh) | 用于自然语言处理的概念歧义消除 | |
Li et al. | The media-oriented cross domain recommendation method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |