CN110795929A - 生成用于概括对话文件的标题的系统和方法 - Google Patents

生成用于概括对话文件的标题的系统和方法 Download PDF

Info

Publication number
CN110795929A
CN110795929A CN201910167062.4A CN201910167062A CN110795929A CN 110795929 A CN110795929 A CN 110795929A CN 201910167062 A CN201910167062 A CN 201910167062A CN 110795929 A CN110795929 A CN 110795929A
Authority
CN
China
Prior art keywords
data set
neural network
domain
title
files
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201910167062.4A
Other languages
English (en)
Inventor
弗朗辛·陈
赵健
Y·Y·陈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Publication of CN110795929A publication Critical patent/CN110795929A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Business, Economics & Management (AREA)
  • Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

提供了生成用于概括对话文件的标题的系统和方法。该方法包括以下步骤:接收多个文件,各文件具有关联内容特征;向多个文件中的各文件应用标题生成计算机模型,以基于关联内容特征生成标题;将所生成的标题附加到多个文件中的各文件,其中,标题生成计算机模型是通过使用以下内容的组合训练神经网络来创建的:来自与多个文件的内容特征有关的第一域的第一未标记数据集;和来自与第一域不同的第二域的第二预标记数据集。

Description

生成用于概括对话文件的标题的系统和方法
技术领域
本公开涉及内容概括,更具体地,涉及用于通过基于所提取的内容特征自动生成标题来自动概括内容的系统和方法。
背景技术
存在数量不断增加的可用于人们的文本信息。通常,文本信息可能是杂乱无章的,并且可能难以确定如何优先考虑要看什么。进一步地,诸如关于企业聊天的对话和帖子这样的许多类型的文本内容,不具有可以容易地组织或优先化信息的标题或概括。例如,存在可用于企业的雇员的信息洪流。代替花费时间筛选洪流,雇员时间可以更佳地花费在其他任务上。
提高浏览效率的一种方法是以紧凑形式呈现信息,诸如使用标题并递增地揭示仅作为用户表示感兴趣的信息。然而,自动创建这种标题或概要的现有技术方法可能遇到允许自动化系统的训练的、文本的足够尺寸集和对应标题的缺乏。
进一步地,获得良好质量的已标记数据可能困难且昂贵。在一些情况下,可能优选的是标题应由作者来生成,以表达作者的观点,而不是由读者来生成。一些现有技术方法已经尝试用作者生成的标题对来自另一个域的数据进行训练,但由于域之间的不同,性能可能不足。这些不同包括:表达类似概念的不同词汇、不同语法风格以及不同方式。在本申请中,解决跨域训练模型的这些不同可以提高性能。
发明内容
本申请的方面可以涉及一种生成存储平台中的文件的标题的方法。该方法包括以下步骤:接收多个文件,各文件具有关联内容特征;向多个文件中的各文件应用标题生成计算机模型,以基于关联内容特征生成标题;将所生成的标题附加到多个文件中的各文件,其中,标题生成计算机模型是通过使用以下内容的组合训练神经网络来创建的:来自与多个文件的内容特征有关的第一域的第一未标记数据集;和来自与第一域不同的第二域的第二预标记数据集。
本申请的另外方面可以涉及一种存储有以下程序的非暂时计算机可读介质,该程序用于使得计算机执行生成存储平台中的文件的标题的方法。该方法包括以下步骤:接收多个文件,各文件具有关联的内容特征;向多个文件中的各文件应用标题生成计算机模型,以基于关联内容特征生成标题;将所生成的标题附加到多个文件中的各文件,其中,标题生成计算机模型是通过使用以下内容的组合训练神经网络来创建的:来自与多个文件的内容特征有关的第一域的第一未标记数据集;和来自与第一域不同的第二域的第二预标记数据集。
本申请的另外方面涉及一种计算装置,该计算装置包括:存储器,该存储器存储多个文件;和处理器,该处理器被配置为执行生成多个文件的标题的方法。该方法包括以下步骤:接收多个文件,各文件具有关联内容特征;向多个文件中的各文件应用标题生成计算机模型,以基于关联内容特征生成标题;将所生成的标题附加到多个文件中的每一个,其中,标题生成计算机模型是通过使用以下内容的组合训练神经网络来创建的:来自与多个文件的内容特征有关的第一域的第一未标记数据集;和来自与第一域不同的第二域的第二预标记数据集。
本申请的又一些方面涉及一种计算机设备,该计算机设备被配置为执行生成多个文件的标题的方法。计算机设备包括:如下装置,该装置用于接收多个文件,各文件具有关联的内容特征;如下装置,该装置用于向多个文件中的各文件应用标题生成计算机模型,以基于关联内容特征生成标题;如下装置,该装置用于将所生成的标题附加到多个文件中的每一个,其中,标题生成计算机模型是通过使用以下内容的组合训练神经网络来创建的:来自与多个文件的内容特征有关的第一域的第一未标记数据集;和来自与第一域不同的第二域的第二预标记数据集。
附图说明
本专利或申请文件包含着色执行的至少一个附图。具有颜色附图的该专利或专利申请公报的副本在请求并支付必要费用时将由专利局提供。
图1例示了用自动生成的标题浏览并可视化文件集的处理100的流程图。
图2例示了训练用于生成在存储平台中存储的文件的标题的标题生成计算机模型的处理200的流程图。
图3例示了根据本申请的示例实施方案的、可以用于显示文件310a至310d的用户界面(UI)300。
图4例示了根据本申请的示例实施方案的、可以用于显示文件310a至310d的另一个用户界面(UI)400。
图5例示了根据本申请的示例实施方案的神经网络模型500的示意图。
图6提供了涉及本申请的示例实施方案的一个实验的结果的图。
图7提供了涉及本申请的示例实施方案的第二实验的结果的图。
图8例示了具有适于用于本申请的一些示例实施方案中的示例计算机装置的示例计算环境。
具体实施方式
以下详细描述提供了本申请的附图和示例实施方案的另外细节。为了清楚起见,省略附图之间的冗余元件的附图标记和描述。贯穿说明书使用的术语作为示例来提供,且不旨在进行限制。例如,术语“自动的”的使用,取决于实践本申请的实施方案的本领域普通技术人员的期望实施方案而可以涉及完全自动或半自动实施方案,这些实施方案涉及在实施方案的特定方面上的用户或操作员控制。进一步地,诸如“第一”、“第二”、“第三”等的顺序术语在说明书和权利要求中简单地用于标记目的,并且不应限于指按所述顺序发生的所述动作或项目。在不偏离本申请的范围的情况下,这些动作或项目可以被排序为不同的顺序,或者可以并行或动态执行。
在本申请中,术语“文件”、“消息”、“文本”或“通信”可以可交换地用于描述报告、文章、书籍、陈述、电子邮件、短媒体服务(SMS)消息、博客帖子、社交媒体帖子,或可以被产生、创作、接收、发送或存储的任意其他文本表示中的一个或更多个。“文件”、“消息”、“文本”或“通信”可以使用计算装置来起草、创建、创作或以其他方式生成,该计算装置诸如为膝上型电脑、台式电脑、平板电脑、智能电话、或可以对本领域普通技术人员明显的任意其他装置。“文件”、“消息”、“文本”或“通信”可以作为数据文件或其他数据结构存储在计算机可读介质上,计算机可读介质包括但不限于:磁存储装置、光存储装置、固态存储装置、有机存储装置或可以对本领域普通技术人员明显地任意其他存储装置。进一步地,计算机可读介质可以包括本地存储装置、基于云的存储装置、位于远程的服务器、或可以对本领域普通技术人员而言是明显的任意其他存储装置。
进一步地,在本申请中,术语“标题”、“说明文字”、“文本概要”可以全部可交换地用来表示基于描述性文本的概要,该概要可以表示所述“文件”、“消息”、“文本”或“通信”中的一个或更多个的内容。
为了克服现有技术的上面讨论的问题,本申请的示例实施方案可以将解决源和目标域中的不同词汇的词汇扩展、捕捉两个域的语法风格的用于未标记文件的合成标题、以及将输入文本的嵌入概念表示,合并在编码器解码器模型中的域适应的组合用于概要生成。另外,示例实施方案还可以提供一种呈现概要信息的用户界面,该概要信息首先将间接版本呈现为然后可以由用户扩展的标题。
图1例示了用自动生成的标题浏览并可视化文件集的处理100的流程图。处理100可以由计算环境中的计算装置来执行,诸如下面讨论的图8所例示的示例计算环境800的示例计算装置805。虽然处理100的元素可以按特定顺序来例示,但示例实施方案不限于所例示的特定顺序。在不偏离本申请的范围的情况下,示例实施方案可以包括被排序成如可以对本领域普通技术人员明显的不同顺序的动作,或可以并行或动态执行的动作。
如图1例示,在105处由系统生成、存储、或接收多个文件。所述多个文件中的每一个可以包括可以使用识别技术提取的一个或更多个内容特征。例如,可以使用文本识别来从文件提取词。在一些示例实施方案中,还可以使用图像识别技术来从文件提取表示图像的数据。在一些示例性实施方案中,文件可以是在研究数据库中存储的文章或论文。在其他示例实施方案中,文件可以是聊天消息、即时消息、留言板帖子、或可以对本领域普通技术人员明显的任意其他类型的文件。在一些示例实施方案中,可以执行梳理处理(detanglingprocess)来基于内容特征分离消息的主线(thread)。
在110处,向各个文件应用标题生成计算机模型,以生成标题或其他简短的概要。标题生成模型可以是以下的神经网络,该神经网络被配置为使用从各文件提取的内容特征来基于之前的训练生成标题或简短概要。下面参照图5更详细地讨论神经网络架构。参照图2更详细地讨论神经网络的训练。
在对于各个文件生成标题或简短概要之后,在120处向用户界面控制器提供文件和标题。用户界面控制器在125处基于标题或简短概要,生成包括文件中的一个或更多个的用户界面(UI)显示。下面参照图3和图4更详细地讨论UI的示例实施方案。
在显示UI之后,用户可以在130处进行交互或提供控制指令。例如,用户可以提供搜索请求或选择一个或更多个所显示的文件。130处的用户指令被反馈至120处的UI控制器,并且在125处生成新显示。再次,下面参照图3和图4更详细地讨论UI的示例实施方案。UI可以通过按需重复120至130来连续更新。
图2例示了训练用于生成在存储平台中存储的文件的标题的标题生成计算机模型的处理200的流程图。处理200可以由计算环境中的计算装置来执行,诸如下面讨论的图8所例示的示例计算环境800的示例计算装置805。虽然处理200的元素可以按特定顺序来例示,但示例实施方案不限于所例示的特定顺序。在不偏离本申请的范围的情况下,示例实施方案可以包括被排序成如可以对本领域普通技术人员明显的不同顺序的动作,或可以并行或动态执行的动作。
如图2例示,标题生成计算机模型的训练涉及使用两个训练数据集。在一些示例实施方案中,第一训练数据集205是来自第一(目标)域的未标记数据,并且第二训练数据集210是来自第二(源)域的预标记数据。例如,训练数据集205可以是发到具有朝向企业相关域的偏向的内部公司聊天或消息传递平台的未标记帖子,并且训练数据集210可以是被张贴到提供大众兴趣故事的新闻平台(大众兴趣域)的已标记文章或故事。
在215处,可以组合从第一训练数据集205和从第二训练数据集210提取的词汇,以产生单个词汇。换言之,为了处理词汇的不同,对已标记数据(源)210和未标记数据(目标)域的词汇进行组合。例如,来自各域(例如,第一训练数据集205的域和第二训练数据集210的域)的训练数据的50k最频繁术语的并集,由于两个数据集之间的公共术语的重复而可以产生大约85k术语的词汇。
进一步地,未标记(目标)数据的语法结构可以与已标记(源)数据不同。例如,发到内部公司聊天的未标记帖子的语法可以比新闻文章更非正式。为了捕捉目标数据的语法,合成标题。例如,为了捕捉未标记数据集(目标数据集)205的语法结构,可以在220处通过选择具有在最小数量的词与最大数量的词之间的句子长度的帖子的第一句子,来生成“合成”或初步标题。例如,可以使用4个词的最小值和12个词的最大值。在其他示例实施方案中,可以使用其他最小值和最大值。这样,可以在来自目标域的文本上对神经网络的编码器和解码器这两者训练,但标题通常会错误。在一些示例实施方案中,用晚10%时间的“标题”(例如,在文件中更晚发生)来代替来自第一句子的所选“标题”,以使得任务对于解码器而言更困难。在一些示例实施方案中,对于分类器,使用合成数据来训练解码器(或语法),而不是编码器。
在225处,首先使用用于未标记目标域的“合成”或初步标题集来训练神经网络,以使用来自215的组合扩展词汇来开发模型。在一些示例实施方案中,可以使用序列到序列编码器解码器模型来生成标题。在一些示例实施方案中,可以不包括模型的覆盖范围部分,以帮助避免词的重复。由编码器生成的嵌入表示可以对于各域不同。
由此,在230处,然后可以将对抗域适应(ADA:adversarial domain adaptation)用于对准用于不同域的嵌入表示,来使训练模型的嵌入空间适应源域。例如,可以采用分类器,通过将梯度的负数反馈给特征提取器来迫使嵌入式特征表示对准。换言之,嵌入可以被当作“特征”,并且可以在反向传播期间改变来自分类器的梯度,使得负值被反馈给编码器,这促进嵌入式表示跨不同域对准。下面讨论的图5示出了根据示例实施方案的、具有域适应的编码器解码器模型。
在定义了联合嵌入空间的情况下,在235处在具有标题文本对的源域上重新训练模型,并且将未标记目标域用作用于辅助分类任务的辅助适应数据,以保持模型嵌入与目标数据对准。例如,可以将已标记数据反馈到编码器,并且解码器学习生成标题。同时,还将未标记数据反馈到编码器,并且分类器尝试学习区分来自两个域的数据。
在235处重新训练之后,如果需要更高准确度,则可以在240处使用有限数量的已标记目标数据来微调模型,并且在245处生成标题生成计算机模型。在生成标题生成计算机模型之后,处理200结束。
图3例示了根据本申请的示例实施方案的、可以用于显示文件310a至310d的用户界面(UI)300。UI 300可以显示在以下显示装置上,该显示装置包括但不限于:计算机监视器、TV、移动装置的触摸屏显示器、膝上型显示屏、或可以是对本领域普通技术人员明显的任意其他显示装置。在UI 300中,文件310a至310d被例示为消息传递平台上的聊天消息或即时消息。然而,其他类型的文件可以用作UI 300的一部分。
如图例示,UI 300包括与聊天平台的单独用户关联的多个用户图标305a至305f。UI 300还包括搜索栏或其他控制界面315。在终端用户在搜索栏中发起搜索(例如,“webprogramming(网络编程)”)之后,显示结果(文件310a至310d)的列表,相关用户图标305a至305f在左边,并且文件310a至310d在右边(图3)。用户被示出为用户图标305a至305f,并且文件310a至310d被示出为具有概括对应内容的所生成标题的文本片段。在各文件310a至310d上还可以表示诸如通道名称和时间跨度这样的一些元数据信息。用户与对话之间的关系(例如,谁涉及在哪一个对话中)被表示为中间部分中的链路(由虚线框330强调)。
另外,UI 300还包括可以用于由各种准则(例如,相关性、时间、以及按字母顺序)重新排序用户图标305a至305f或对话310a至310d的控制链路320和325。进一步地,终端用户可以通过点击“...”按钮335a至335d中的一个来扩展特定对话,这些按钮逐渐揭示在这些对话内的单独消息(在下面讨论的图4中例示)。
图4例示了根据本申请的示例实施方案的、可以用于显示文件310a至310d的另一个用户界面(UI)400。UI 400可以具有与上面参照图3讨论的特征类似的特征,并且类似的附图标记可以用于类似的特征。再次,UI 400可以显示在以下显示装置上,该显示装置包括但不限于:计算机监视器、TV、移动装置的触摸屏显示器、膝上型显示屏、或可以为对本领域普通技术人员明显的任意其他显示装置。在UI 400中,文件310a至310d被例示为消息传递平台上的聊天消息或即时消息。然而,其他类型的文件可以用作UI 400的一部分。
再次,UI 400包括与聊天平台的单独用户关联的多个用户图标305a至305f。UI400还包括搜索栏或其他控制界面315。在终端用户在搜索栏中发起搜索(例如,“网络编程”)之后,显示结果(文件310a至310d)的列表,相关用户图标305a至305f在左边,并且文件310a至310d在右边。用户被示出为用户图标305a至305f,并且文件310a至310d被示出为具有概括对应内容的所生成标题的文本片段。在各文件310a至310d上还可以表示诸如通道名称和时间跨度的一些元数据信息。用户与对话之间的关系(例如,谁涉及在哪一个对话中)被表示为中间部分中的链路(由虚线框330强调)。
另外,UI 400还包括可以以下的控制链路320和325,其用于根据各种准则(例如,相关性、时间、以及按字母顺序)重新排序用户图标305a至305f或对话310a至310d。进一步地,终端用户可以通过点击“...”按钮335a至335d中的一个来扩展特定对话,这些按钮如图4例示的逐渐揭示在这些对话内的单独消息410a至410g。另外,用户可以选择一个或更多个特定用户(例如,305a),并且可以(用黄色)强调有关对话310a、310d以及310c,并将其带到列表的顶部。
通过首先基于所生成的标题显示来搜索结果,可以允许用户更有效地浏览大量信息。用户然后可以选择最感兴趣的结果,以进一步通过扩展对话来进行探究。因为所生成的标题概括大块的文本,所以用户可以具有足够的时间来阅读并通读结果。和仅在已排名列表中示出搜索结果的传统方式不同,UI 300和400可以启用更丰富的探究,诸如调查用户与对话之间的关系,重新排序结果,以及扩展用于细节的项目,该探究对于浏览复杂企业型消息传递数据可以是重要的。
图5例示了根据本申请的示例实施方案的神经网络模型500的示意图。
如图例示,神经网络模型500是具有域适应的编码器解码器RNN模型。向编码器505馈送已标记源数据(文章515),并且解码器510学习生成概要标题(概要520)。同时,对源数据和未标记目标域数据进行编码,并且从它们的概念表示525,域分类器530尝试学习区分两个域535。
在一些示例实施方案中,域分类器530可以具有后面是softmax的两个密集100单元隐藏层。计算概念表示525向量,作为并置为单个状态的双向LSTM编码器的最终正向和反向隐藏状态。进一步地,在反向传播期间来自分类器530的梯度54可以在传播回通过编码器505之前“反转”为负,这通过将特征分布调节为使域分类器530的损失最大化来促进嵌入表示对准。
进一步地,所生成的序列损失连同对抗域分类器损失可以由下面的等式1定义:
其中,解码器损失(loss)Ly(t)=-logP(ωt *)是位置t处的目标词ωt *的负对数似然(negative log likelihood)。域分类器损失Ld是预测域标签概率与真实域标签概率之间的交叉熵损失。
评价结果
发明人已经进行多个实验,来调查不同方法在没有已标记数据可用时执行有多好。
图6提供了涉及本申请的示例实施方案的一个实验的结果的图。如图例示,例示了用于生成用于聊天平台中的未标记消息传递数据的标题的各种模型的性能。从左到右比较的模型是:
(1)使用在新闻文章和标题上训练的新闻词汇的基线模型;
(2)具有来自训练新闻数据和未标记消息传递数据(stEx数据)这两者的最频繁术语的扩展组合词汇的模型;
(3)在具有合成栈交换标题的真实未标记消息传递数据上训练、然后在新闻数据上训练的模型2;
(4)以下的模型2,除了不是直接在新闻上训练之外,还使用第一域适应来使合成栈交换(synthetic Stack Exchange)数据和新闻(news)数据适应。然后域适应是对于两个域对准的嵌入式表示。
Figure BDA0001986670180000091
从图6和上述表1,可以观察到,添加各个方法以不同的量提高性能。在使用方法的组合时通过将用新闻数据上的新闻(news)词汇训练的模型用于生成标题实现的整体提高为30%。
图7提供了涉及本申请的示例实施方案的第二实验的结果的图。如图例示,该第二实验数据集比较没有已标记数据可用时的性能。再次,对于聊天平台中的未标记消息传递数据生成标题。从左到右比较的模型是:
(1)上面参照图6描述的基线性能模型(模型1);
(2)具有来自训练新闻数据和未标记消息传递数据这两者的最频繁术语的扩展组合词汇的模型,除了不是直接在新闻上训练之外,还使用第一域适应来使合成栈交换数据和新闻数据适应(来自图6的模型4);
(3)用已标记消息数据集(140k帖子和标题对)的10%微调的图7的模型(2);
(4)使用已标记消息数据集(140k帖子和标题对)的10%的基线模型(图6的模型1);
(5)使用已标记消息数据集(140k帖子和标题对)的100%的基线模型(图6的模型1)。
如图7和下面的表2例示,(1)使用已标记训练数据的性能(模型4和5)远优于在没有已标记消息数据可用时;并且(2)在仅使用已标记训练数据的10%时的性能(模型4)低于使用所有已标记训练数据时(模型5)相当多。
模型3是然后用已标记栈交换训练(Stack Exchange training)数据的10%微调的最佳组合模型。注意,该模型通过单独使用已标记训练消息数据(4)的10%显著提高了性能。
Figure BDA0001986670180000101
示例计算环境
图8例示了具有适于用于一些示例实施方案中的示例计算机装置805的示例计算环境800。计算环境800中的计算装置805可以包括一个或更多个处理单元、核、或处理器810,存储器815(例如,RAM、ROM等),内部储存器820(例如,磁、光、固态储存器、和/或有机),和/或I/O接口825,它们中的任意一个可以联接在通信机构或总线830上,以便传输信息或嵌入计算装置805中。
计算装置805可以以通信方式联接到输入部/接口835和输出装置/接口840。输入部/接口835和输出装置/接口840中的一个或两者可以为有线或无线接口,并且可以可分离。输入部/接口835可以包括任意装置、部件、传感器或接口(物理或虚拟的),它们可以用于提供输入(例如,按钮、触摸屏接口、键盘、指向/光标控制器、麦克风、照相机、布莱叶盲文器(braille)、运动传感器、光阅读器等)。
输出装置/接口840可以包括显示器、电视机、监视器、打印机、扬声器、布莱叶盲文器等。在一些示例实施方案中,输入部/接口835(例如,用户界面)和输出装置/接口840可以与计算装置805嵌入或以物理方式联接到计算装置。在其他示例实施方案中,其他计算装置可以起用于计算装置805的输入部/接口835和输出装置/接口840的功能或提供其功能。这些元件可以包括但不限于公知的AR硬件输入,以便许可用户与AR环境交互。
计算装置805的示例可以包括但不限于:高度移动装置(例如,智能电话、车辆和其他机器中的装置、由人和动物携带的装置等)、移动装置(例如,平板电脑、笔记本电脑、膝上型电脑、个人计算机、便携式电视机、收音机等)、以及不设计为移动的装置(例如,台式计算机、服务器装置、其他计算机、信息亭、内部嵌入有和/或联接有一个或更多个处理器的电视机、收音机等)。
计算装置805可以(例如,经由I/O接口825)通信地联接到外部储存器845和网络850,以便与任意数量的联网部件、装置以及系统进行通信,包括具有相同或不同构造的一个或更多个计算装置。计算装置805或任意连接的计算装置可以起服务器、客户端、瘦服务器、通用机器、专用机器或另一个标签的功能,提供它们的服务,或者被称为它们。
I/O接口825可以包括但不限于:将任意通信或I/O协议或标准(例如,以太网、802.11xs、通用系统总线、WiMAX、调制解调器、蜂窝网络协议等)用于向和/或从计算环境800中的所有连接部件、装置以及网络传输信息的有线和/或无线接口。网络850可以是任意网络或网络的组合(例如,因特网、局域网、广域网、电话网络、蜂窝网络、卫星网络等)。
计算装置805可以使用包括暂时介质和非暂时介质的计算机可用或计算机可读介质,和/或使用其进行通信。暂时介质包括传输介质(例如,金属电缆、光纤)、信号、载波等。非暂时介质包括磁介质(例如,光盘和磁带)、光介质(例如,CD ROM、数字视频光盘、蓝光盘)、固态介质(例如,RAM、ROM、闪存、固态储存器)以及其他非易失性储存器或存储器。
计算装置805可以用于实施在一些示例计算环境中的技术、方法、应用、处理、或计算机可执行指令。计算机可执行指令可以从暂时介质检索并存储在非暂时介质上并从非暂时介质检索。可执行指令可以源自任意编程语言、脚本语言、以及机器语言(例如,C、C++、C#、Java、Visual Basic、Python、Perl、JavaScript以及其他)中的一个或更多个。
处理器810可以在本地或视觉环境中在任意操作系统(OS)(未示出)下执行。可以部署一个或更多个应用,所述一个或更多个应用包括逻辑单元855、应用编程接口(API)单元860、输入单元865、输出单元870、模型训练单元875、标题生成单元880、域适应单元885、以及用于不同单元与彼此与OS且与其他应用(未示出)通信的单元间通信机构895。
例如,模型训练单元875、标题生成单元880以及域适应单元885可以实施图1和图2所示的一个或更多个处理。所述单元和元件可以在设计、功能、构造或实施方案上变化,且不限于所提供的描述。
在一些示例实施方案中,在API单元860接收信息或执行指令时,它可以被传输到一个或更多个其他单元(例如,模型训练单元875、标题生成单元880以及域适应单元885)。例如,模型训练单元875可以基于所接收的训练数据和/或所提取的域词汇来生成标题生成计算机模型,并且向域适应单元885提供所生成的标题生成计算机。进一步地,域适应单元885可以使所提供的标题生成计算机模型适应新域,并且向标题生成单元880提供标题生成计算机模型。进一步地,标题生成单元880可以将所生成并调整后的标题生成计算机模型应用于由输入单元865接收的一个或更多个文件,并且经由输出单元870生成具有一个或更多个文件的UI。
在一些情况下,在上述的一些示例实施方案中,逻辑单元855可以被配置为控制单元之间的信息流,并且指导由API单元860、输入单元865、模型训练单元875、标题生成单元880以及域适应单元885提供的服务。例如,可以由逻辑单元855独自或连同API单元860一起控制一个或更多个处理或实施方案的流程。
虽然已经示出并描述了一些示例实施方案,但这些示例实施方案被提供为向熟悉该领域的人们传达这里描述的主题。应理解,这里描述的主题可以以各种形式来实施,不限于所述示例实施方案。这里描述的主题可以在没有那些具体定义或描述的课题的情况下,或在不描述其他或不同元素或课题的情况下实践。熟悉本领域的人员将理解,可以在不偏离如在所附权利要求及其等同物中限定的、这里描述的主题的情况下,在这些示例实施方案中进行变更。

Claims (20)

1.一种生成存储平台中的文件的标题的方法,所述方法包括以下步骤:
接收多个文件,各文件具有关联内容特征;
向所述多个文件中的各文件应用标题生成计算机模型,以基于所述关联内容特征生成标题;
将所生成的标题附加到所述多个文件中的各文件,
其中,所述标题生成计算机模型是通过使用以下内容的组合训练神经网络来创建的:
来自与所述多个文件的内容特征有关的第一域的第一未标记数据集;以及
来自与所述第一域不同的第二域的第二预标记数据集。
2.根据权利要求1所述的方法,其中,所述神经网络是通过将从第一数据集提取的词汇与从第二数据集提取的词汇进行组合来训练的。
3.根据权利要求1所述的方法,所述神经网络的训练还包括以下步骤:
从第一数据集提取内容特征;
基于来自所述第一数据集的提取内容特征,生成第一初步标题集;以及
使用所生成的初步标题和所述第一数据集,在所述第一域上训练所述神经网络。
4.根据权利要求3所述的方法,其中,生成第一初步标题集的步骤包括:从所述第一未标记数据集中的多个文件中的各文件的文本提取内容特征的一部分。
5.根据权利要求3所述的方法,所述神经网络的训练还包括以下步骤:基于所述第二预标记数据集以及从所述第一数据集和所述第二数据集提取的组合词汇,使训练后的神经网络适应所述第二域。
6.根据权利要求5所述的方法,其中,基于所述第二预标记数据集以及从所述第一数据集和所述第二数据集提取的组合词汇使训练后的神经网络适应所述第二域的步骤包括:执行辅助分类任务,以保持训练后的神经网络与所述第二预标记数据集对准。
7.根据权利要求5所述的方法,所述神经网络的训练还包括以下步骤:
使用所生成的初步标题和所述第二数据集,在所述第二域上对所述神经网络进行进一步重新训练;以及
基于所述第一数据集以及从所述第一数据集和所述第二数据集提取的组合词汇,使重新训练后的神经网络适应所述第一域。
8.根据权利要求7所述的方法,所述方法还包括以下步骤:
基于所生成的标题,生成提供搜索功能的用户界面UI;以及
响应于通过基于所生成的标题的所述UI接收到的搜索请求,显示至少一个文件。
9.根据权利要求8所述的方法,所述方法还包括以下步骤:
通过所述UI接收选择请求;
基于所接收的选择请求,更新所述标题生成计算机模型。
10.一种存储有以下程序的非暂时计算机可读介质,该程序使得计算机执行生成存储平台中的文件的标题的方法,所述方法包括以下步骤:
接收多个文件,各文件具有关联内容特征;
向所述多个文件中的各文件应用标题生成计算机模型,以基于所述关联内容特征生成标题;
将所生成的标题附加到所述多个文件中的各文件,
其中,所述标题生成计算机模型是通过使用以下内容的组合训练神经网络来创建的:
来自与所述多个文件的内容特征有关的第一域的第一未标记数据集;以及来自与所述第一域不同的第二域的第二预标记数据集。
11.根据权利要求10所述的非暂时计算机可读介质,其中,所述神经网络是通过将从第一数据集提取的词汇与从所述第二数据集提取的词汇进行组合来训练的。
12.根据权利要求10所述的非暂时计算机可读介质,所述神经网络的训练还包括以下步骤:
从第一数据集提取内容特征;
基于来自所述第一数据集的提取内容特征,生成第一初步标题集;以及
使用所生成的初步标题和所述第一数据集,在所述第一域上训练所述神经网络。
13.根据权利要求12所述的非暂时计算机可读介质,所述神经网络的训练还包括以下步骤:基于所述第二预标记数据集以及从所述第一数据集和所述第二数据集提取的组合词汇,使训练后的神经网络适应所述第二域。
14.根据权利要求13所述的非暂时计算机可读介质,其中,基于所述第二预标记数据集以及从所述第一数据集和所述第二数据集提取的组合词汇使训练后的神经网络适应所述第二域的步骤包括:执行辅助分类任务,以保持所述训练后的神经网络与所述第二预标记数据集对准。
15.根据权利要求13所述的非暂时计算机可读介质,所述神经网络的训练还包括以下步骤:
使用所生成的初步标题和所述第二数据集,在所述第二域上对所述神经网络进行进一步重新训练;以及
基于所述第一数据集以及从所述第一数据集和所述第二数据集提取的组合词汇,使重新训练后的神经网络适应所述第一域。
16.根据权利要求15所述的非暂时计算机可读介质,还包括:
基于所生成的标题,生成提供搜索功能的用户界面UI;以及
响应于通过基于所生成的标题的所述UI接收到的搜索请求,显示至少一个文件。
17.一种计算装置,该计算装置包括:
存储器,该存储器存储多个文件;以及
处理器,该处理器被配置为执行生成多个文件的标题的方法,所述方法包括以下步骤:
接收多个文件,各文件具有关联内容特征;
向所述多个文件中的各文件应用标题生成计算机模型,以基于所述关联内容特征生成标题;
将所生成的标题附加到所述多个文件中的各文件,
其中,所述标题生成计算机模型是通过使用以下内容的组合训练神经网络来创建的:
来自与所述多个文件的内容特征有关的第一域的第一未标记数据集;以及
来自与所述第一域不同的第二域的第二预标记数据集。
18.根据权利要求17所述的计算装置,所述神经网络的训练还包括:
从第一数据集提取内容特征;
基于来自所述第一数据集的提取内容特征,生成第一初步标题集;以及
使用所生成的初步标题和所述第一数据集,在所述第一域上训练所述神经网络。
19.根据权利要求18所述的计算装置,所述神经网络的训练还包括:基于所述第二预标记数据集和从所述第一数据集和所述第二数据集提取的组合词汇,使训练后的神经网络适应所述第二域。
20.根据权利要求19所述的计算装置,所述神经网络的训练还包括:使用所生成的初步标题和所述第二数据集,在所述第二域上对所述神经网络进行进一步重新训练;以及
基于所述第一数据集以及从所述第一数据集和所述第二数据集提取的组合词汇,使重新训练后的神经网络适应所述第一域。
CN201910167062.4A 2018-07-17 2019-03-06 生成用于概括对话文件的标题的系统和方法 Withdrawn CN110795929A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/038,086 2018-07-17
US16/038,086 US20200026767A1 (en) 2018-07-17 2018-07-17 System and method for generating titles for summarizing conversational documents

Publications (1)

Publication Number Publication Date
CN110795929A true CN110795929A (zh) 2020-02-14

Family

ID=69160878

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910167062.4A Withdrawn CN110795929A (zh) 2018-07-17 2019-03-06 生成用于概括对话文件的标题的系统和方法

Country Status (3)

Country Link
US (1) US20200026767A1 (zh)
JP (1) JP7314538B2 (zh)
CN (1) CN110795929A (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10983971B2 (en) * 2018-11-28 2021-04-20 Intuit Inc. Detecting duplicated questions using reverse gradient adversarial domain adaptation
US10810243B2 (en) * 2019-03-08 2020-10-20 Fuji Xerox Co., Ltd. System and method for generating abstractive summaries of interleaved texts
CN111898337B (zh) * 2020-07-13 2024-01-26 武汉大学 一种基于深度学习的单句摘要缺陷报告标题自动生成方法
US20240104055A1 (en) * 2022-09-22 2024-03-28 Microsoft Technology Licensing, Llc Method and system of intelligently generating a title for a group of documents

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110106732A1 (en) * 2009-10-29 2011-05-05 Xerox Corporation Method for categorizing linked documents by co-trained label expansion
CN104750771A (zh) * 2013-12-27 2015-07-01 国际商业机器公司 利用域信息进行上下文数据分析的方法和系统
CN105765566A (zh) * 2013-06-27 2016-07-13 谷歌公司 标题的自动生成
CN106502985A (zh) * 2016-10-20 2017-03-15 清华大学 一种用于生成标题的神经网络建模方法及装置
US20170075991A1 (en) * 2015-09-14 2017-03-16 Xerox Corporation System and method for classification of microblog posts based on identification of topics
CN107346326A (zh) * 2016-05-05 2017-11-14 百度(美国)有限责任公司 用于生成神经网络模型的方法和系统
CN107403375A (zh) * 2017-04-19 2017-11-28 北京文因互联科技有限公司 一种基于深度学习的上市公司公告分类及摘要生成方法
US20190034795A1 (en) * 2017-07-28 2019-01-31 Microsoft Technology Licensing, Llc Domain addition systems and methods for a language understanding system

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4092933B2 (ja) * 2002-03-20 2008-05-28 富士ゼロックス株式会社 文書情報検索装置及び文書情報検索プログラム
JP2006085582A (ja) * 2004-09-17 2006-03-30 Fuji Xerox Co Ltd 文書処理装置およびプログラム
JP6007784B2 (ja) * 2012-12-21 2016-10-12 富士ゼロックス株式会社 文書分類装置及びプログラム
US10489447B2 (en) * 2015-12-17 2019-11-26 Fuji Xerox Co., Ltd. Method and apparatus for using business-aware latent topics for image captioning in social media
US11669746B2 (en) * 2018-04-11 2023-06-06 Samsung Electronics Co., Ltd. System and method for active machine learning
EP3594861B1 (en) * 2018-07-09 2024-04-03 Tata Consultancy Services Limited Systems and methods for classification of multi-dimensional time series of parameters

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110106732A1 (en) * 2009-10-29 2011-05-05 Xerox Corporation Method for categorizing linked documents by co-trained label expansion
CN105765566A (zh) * 2013-06-27 2016-07-13 谷歌公司 标题的自动生成
CN104750771A (zh) * 2013-12-27 2015-07-01 国际商业机器公司 利用域信息进行上下文数据分析的方法和系统
US20170075991A1 (en) * 2015-09-14 2017-03-16 Xerox Corporation System and method for classification of microblog posts based on identification of topics
CN107346326A (zh) * 2016-05-05 2017-11-14 百度(美国)有限责任公司 用于生成神经网络模型的方法和系统
CN106502985A (zh) * 2016-10-20 2017-03-15 清华大学 一种用于生成标题的神经网络建模方法及装置
CN107403375A (zh) * 2017-04-19 2017-11-28 北京文因互联科技有限公司 一种基于深度学习的上市公司公告分类及摘要生成方法
US20190034795A1 (en) * 2017-07-28 2019-01-31 Microsoft Technology Licensing, Llc Domain addition systems and methods for a language understanding system

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
庞超;尹传环;: "基于分类的中文文本摘要方法", 计算机科学, no. 01, pages 153 - 156 *
阮群锟;许灿;吕劲松;: "超文本的集成分类算法研究", 电脑与信息技术, no. 02, pages 53 - 56 *

Also Published As

Publication number Publication date
JP2020013541A (ja) 2020-01-23
US20200026767A1 (en) 2020-01-23
JP7314538B2 (ja) 2023-07-26

Similar Documents

Publication Publication Date Title
US10897439B2 (en) Conversational enterprise document editing
CN110717017B (zh) 一种处理语料的方法
CN110795929A (zh) 生成用于概括对话文件的标题的系统和方法
CN104735468B (zh) 一种基于语义分析将图像合成新视频的方法及系统
US20190103111A1 (en) Natural Language Processing Systems and Methods
US20210200947A1 (en) Event argument extraction method and apparatus and electronic device
US9444773B2 (en) Automatic translator identification
US10891430B2 (en) Semi-automated methods for translating structured document content to chat-based interaction
US10452695B2 (en) Context-based virtual assistant implementation
CN107733666A (zh) 一种会议实现方法、装置及电子设备
EP3602330B1 (en) Automatically generating documents
US11522730B2 (en) Customized meeting notes
US20240054293A1 (en) Multi-turn dialogue response generation using asymmetric adversarial machine classifiers
US20220150192A1 (en) Systems and Methods of Machine Learning for Digital Assets and Message Creation
CN113490959A (zh) 数字图像转录和操纵
WO2023005968A1 (zh) 文本类别识别方法、装置、电子设备和存储介质
Engin et al. Multimodal deep neural networks for banking document classification
US20220382795A1 (en) Method and system for detection of misinformation
CN108664141A (zh) 具有文档上下文自学习功能的输入法
Khurana Sentiment analysis of regional languages written in roman script on social media
US20110041073A1 (en) Key-Based Storage and Retrieval of Information
CN113918114B (zh) 文档控制方法、装置、计算机设备和存储介质
US11645451B2 (en) Managing relationships among original, modified, and related messages using significance-level analysis and change-relevancy annotations
KR102624074B1 (ko) 비디오 표현 학습 장치 및 방법
KR102525984B1 (ko) 화상 회의 제공 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
CB02 Change of applicant information
CB02 Change of applicant information

Address after: Tokyo, Japan

Applicant after: Fuji film business innovation Co.,Ltd.

Address before: Tokyo, Japan

Applicant before: Fuji Xerox Co.,Ltd.

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20200214