CN110717013B - 文档的矢量化 - Google Patents

文档的矢量化 Download PDF

Info

Publication number
CN110717013B
CN110717013B CN201910387551.0A CN201910387551A CN110717013B CN 110717013 B CN110717013 B CN 110717013B CN 201910387551 A CN201910387551 A CN 201910387551A CN 110717013 B CN110717013 B CN 110717013B
Authority
CN
China
Prior art keywords
documents
document
vector
computer
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910387551.0A
Other languages
English (en)
Other versions
CN110717013A (zh
Inventor
S·斯里兰加姆斯里德哈拉
R·K·甘蒂
M·斯里瓦萨
林沇燮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN110717013A publication Critical patent/CN110717013A/zh
Application granted granted Critical
Publication of CN110717013B publication Critical patent/CN110717013B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Image Processing (AREA)
  • Editing Of Facsimile Originals (AREA)
  • Image Analysis (AREA)

Abstract

本发明的实施例包括用于文档矢量化的方法、系统和计算机程序产品。各方面包括由处理器接收多个文档,每个文档具有多个词语。处理器利用矢量嵌入引擎来生成表示多个文档中的多个词语中的每一个词语的矢量。创建针对多个文档中的每个文档的图像表示,并且生成针对多个文档中的多个词语中的每个词语的词语概率。基于与每个词语相关联的矢量在图像中确定每个词语概率的位置,并且执行对图像的压缩操作以产生针对多个文档的紧凑表示。

Description

文档的矢量化
技术领域
本发明一般涉及文本分类问题,更具体地,涉及文档的矢量化。
背景技术
自然语言处理(NLP)是计算机科学、人工智能和语言学领域,其中,涉及使用计算机来从自然语言文本中导出意义(meaning)。NLP系统可以执行许多不同的任务,包括但不限于确定某些词语和/或短语之间的相似性。确定词语和/或短语之间的相似性的一种已知方式是比较它们各自的词语嵌入(word embedding)。词语嵌入(或“矢量表示”)是自然语言文本到连续空间中的实数矢量的映射。一般而言,相似词语的词语嵌入在连续空间中彼此靠近。
发明内容
本发明的实施例涉及一种用于文档矢量化的计算机实现的方法。计算机实现的方法的非限制性示例包括:由处理器接收多个文档,每个文档具有多个词语。处理器利用矢量嵌入引擎来生成表示多个文档中的多个词语中的每个词语的矢量。创建针对多个文档中的每个文档的图像表示,并且生成针对多个文档中的多个词语中的每个词语的词语概率。基于与每个词语相关联的矢量在图像中确定每个词语概率的位置,并且执行对图像的压缩操作以产生针对多个文档的紧凑表示。
本发明的实施例涉及一种用于文档矢量化的系统。该系统的非限制性示例包括由处理器接收多个文档,每个文档具有多个词语。处理器利用矢量嵌入引擎来生成表示多个文档中的多个词语中的每个词语的矢量。创建针对多个文档中的每个文档的图像表示,并且生成针对多个文档中的多个词语中的每个词语的词语概率。基于与每个词语相关联的矢量在图像中确定每个词语概率的位置,并且执行对图像的压缩操作以产生针对多个文档的紧凑表示。
本发明的实施例涉及一种用于文档矢量化的计算机程序产品,该计算机程序产品包括计算机可读存储介质,该计算机可读存储介质具有在其中体现的程序指令。该程序指令可由处理器执行以使处理器执行方法。该方法的非限制性示例包括由处理器接收多个文档,每个文档具有多个词语。处理器利用矢量嵌入引擎来生成表示多个文档中的多个词语中的每个词语的矢量。创建针对多个文档中的每个文档的图像表示,并且生成针对多个文档中的多个词语中的每个词语的词语概率。基于与每个词语相关联的矢量在图像中确定每个词语概率的位置,并且执行对图像的压缩操作以产生针对多个文档的紧凑表示。
通过本发明的技术实现了其它技术特征和益处。本发明的实施例和方面在本文中予以了详细描述,并且被认为是所要求保护的主题的一部分。为了更好地理解,请参考具体实施方式和附图。
附图说明
在说明书结论处的权利要求中特别指出并清楚地要求保护在本文描述的专有权的细节。通过以下结合附图进行的具体描述,本发明的实施例的前述和其它特征和优点将变得显而易见,在附图中:
图1描绘了用于实现本发明的一个或多个实施例的计算机系统的框图;
图2描绘了根据本发明的一个或多个实施例的用于文档矢量化的系统;
图3a描绘了根据本发明的一个或多个实施例的用于每个文档的QxQ矩阵和所得到的低维文档嵌入的图;
图3b描绘了根据本发明的一个或多个实施例的用于文档的示例QxQ矩阵400;以及
图4描绘了根据本发明的一个或多个实施例的用于文档矢量化的方法的流程图。
本文描绘的图是说明性的。在不脱离本发明的精神的情况下,可以对在此描述的图或操作进行许多变化。例如,可以以不同的顺序执行动作,或者可以添加、删除或修改动作。而且,术语“耦接”及其变体描述了在两个元件之间具有通信路径,并不意味着元件之间的直接连接而在它们之间没有中间元件/连接。所有这些变化都被认为是说明书的一部分。
在附图和以下对所公开实施例的详细描述中,附图中所示的各种元件具有两个或三个数字附图标记。除了少数例外,每个附图标记的最左边的数字对应于最先示出其元素的图。
具体实施方式
本文参考相关附图描述了本发明的各种实施例。在不脱离本发明的范围的情况下,可以设计出本发明的替代实施例。在以下描述和附图中的元件之间阐述了各种连接和位置关系(例如上方、下方、相邻等)。除非另有说明,这些连接和/或位置关系可以是直接的或间接的,并且本发明并不意图在这方面进行限制。因此,实体的耦接可以指直接或间接耦接,并且实体之间的位置关系可以是直接或间接的位置关系。此外,本文描述的各种任务和处理步骤可以合并到具有本文未详细描述的附加步骤或功能的更全面的程序或过程中。
以下定义和缩写将用于解释权利要求和说明书。如本文所使用的,术语“包括”、“包括了”、“包含”、“包含了”、“具有”、“拥有”、“含有”或“含有了”或其任何其它变体旨在涵盖非独占包括。例如,包括一列元素的组合物、混合物、过程、方法、物品或装置不一定仅限于那些元素,而是可以包括未明确列出的其它元素或这种组合物、混合物、过程、方法、物品或装置固有的其它元素。
另外,术语“示例性”在本文中用于表示“用作示例、实例或说明”。本文中描述为“示例性”的任何实施例或设计不一定被解释为比其它实施例或设计优选或有利。术语“至少一个”和“一个或多个”可以被理解为包括大于或等于一的任何整数,即,一个、两个、三个、四个等。术语“多个”可以被理解为包括任何大于或等于二的整数,即,两个、三个、四个、五个等。术语“连接”可以包括间接“连接”和直接“连接”二者。
术语“大约”、“基本上”、“大致”及其变体旨在包括与基于提交申请时可用的设备的特定量的测量相关联的误差程度。例如,“大约”可以包括给定值的±8%或5%或2%的范围。
为简洁起见,本文中可能会或可能不会详细描述与制造和使用本发明的方面有关的传统技术。特别地,用于实现本文描述的各种技术特征的计算系统和特定计算机程序的各个方面是公知的。因此,为了简洁起见,在此仅简要地提及许多传统的实现细节,或者在不提供公知的系统和/或过程细节的情况下完全省略许多传统的实现细节。
现在转向与本发明的方面更具体相关的技术的概述,文本文档的矢量化可以辅助各种自然语言处理(NLP)任务,例如情感分析、自然语言理解、分类等等。诸如Word2Vec的矢量化模型试图从词语文档的大语料库中学习词语-矢量表示,其中,相似的词语在矢量空间中彼此接近(并且可能具有多个相似度)。诸如Doc2Vec的其它模型学习词语的文档特定矢量表示。也就是说,它通过基于文档本身学习词语的矢量表示来扩展Word2Vec模型。但是,Doc2Vec模型和其它模型不能捕获跨多个文档的词语之间的相似性。
现在转到本发明的各方面的概述,本发明的一个或多个实施例通过提供文档矢量空间嵌入法(vector-space embedding of documents approach)来解决现有技术的上述缺点,该文档矢量空间嵌入法捕获文档中词语的上下文并且捕获跨文档的词语之间的相似性。本发明的各方面包括为每个文档创建词语矢量表示,然后将词语矢量作为多维图像处理。例如,对于n维词语矢量,模型将文档的图像尺寸设置为q×q,并且将每个n维矢量插入到q×q图像的单元(cell)(例如像素)中。在该示例中,通过将文档转换为图像,跨文档的相似的词语被放置在图像的相同空间区域中。例如,具有相似矢量的例如计算机和笔记本电脑的词语将倾向于落入同一个单元。此外,可以使用卷积自动编码器压缩图像,其中,在图像上学习文档的较低维矢量。该自动编码器的目标是在降低维度的同时保留文档图像的语境性(contextuality)。本文描述的模型可以称为Doc2Img模型。
现在转到对本发明的各方面的更详细描述。参见图1,示出了用于实现本文教导的处理系统100的实施例。在该实施例中,系统300具有一个或多个中央处理单元(处理器)21a、21b、21c等(统称或通常称为处理器21)。在一个或多个实施例中,每个处理器21可以包括精简指令集计算机(RISC)微处理器。处理器21经由系统总线33耦接到系统存储器34和各种其它组件。只读存储器(ROM)22耦接到系统总线33,并且可以包括基本输入/输出系统(BIOS),该基本输入/输出系统(BIOS)控制系统100的某些基本功能。
图1进一步描绘了耦接到系统总线33的输入/输出(I/O)适配器27和网络适配器26。I/O适配器27可以是与硬盘23和/或磁带存储驱动器25或任何其它类似组件通信的小型计算机系统接口(SCSI)适配器。I/O适配器27、硬盘23和磁带存储设备25在此统称为大容量存储器24。用于在处理系统300上执行的操作系统40可以被存储在大容量存储器24中。网络适配器26使总线33与外部网络36互连,使数据处理系统300能够与其它这样的系统通信。屏幕(例如显示监视器)35通过显示适配器32连接到系统总线33,显示适配器32可以包括图形适配器以改善图形密集型应用和视频控制器的性能。在一个实施例中,适配器27、26和32可以连接到一个或多个I/O总线,这些I/O总线经由中间总线桥(未示出)连接到系统总线33。用于连接诸如硬盘控制器、网络适配器和图形适配器的外围设备的合适的I/O总线通常包括通用协议,例如外围组件互连(PCI)。附加的输入/输出设备被示为经由用户接口适配器28和显示适配器32连接到系统总线33。键盘29、鼠标30和扬声器31全部经由用户接口适配器28与总线33互连,用户接口适配器28可以包括例如将多个设备适配器集成到单个集成电路中的超级I/O芯片。
在示例性实施例中,处理系统100包括图形处理单元41。图形处理单元41是专用电子电路,其被设计为操纵和改变存储器以加速在帧缓冲器中的图像创建,以用于输出到显示器。通常,图形处理单元41在操纵计算机图形和图像处理方面非常有效,并且具有高度并行的结构,使得它在并行完成大块数据处理的算法上比通用CPU更有效。
因此,如图1中所配置的那样,系统100包括:以处理器21形式的处理能力、包括系统存储器34和大容量存储器24的存储能力、诸如键盘29和鼠标30的输入装置、以及包括扬声器31和显示器35的输出能力。在一个实施例中,系统存储器34和大容量存储器24的一部分共同存储操作系统,该操作系统协调图1中所示的各种组件的功能。
图2描绘了根据本发明实施例的用于文档矢量化的系统200。如图所示配置和布置的,系统200包括矢量嵌入引擎202、概率分布引擎204、Doc2Img引擎206和自动编码器/解码器引擎208。在本发明的实施例中,引擎202、204、206、208也被实现为所谓的分类器(下面更详细地描述)。在本发明的一个或多个实施例中,本文描述的各种引擎/分类器202、204、206、208的特征可以在图1所示的处理系统100上实现,或者可以在神经网络(未示出)上实现。在本发明的实施例中,引擎202、204、206、208的特征可以通过配置和布置处理系统100以执行机器学习(ML)算法来实现。通常,ML算法实际上从接收的数据(例如对引擎/分类器202、204、206、208的输入)中提取特征,以便“分类”所接收的数据。合适的分类器的示例包括但不限于神经网络(下面更详细地描述的)、支持矢量机(SVM)、逻辑回归、决策树、隐马尔可夫模型(HMM)等。分类器操作的最终结果,即,“分类”,是预测数据的类。ML算法将机器学习技术应用于所接收的数据,以便随着时间的推移创建/训练/更新唯一的“模型”。由引擎/分类器202、204、206、208执行的学习或训练可以被监督、无监督、或是包含有监督和无监督地学习的各方面的混合。监督学习是培训数据已经可用并被分类/标记的情况。无监督学习是训练数据未被分类/标记因此必须通过分类器的迭代来开发的情况。无监督学习可以利用附加的学习/训练方法,包括例如聚类、异常检测、神经网络、深度学习等。
在引擎/分类器202、204、206、208被实现为神经网络的本发明的实施例中,电阻切换装置(RSD)可以用作前神经元和后神经元之间的连接(突触),因此表示设备电阻形式的连接权重。神经形态系统是互连的处理器元件,其充当模拟“神经元”并以电子信号的形式在彼此之间交换“消息”。类似于在生物神经元之间传递消息的突触神经递质(synapticneurotransmitter)连接的所谓“可塑性(plasticity)”,神经形态系统(如神经网络)中的连接在模拟神经元之间传递电子消息,模拟神经元具有对应于给定连接的强弱的数字权重。可以根据经验调节和调整权重,使神经形态系统适应输入并且能够学习。例如,用于手写识别的神经形态/神经网络由一组输入神经元定义,其可以由输入图像的像素激活。在通过由网络设计者确定的函数进行加权和变换之后,这些输入神经元的激活然后被传递到其它下游神经元,其通常被称为“隐藏”神经元。重复该过程直到激活输出神经元。因此,激活的输出神经元确定(或“学习”)读取了哪个字符。多个前神经元和后神经元可以通过RSD阵列连接,RSD阵列自然地表达完全连接的神经网络。在本文的描述中,可以使用应用的处理系统100来实现属于系统200的任何功能。
在本发明的一个或多个实施例中,系统200针对保留文档的语境性的文档产生较低维矢量。系统200接收多个文档(D1……Dn)作为矢量嵌入引擎202的输入,矢量嵌入引擎202针对多个文档(D1……Dn)中的每个文档中的每个词语创建词语嵌入。在本发明的一个或多个实施例中,可以发生文档的预处理以在词语嵌入发生之前或之后移除“停止”词。示例停止词包括诸如“该”、“一个”、“和”和“或”之类的词语。此外,“词语嵌入”指的是针对文档和/或信息集合中的每个词语生成n维矢量并将每个词语与其对应的n维矢量相关联的过程。n维矢量{v1,v2,v3,v4……,vn}可以被认为是具有“n”个值的矢量。每个矢量可以包括一系列实数,如下面更详细描述的。词语的矢量可以是词语的意义的编码表示。
特定词语的意义(由词语的矢量表示)可以至少基于与文档/集合内的特定词语相邻的一个或多个其它词语。具体地,与特定词语相邻的词语可以为特定词语提供上下文,并且相邻词语构成特定词语的邻域(neighborhood)。特定词语的n维矢量可以是从相邻词语到特定词语的意义的贡献的聚合。
每个词语的n维矢量可以提供对特定词语的意义的见解(insight),尤其是当矢量被表示为n维空间中的点时。每个词语的矢量表示在n维空间内的相对位置将反映词语之间存在的关系。例如,如果两个词语具有相似的意义,则这两个词语的矢量表示将显得彼此相对接近,或者当位于n维空间中时,这两个词语的矢量表示将指向相似的方向。
例如,如果词语“猫(CAT)”的矢量表示和词语“小猫(KITTEN)”的矢量表示都位于n维空间中,则矢量表示将看起来彼此相对接近,或者矢量表示将指向相似的方向,因为词语“猫”和词语“小猫”之间存在逻辑关系。如果这两个词语的矢量表示在n维空间中显得彼此非常接近(或在n维空间中指向相似的方向),则可以推断出这两个词语之间的逻辑关系。
为了产生词语的矢量表示,本发明的实施例可以使用一个或多个词语嵌入模型产生程序。例如,本发明的实施例可以使用本文先前描述的类型的一个或多个神经网络来执行词语嵌入。本发明的实施例可以使用模型产生程序(诸如例如Word2vec)来产生具有矢量表示形式的模型。本发明的实施例还可以使用诸如GloVe、Doc2Vec和Paragraph2Vec的模型产生程序来产生具有矢量表示形式的模型。为了产生文档/集合内的特定词语的矢量表示,将特定词语的邻域输入到一个或多个模型产生程序中。例如,可以将文档/集合的句子输入到模型产生程序中,以产生至少基于输入的特定词语的矢量表示。
在本发明的一个或多个实施例中,可以将多个文档(D1……Dn)输入到概率分布引擎204中,以计算特定词语将出现在文档中的概率。在本发明的一个或多个实施例中,通过识别特定词语在文档中出现的次数并将该数字除以文档中的词语总数以获得概率来确定概率。概率的数值可以例如介于0和1之间。
在本发明的一个或多个实施例中,Doc2Img引擎206接收用于多个文档(D1……Dn)的词语矢量化以及每个词语出现在特定文档中的概率。Doc2Img引擎206针对文档(D1……Dn)中的每个文档创建QxQ矩阵,其是针对每个文档的图像表示。每个QxQ矩阵的单元都填充了词语出现概率。QxQ矩阵中放置概率的位置由词语矢量确定,如图3b中更详细描述的。
图3a描绘了根据本发明的一个或多个实施例的针对每个文档的QxQ矩阵和所得到的低维文档嵌入的图。第一QxQ矩阵302对应于具有词语矢量Wa1、Wa2、……、Wan的第一文档D1。在文档D1中找到的词语1(例如W1)的概率对应于P(Wa1/D1)304,并且被放置在第一行第一列的单元中。图3b描绘了根据本发明的一个或多个实施例的针对文档的示例QxQ矩阵400。词语矢量包括W1、W2、W3和W4,其中,在402处示出它们的对应矢量。QxQ矩阵400是3×3矩阵,其中,词语矢量402确定将概率放置在矩阵400中的何处。词语1(例如W1)具有包括值0.2,0.2的矢量。词语1的概率的单元位置是第一行第一列。行被分为三行,词语矢量的位置基于小于.333、介于.333和.667之间、或大于.667的值。可以对矩阵400中的列使用相同的划分。使用该描绘,相应地放置W2、W3和W4的概率。单元包含W2和W4二者的概率,并且概率被加在一起。W3的概率放置在对应于第三行第三列的单元中。
在图3a中,为每个文档构建QxQ矩阵,并且基于词语矢量将概率放置在相应的单元中。QxQ矩阵被输入到自动编码器/解码器引擎208,自动编码器/解码器引擎208输出文档(D1……Dn)中的每个文档的低维矢量表示210。在编码器-解码器框架中,编码器将输入变换为较低维表示,并且解码器被训练以重建原始输入。自动编码器用于解决例如网络预训练、特征提取、降维的许多任务。为了处理图像,自动编码器模型中的完全连接的层被卷积层替换,它被称为卷积自动编码器。在本公开中,使用卷积自动编码器,将文档的图像表示压缩成矢量。
图4描绘了根据本发明的一个或多个实施例的用于文档矢量化的方法的流程图。方法400包括由处理器接收多个文档,每个文档具有多个词语,如框402所示。在框404,方法400包括由处理器利用矢量嵌入引擎来生成表示多个文档中的多个词语中的每个词语的矢量。在框406处,方法400包括针对多个文档中的每个文档创建图像表示。在框408处,方法400包括针对多个文档中的多个词语中的每个词语生成词语概率。在框410处,方法400包括基于与每个词语相关联的矢量在图像中确定每个词语概率的位置。并且在框412处,方法400包括对图像执行压缩操作以产生针对多个文档的紧凑表示。
还可以包括附加过程。应该理解,图4中描绘的过程包括实例,并且可以添加其它过程或者可以移除、修改或重新布置现有过程而不脱离本公开的范围和精神。
在任何可能的技术细节结合层面,本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是——但不限于——电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其它自由传播的电磁波、通过波导或其它传输媒介传播的电磁波(例如通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路配置数据或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其它设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文描述的各实施例。

Claims (7)

1.一种用于文档矢量化的计算机实现的方法,所述方法包括:
由处理器接收多个文档,每个文档具有多个词语;
由所述处理器利用矢量嵌入引擎来产生多个矢量,其中所述多个矢量中的每个矢量表示所述多个文档中的所述多个词语中的每个词语,其中每一矢量对应于所述多个文档内的词语的编码表示;
通过创建包括多个单元的QxQ图像,针对所述多个文档中的每个文档创建图像表示,其中,所述QxQ图像包含QxQ个像素,所述多个单元中的每个单元对应于所述QxQ像素中的一个像素;
针对所述多个文档中的所述多个词语中的每个词语生成词语概率;
基于与每个词语相关联的矢量,在所述QxQ图像中确定每个词语概率的位置,其中所述QxQ图像中的多个单元中的至少一个单元包括与文档中的至少一个词语相关联的词语概率;以及
对所述图像执行压缩操作以产生针对所述多个文档的紧凑表示,其中,所述压缩操作由卷积自动编码器执行,并且其中所述多个文档的紧凑表示包括所述多个文档中的每个文档的文档矢量。
2.根据权利要求1所述的计算机实现的方法,还包括:在产生所述多个矢量之前,从所述多个文档中的每个文档中移除停止词。
3.根据权利要求1所述的计算机实现的方法,其中,生成所述多个矢量由Word2Vec模型执行。
4.根据权利要求1所述的计算机实现的方法,其中,
每个词语的所述位置对应于所述多个单元中的一个单元。
5.一种用于文档矢量化的计算机可读存储介质,所述计算机可读存储介质具有在其中体现的程序指令,所述程序指令可由处理器系统执行以使所述处理器系统执行根据权利要求1-4中任一项所述的方法。
6.一种用于文档矢量化的系统,所述系统包括:
存储器;以及
通信地耦接到所述存储器的处理器系统:
其中,所述处理器系统被配置为执行根据权利要求1-4中任一项所述的方法。
7.一种用于文档矢量化的系统,所述系统包括分别用于执行根据权利要求1-4中任一项所述的方法的步骤的模块。
CN201910387551.0A 2018-07-11 2019-05-10 文档的矢量化 Active CN110717013B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/032764 2018-07-11
US16/032,764 US11182415B2 (en) 2018-07-11 2018-07-11 Vectorization of documents

Publications (2)

Publication Number Publication Date
CN110717013A CN110717013A (zh) 2020-01-21
CN110717013B true CN110717013B (zh) 2023-09-19

Family

ID=69139461

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910387551.0A Active CN110717013B (zh) 2018-07-11 2019-05-10 文档的矢量化

Country Status (2)

Country Link
US (1) US11182415B2 (zh)
CN (1) CN110717013B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11163963B2 (en) * 2019-09-10 2021-11-02 Optum Technology, Inc. Natural language processing using hybrid document embedding
JP7342972B2 (ja) * 2019-12-19 2023-09-12 富士通株式会社 情報処理プログラム、情報処理方法および情報処理装置
US20220138935A1 (en) * 2020-11-04 2022-05-05 Samsung Sds America, Inc. Unsupervised representation learning and active learning to improve data efficiency
CN113642293A (zh) * 2021-08-05 2021-11-12 杭州网易智企科技有限公司 一种基于频域变换的词向量压缩方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7535477B2 (en) * 2003-12-12 2009-05-19 Sharp Kabushiki Kaisha Data converter, data conversion method, program for making computer function as data converter and recording medium for storing this program
CN103778213A (zh) * 2014-01-16 2014-05-07 北京航空航天大学 一种基于占用矩阵的词云图可视化方法
CN105940395A (zh) * 2014-01-31 2016-09-14 谷歌公司 生成文档的矢量表示
CN108140018A (zh) * 2015-10-16 2018-06-08 微软技术许可有限责任公司 创作用于基于文本的文档的视觉表示

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007081234A1 (fr) * 2006-01-12 2007-07-19 Otkrytoe Aktsionernoe Obschestvo 'bineuro' Procede de codage de la semantique de documents-textes
US7836356B2 (en) * 2008-04-28 2010-11-16 International Business Machines Corporation Method for monitoring dependent metric streams for anomalies
US20120254333A1 (en) * 2010-01-07 2012-10-04 Rajarathnam Chandramouli Automated detection of deception in short and multilingual electronic messages
JP2013235507A (ja) * 2012-05-10 2013-11-21 Mynd Inc 情報処理方法、装置、コンピュータプログラムならびに記録媒体
US20140229476A1 (en) * 2013-02-14 2014-08-14 SailMinders, Inc. System for Information Discovery & Organization
US20150095017A1 (en) 2013-09-27 2015-04-02 Google Inc. System and method for learning word embeddings using neural language models
US9575952B2 (en) 2014-10-21 2017-02-21 At&T Intellectual Property I, L.P. Unsupervised topic modeling for short texts
US9672814B2 (en) 2015-05-08 2017-06-06 International Business Machines Corporation Semi-supervised learning of word embeddings
US10606946B2 (en) 2015-07-06 2020-03-31 Microsoft Technology Licensing, Llc Learning word embedding using morphological knowledge
US20180032874A1 (en) * 2016-07-29 2018-02-01 Ca, Inc. Document analysis system that uses process mining techniques to classify conversations

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7535477B2 (en) * 2003-12-12 2009-05-19 Sharp Kabushiki Kaisha Data converter, data conversion method, program for making computer function as data converter and recording medium for storing this program
CN103778213A (zh) * 2014-01-16 2014-05-07 北京航空航天大学 一种基于占用矩阵的词云图可视化方法
CN105940395A (zh) * 2014-01-31 2016-09-14 谷歌公司 生成文档的矢量表示
CN108140018A (zh) * 2015-10-16 2018-06-08 微软技术许可有限责任公司 创作用于基于文本的文档的视觉表示

Also Published As

Publication number Publication date
CN110717013A (zh) 2020-01-21
US11182415B2 (en) 2021-11-23
US20200019618A1 (en) 2020-01-16

Similar Documents

Publication Publication Date Title
CN112214995B (zh) 用于同义词预测的分层多任务术语嵌入学习
CN108804530B (zh) 对图像的区域加字幕
CN110717013B (zh) 文档的矢量化
US11562147B2 (en) Unified vision and dialogue transformer with BERT
CN112084327B (zh) 在保留语义的同时对稀疏标注的文本文档的分类
US20190279074A1 (en) Semantic Class Localization Digital Environment
CN111753081B (zh) 基于深度skip-gram网络的文本分类的系统和方法
CN111143576A (zh) 一种面向事件的动态知识图谱构建方法和装置
CN111461174B (zh) 多层次注意力机制的多模态标签推荐模型构建方法及装置
WO2023160472A1 (zh) 一种模型训练方法及相关设备
CN113344206A (zh) 融合通道与关系特征学习的知识蒸馏方法、装置及设备
Rivas Deep Learning for Beginners: A beginner's guide to getting up and running with deep learning from scratch using Python
CN115221846A (zh) 一种数据处理方法及相关设备
CN114358203A (zh) 图像描述语句生成模块的训练方法及装置、电子设备
CN116304307A (zh) 一种图文跨模态检索网络训练方法、应用方法及电子设备
Joshua Thomas et al. A deep learning framework on generation of image descriptions with bidirectional recurrent neural networks
Srinivas et al. A comprehensive survey of techniques, applications, and challenges in deep learning: A revolution in machine learning
US20230281400A1 (en) Systems and Methods for Pretraining Image Processing Models
Zhao et al. Deeply supervised active learning for finger bones segmentation
US11501071B2 (en) Word and image relationships in combined vector space
US20240028828A1 (en) Machine learning model architecture and user interface to indicate impact of text ngrams
JP6899367B2 (ja) 学習装置、妥当性判定装置、学習方法、妥当性判定方法、学習プログラム、及び妥当性判定プログラム
Yu et al. Construction of garden landscape design system based on multimodal intelligent computing and deep neural network
Sharma et al. Domain-specific image captioning: a comprehensive review
Wu et al. MatConvNet Deep Learning and iOS Mobile App Design for Pattern Recognition: Emerging Research and Opportunities: Emerging Research and Opportunities

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant