CN108875059A - 用于生成文档标签的方法、装置、电子设备和存储介质 - Google Patents

用于生成文档标签的方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN108875059A
CN108875059A CN201810696336.4A CN201810696336A CN108875059A CN 108875059 A CN108875059 A CN 108875059A CN 201810696336 A CN201810696336 A CN 201810696336A CN 108875059 A CN108875059 A CN 108875059A
Authority
CN
China
Prior art keywords
label
model
document
training
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810696336.4A
Other languages
English (en)
Other versions
CN108875059B (zh
Inventor
刘呈祥
何伯磊
肖欣延
吴甜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201810696336.4A priority Critical patent/CN108875059B/zh
Publication of CN108875059A publication Critical patent/CN108875059A/zh
Application granted granted Critical
Publication of CN108875059B publication Critical patent/CN108875059B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本公开的实施例提供了一种用于生成文档标签的方法、装置、电子设备和计算机可读存储介质。在该方法中,对给定的文档进行文本分析以得到文档的文本分析结果;将文本分析结果输入到标签生成模型来生成文档的原始标签,标签生成模型是基于训练文本分析结果和训练标签而建立的;以及优化原始标签以得到文档的目标标签。本公开的实施例可以提供高效且准确的文档标签生成。

Description

用于生成文档标签的方法、装置、电子设备和存储介质
技术领域
本公开的实施例一般地涉及信息处理领域,并且更特别地,涉及一种用于生成文档标签的方法、装置、电子设备和计算机可读存储介质。
背景技术
目前,基于用户兴趣点的个性化的资讯推荐是资讯消费领域的新潮流,其中的核心技术包括内容建模和用户建模。内容建模的任务是给资讯或者文档给予合适的标签,或者也称为关注点或兴趣点。
一般而言,文档标签是指可以反映出文档内容或读者兴趣的文字描述。这里的标签可以是比摘要更加精炼的词语或文字片段,有助于读者快速了解全文的内容。文档标签对于文档的分类、推荐、关联具有重要的作用。然而,传统的文档标签生成方案存在效率不高和效果不佳等问题,在很多应用场景中无法满足用户的需求。
发明内容
本公开的实施例涉及一种用于生成文档标签的方法、装置、电子设备和计算机可读存储介质。
在本公开的第一方面,提供了一种用于生成文档标签的方法。该方法包括:对给定的文档进行文本分析,以得到文档的文本分析结果。该方法还包括:将文本分析结果输入到标签生成模型,来生成文档的原始标签,标签生成模型是基于训练文本分析结果和训练标签而建立的。该方法进一步包括:优化原始标签,以得到文档的目标标签。
在本公开的第二方面,提供了一种用于生成文档标签的装置。该装置包括:文本分析模块,被配置为对给定的文档进行文本分析,以得到文档的文本分析结果。该装置还包括:原始标签生成模块,被配置为将文本分析结果输入到标签生成模型,来生成文档的原始标签,标签生成模型是基于训练文本分析结果和训练标签而建立的。该装置进一步包括:标签优化模块,被配置为优化原始标签,以得到文档的目标标签。
在本公开的第三方面,提供了一种电子设备。该电子设备包括一个或多个处理器;以及存储装置,用于存储一个或多个程序。当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器实现第一方面的方法。
在本公开的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现第一方面的方法。
应当理解,发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征,亦非用于限制本公开的范围。本公开的其他特征通过以下的描述将变得容易理解。
附图说明
通过参考附图阅读下文的详细描述,本公开的实施例的上述以及其他目的、特征和优点将变得容易理解。在附图中,以示例性而非限制性的方式示出了本公开的若干实施例,其中:
图1示出了本公开的一些实施例能够在其中实现的示例环境的示意图;
图2示出了根据本公开的实施例的标签生成系统的示意性结构框图;
图3示出了根据本公开的实施例的用于生成文档标签的方法的示意性流程图;
图4示出了根据本公开的实施例的用于生成文档标签的装置的示意性框图;以及
图5示出了一种可以被用来实施本公开的实施例的设备的示意性框图。
贯穿所有附图,相同或者相似的参考标号被用来表示相同或者相似的组件。
具体实施方式
下面将参考附图中所示出的若干示例性实施例来描述本公开的原理和精神。应当理解,描述这些具体的实施例仅是为了使本领域的技术人员能够更好地理解并实现本公开,而并非以任何方式限制本公开的范围。
如上文指出的,传统的文档标签生成方案存在效率不高和效果不佳等问题,在很多应用场景中无法满足用户的需求。具体而言,传统的标签生成(也称为关注点预测)方案主要分为两类,即文档的关键词分析和文档的人工标注。
文档的关键词分析通常为抽取式分析,其基于文档的结构和词语的统计信息,抽取文档中的部分词语或片段用来描述文档。由于采用抽取的方式,所以生成的标签受限于文档内出现的文本片段。文档的人工标注是指通过人工对文档进行阅读,然后进行标签标注的方式,通常由文档的作者或内容编辑人员进行。
然而,这两种传统的标签生成方案都存在各自的问题。一方面,文档的关键词分析方式的召回低,由于标签是通过抽取方式得到的,所以受限于文档内出现的文本片段。另外,标签是基于文章的结构和统计信息计算得出的,缺少和文章之间的校验,导致标签的准确率低,预测效果差。此外,标签的预测模型更新缓慢,无法应对新的或者时效性关注点。另一方面,文档的人工标注方式存在效率低、成本高,一致性差等问题。
鉴于传统的文档标签生成方案存在的上述问题和潜在的其他问题,本公开的实施例提出了一种用于生成文档标签的方法、装置、电子设备和计算机可读存储介质,以改进文档标签的确定和生成。本公开的实施例可以实现准确而高效的标签生成,取得优良的标签预测效果,并且具有良好的资源支持。除了普通的图文资讯以外,其还可以支持视频、问答、用户生成内容(UGC)的关注点预测。下面结合附图来描述本公开的若干实施例。
图1示出了本公开的一些实施例能够在其中实现的示例环境100的示意图。如图1所示,示例环境100包括文档110,其可以被输入到标签生成系统120从而生成标签130。如本文使用的,标签130也可以称为文档110的目标标签130。另外,在本公开的上下文中,术语“标签”、“关注点”和“兴趣点”可以互换地使用。应当理解,尽管图1的示例环境100中示出了特定数目的文档和特定数目的标签,但是这仅是示例性的。在其他实施例中,任何数目的文档可以被输入到标签生成系统120而生成任何数目的标签。
在一些实施例中,文档110可以是文本文档,其本文内容可以由标签生成系统120进行分析和处理,从而生成标签130。在其他实施例中,文档110也可以是包括文字、图片、链接等多种形式的内容的文档,其中文字部分以及与其他形式的内容有关的文字描述可以被输入到标签生成系统120进行分析和处理,从而生成标签130。在另外的实施例中,文档110还可以是从视频、问答、用户生成内容等转换得到的文本文档或者与它们相关联的文本文档。
标签生成系统120是用于对文档110的内容进行分析和处理以生成标签130的计算机实现的系统。在一些实施例中,标签130可以是一种简略的文字描述,它可以体现或反映文档110记载的内容或阅读文档110的读者的兴趣点或关注点。一般而言,标签130可以是与文档110的内容有关的词语、短语、文字片段,等等。
将理解,标签生成系统120可以被实施为电子硬件、计算机软件、或两者的组合。标签生成系统120是被实施为硬件还是软件取决于特定应用和施加在标签生成系统120所在的整个计算机系统上的设计约束。技术人员可以针对每个特定应用以变化方式实施标签生成系统120的功能。
例如,标签生成系统120可以利用被设计为执行本文描述的功能的通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑器件、分立门或晶体管逻辑、分立硬件组件、或它们的任何组合来实施或执行。通用处理器可以是微处理器,但是在替代方案中,处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可以被实施为计算设备的组合,例如,DSP和微处理器的组合、多个微处理器、一个或多个微处理器结合DSP核心、或者任何其他这样的配置。
作为另一示例,标签生成系统120也可以被实施为由处理器执行的软件模块。软件模块可以驻留在RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移除盘、CD-ROM、或本领域已知的任何其他形式的存储介质中。示例性存储介质可以耦合到处理器,从而处理器可以从存储介质读取信息以及向存储介质写入信息。在替代方案中,存储介质可以与处理器形成整体。下面结合图2来描述标签生成系统120的具体功能结构。
图2示出了根据本公开的实施例的标签生成系统120的示意性结构框图。如图2所示,标签生成系统120可以被构建为具有三层的功能结构,具体包括预处理层210、预定模型层220和后处理层230。预处理层210用于对给定的文档110进行文本分析,以得到文档110的文本分析结果240。预定模型层220使用一个或多个标签生成模型,基于文本分析结果240来生成文档110的原始标签250。后处理层230用于优化原始标签250,以得到文档110的目标标签130。
在一些实施例中,预处理层210执行的文本分析例如可以包括对文档110进行分段211、分句212、分词213、词性标注(POS)214、命名实体识别(NER)215和依存关系分析216。在其他实施例中,文本分析也可以是上述操作中的任一项或它们的任何组合。具体地,分段211是指将文档110的文本划分为段落,分句212是指将文档110的文本划分为句子,而分词213是指将文档110的文本划分为词语。
词性标注214是指为分词结果中的每个词语标注正确的词性,也即确定每个词语是名词、动词、形容词或者其他词性。命名实体识别215,又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。依存关系分析216是指通过分析语言单位内的成分之间的依存关系来解释句法结构。
应当理解,尽管图2中将预处理层210示出为包括特定数目和特定功能的文本分析操作,但是这些文本分析操作仅是示例性的。在其他实施例中,预处理层210可以包括任何数目和任何功能的文本处理操作,以便产生适合于后级的预定模型层220生成原始标签250的文本分析结果240。
预定模型层220是标签生成系统120的核心组成部分,其可以包括预定模型集合260,预定模型集合260包括一个或多个不同功能的标签生成模型。在基于文本分析结果240生成原始标签250时,标签生成系统120可以在预定模型集合260中选择一个或多个标签生成模型来生成原始标签250。
预定模型集合260中的标签生成模型是基于训练文本分析结果和训练标签而建立的。换言之,标签生成模型是一种经训练的模型,在训练时,其输入是训练文本分析结果,输出是训练标签。通过这样的方式,标签生成模型可以被训练成以特定方式或者从特定视角来生成文档标签。在一些实施例中,标签生成模型可以使用人工神经网络来实现,以提高所生成的标签的准确性。
在一些实施例中,预定模型集合260可以包括语义结构分析模型221、SimNet模型222、主题模型223、上位关注点模型224、热门关注点模型225和欺骗性关注点模型226,等等。在其他实施例中,预定模型集合260也可以包括上述模型中的一项或它们的任何组合。具体地,语义结构分析模型221可以通过分析文档结构和词语的统计信息来抽取关注点。SimNet模型222是一种有监督的神经网络语义匹配模型,其可以通过分析文档语义来预测关注点。主题模型223可以分析和预测文档的主题分类。
上位关注点模型224也可以称为层次化抽取模型,其可以基于多个下位关注点确定出共同的上位关注点。例如,从已有的下位关注点“苹果”和“香蕉”,其可以确定共同的上位关注点“水果”。由此,上位关注点模型224可以用于预测阅读文档110的用户所感兴趣的话题。热门关注点模型225可以用于识别具有时效性的、当前具有较大关注度的关注点。
欺骗性关注点模型226可以用于识别欺骗性的关注点,例如文档110的作者将某个特定词语通过记载在文档110的标题等方式(诸如所谓的“标题党”),而使得该词语通过某个标签生成模型成为文档110的原始标签250之一。但是,文档110的内容可能实际上与该词语无关,欺骗性关注点模型226可以识别出此类“欺骗性”的关注点,而自动地将其排除在目标标签130之外。
基于各种标签生成模型的侧重点,可以使用不同的训练数据来训练这些标签生成模型。例如,语义结构分析模型221可以使用反映文档结构的训练标签来训练,SimNet模型222可以使用反映文档语义的训练标签来训练,主题模型223可以使用反映文档主题的训练标签来训练,上位关注点模型224可以使用反映多个关注点的共同上位关注点的训练标签来训练,热门关注点模型225可以使用反映当前热门关注点的训练标签来训练,欺骗性关注点模型226可以使用反映欺骗性关注点的训练标签来训练,等等。
通过在预定模型层220处对预定模型集合260的管理,标签生成系统120的标签生成模型可以快速地更新,例如可以进行周级别的模型训练和更新,且对于时效性关注点支持快速召回。此外,标签生成系统120的功能扩展成本低,预定模型层的接口简单,可以支持专门的标签生成模型的快速开发。
后处理层230用于优化预定模型层220产生的原始标签250,以得到文档110的目标标签130。在一些实施例中,后处理层230的优化操作可以包括合并231、归一化改写232、歧义消除233、排序234和人工干预235。具体地,合并231是指将文字上重复的多个原始标签250合并为一个标签。归一化改写232是指将表述不同但含义相同的多个原始标签250归一化改写为一个标签。
歧义消除233是指确定具有多种含义的原始标签250的确切含义。例如,“苹果”既可以是指一种水果,也可以是指一种手机。排序234是指对多个原始标签250进行排序。例如,这里的排序可以依据原始标签250与文档110的相关性、重要性、精细度、关注度,等等。人工干预235是指以人工的方式去除明显与文档110不相关的原始标签250。例如,在一篇关于电力使用的文档中,可能出现诸如“几百度电”之类的表述,而导致某个标签生成模型可能提取出“百度”作为该文档的标签。然而,这里的“百度”与该文档的内容明显不具有关联性,因此可以通过人工干预235将其排除在目标标签130之外。
应当理解,尽管图2中示出了后处理层230包括特定数目和特定功能的标签优化操作,但是这些标签优化操作仅为示例性的。在其他实施例中,预处理层210可以包括任何数目和任何功能的标签优化操作,以便对原始标签420进行优化而生成目标标签130。
标签生成系统120通过将预处理和后处理与标签生成功能在架构上分离开,使得在预定模型层220可以实现和整合多种不同的标签生成模型,因此标签生成系统120具有良好的通用性。例如,通过改变预定模型层220的设置,可以快速地支持新的应用场景,诸如从图文变成问答、视频、或者用户生成内容等。下文将参考图3来描述与标签生成系统120有关的操作。
图3示出了根据本公开的实施例的用于生成文档标签的方法300的示意性流程图。在一些实施例中,方法300可以由图1和图2的标签生成系统120来实现,例如可以由标签生成系统120的处理器或处理单元来实现。在其他实施例中,方法300的全部或部分也可以由独立于标签生成系统120的计算设备来实现,或者可以由示例环境100中的其他单元来实现。为便于讨论,将结合图1和图2来描述方法300。
在310处,标签生成系统120对给定的文档110进行文本分析,以得到文档110的文本分析结果240。在一些实施例中,标签生成系统120可以对文档110进行分段、分句、分词、词性标注、命名实体识别和依存关系分析,等等。在其他实施例中,标签生成系统120可以对文档110执行上述操作中的任一项或任何组合。在其他实施例中,标签生成系统120可以对文档110进行任何适当的文本分析,以便进行后续的标签生成操作。以此方式,标签生成系统120可以使得预定模型层220的分析和处理得到简化。在一些实施例中,标签生成系统120的文本分析操作可以通过预处理层210来执行。
在320处,标签生成系统120将文本分析结果240输入到标签生成模型,来生成文档110的原始标签250。标签生成模型是基于训练文本分析结果和训练标签而建立的。在一些实施例中,标签生成系统120的原始标签生成操作可以通过预定模型层220来执行。
如上文提到的,预定模型层220可以是包括一个或多个标签生成模型的预定模型集合260。在这种情况下,为了利用文本分析结果240来生成原始标签250,标签生成系统120可以从预定模型集合260选择一个或多个标签生成模型。在一些实施例中,预定模型集合260可以包括语义结构分析模型221、SimNet模型222、主题模型223、层次化抽取模型224、时效性标签抽取模型225和欺骗性标签识别模型226,等等。
在其他实施例中,预定模型集合260可以包括上述模型中的任一项或任何组合。在另外的实施例中,预定模型集合260可以包括已经开发的或未来开发的任何标签生成模型。以这样的方式,标签生成系统120可以实现和整合多种不同的标签生成模型,从而具有良好的通用性。
在一些实施例中,各种标签生成模型可以基于训练文本的段落、句子、短语、词语、词语序列、词语的词性、依存关系、或统计信息等其他文本分析结果来训练。此外,标签生成模型也可以基于反映文档结构的训练标签、反映文档语义的训练标签、反映文档主题的训练标签、反映多个关注点的共同上位关注点的训练标签、反映当前热门关注点的训练标签或反映欺骗性关注点的训练标签来训练。通过这样的方式,标签生成系统120可以提高各种标签预测模型生成的原始标签250的准确性。
作为一种示例,在对预定模型集合260进行管理时,标签生成系统120可以向预定模型集合260添加新的标签生成模型。此外,响应于预定模型集合260中的标签生成模型未满足预定条件,标签生成系统120可以从预定模型集合260中去除该标签生成模型。此处,预定条件例如可以是所生成的标签的有效性、准确性、一致性等低于预设阈值。
通过这样的方式,标签生成系统120可以快速地被更新而具有新的标签生成模型,并且可以便利地去除不令人满意的原有标签生成模型。此外,标签生成系统120还可以根据不同的关注点预测需求来使用预定模型集合260中的不同标签预测模型或模型组合,从而使得原始标签250的生成更具有针对性。
在330处,标签生成系统120优化原始标签250,以得到文档110的目标标签130。在一些实施例中,标签生成系统120可以对原始标签250进行合并、归一化改写、歧义消除、排序和人工干预,等等。在其他实施例中,标签生成系统120可以对原始标签250进行上述优化操作中的任一项或任何组合。在另外的实施例中,标签生成系统120可以对原始标签250进行任何适当的优化,以便生成目标标签130。在一些实施例中,标签生成系统120的原始标签优化操作可以通过后处理层230来执行。以此方式,标签生成系统120可以提高目标标签130的有效性和准确性。
本公开的实施例相对于传统的标签生成方案实现了有益的技术效果。例如,标签生成系统120可以提供高效准确的标签生成,关注点预测效果明显好于传统标签生成的方案,标签生成的效率也显著高于传统的标签生成方案。
图4示出了根据本公开的实施例的用于生成文档标签的装置400的示意性框图。在一些实施例中,装置400可以被包括在图1的标签生成系统120中或者被实现为标签生成系统120。
如图4所示,装置400包括文本分析模块410、原始标签生成模块420和标签优化模块430。文本分析模块410被配置为对给定的文档进行文本分析,以得到文档的文本分析结果。原始标签生成模块420被配置为将文本分析结果输入到标签生成模型,来生成文档的原始标签,标签生成模型是基于训练文本分析结果和训练标签而建立的。标签优化模块430被配置为优化原始标签,以得到文档的目标标签。
在一些实施例中,装置400还可以包括模型选择模块,模型选择模块被配置为从预定模型集合中选择标签生成模型。预定模型集合包括以下至少一项:语义结构分析模型、SimNet模型、主题模型、层次化抽取模型、时效性标签抽取模型和欺骗性标签识别模型。
在一些实施例中,装置400可以进一步包括以下至少一项:模型添加模块,被配置为向预定模型集合添加新的标签生成模型;以及模型去除模块,被配置为响应于预定模型集合中的标签生成模型未满足预定条件,从预定模型集合中去除标签生成模型。
在一些实施例中,标签生成模型是基于以下至少一项来训练的:反映文档结构的训练标签、反映文档语义的训练标签、反映文档主题的训练标签、反映多个关注点的共同上位关注点的训练标签、反映当前热门关注点的训练标签或反映欺骗性关注点的训练标签。
在一些实施例中,标签优化模块430进一步被配置为针对原始标签执行以下至少一项:合并、归一化改写、歧义消除、排序和人工干预。
在一些实施例中,文本分析模块410进一步被配置为针对文档执行以下至少一项:分段、分句、分词、词性标注、命名实体识别和依存关系分析。
图5示意性地示出了一种可以被用来实施本公开的实施例的设备500的框图。如图5中所示出的,设备500包括中央处理单元(CPU)501,其可以根据存储在只读存储设备(ROM)502中的计算机程序指令或者从存储单元508加载到随机访问存储设备(RAM)503中的计算机程序指令,来执行各种适当的动作和处理。在RAM 503中,还可存储设备500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
设备500中的多个部件连接至I/O接口505,包括:输入单元506,例如键盘、鼠标等;输出单元507,例如各种类型的显示器、扬声器等;存储单元508,例如磁盘、光盘等;以及通信单元509,例如网卡、调制解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
上文所描述的各个过程和处理,例如方法300可由处理单元501来执行。例如,在一些实施例中,方法300可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元508。在一些实施例中,计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序被加载到RAM 503并由CPU 501执行时,可以执行上文描述的方法300的一个或多个步骤。
如本文所使用的,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。本文还可能包括其他明确的和隐含的定义。
如本文所使用的,术语“确定”涵盖各种各样的动作。例如,“确定”可以包括运算、计算、处理、导出、调查、查找(例如,在表格、数据库或另一数据结构中查找)、查明等。此外,“确定”可以包括接收(例如,接收信息)、访问(例如,访问存储器中的数据)等。此外,“确定”可以包括解析、选择、选取、建立等。
应当注意,本公开的实施例可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。
此外,尽管在附图中以特定顺序描述了本公开的方法的操作,但是这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。相反,流程图中描绘的步骤可以改变执行顺序。附加地或备选地,可以省略某些步骤,将多个步骤组合为一个步骤执行,和/或将一个步骤分解为多个步骤执行。还应当注意,根据本公开的两个或更多装置的特征和功能可以在一个装置中具体化。反之,上文描述的一个装置的特征和功能可以进一步划分为由多个装置来具体化。
虽然已经参考若干具体实施例描述了本公开,但是应当理解,本公开不限于所公开的具体实施例。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等效布置。

Claims (14)

1.一种用于生成文档标签的方法,包括:
对给定的文档进行文本分析,以得到所述文档的文本分析结果;
将所述文本分析结果输入到标签生成模型,来生成所述文档的原始标签,所述标签生成模型是基于训练文本分析结果和训练标签而建立的;以及
优化所述原始标签,以得到所述文档的目标标签。
2.根据权利要求1所述的方法,还包括:
从预定模型集合中选择所述标签生成模型,所述预定模型集合包括以下至少一项:
语义结构分析模型、SimNet模型、主题模型、层次化抽取模型、时效性标签抽取模型和欺骗性标签识别模型。
3.根据权利要求2所述的方法,进一步包括以下至少一项:
向所述预定模型集合添加新的标签生成模型;以及响应于所述预定模型集合中的标签生成模型未满足预定条件,从所述预定模型集合中去除所述标签生成模型。
4.根据权利要求1所述的方法,其中所述标签生成模型是基于以下至少一项来训练的:
反映文档结构的训练标签、反映文档语义的训练标签、反映文档主题的训练标签、反映多个关注点的共同上位关注点的训练标签、反映当前热门关注点的训练标签或反映欺骗性关注点的训练标签。
5.根据权利要求1所述的方法,其中优化所述原始标签包括针对所述原始标签执行以下至少一项:
合并、归一化改写、歧义消除、排序和人工干预。
6.根据权利要求1所述的方法,其中对给定的文档进行文本分析包括针对所述文档执行以下至少一项:
分段、分句、分词、词性标注、命名实体识别和依存关系分析。
7.一种用于生成文档标签的装置,包括:
文本分析模块,被配置为对给定的文档进行文本分析,以得到所述文档的文本分析结果;
原始标签生成模块,被配置为将所述文本分析结果输入到标签生成模型,来生成所述文档的原始标签,所述标签生成模型是基于训练文本分析结果和训练标签而建立的;以及标签优化模块,被配置为优化所述原始标签,以得到所述文档的目标标签。
8.根据权利要求7所述的装置,还包括:
模型选择模块,被配置为从预定模型集合中选择所述标签生成模型,所述预定模型集合包括以下至少一项:
语义结构分析模型、SimNet模型、主题模型、层次化抽取模型、时效性标签抽取模型和欺骗性标签识别模型。
9.根据权利要求8所述的装置,进一步包括以下至少一项:
模型添加模块,被配置为向所述预定模型集合添加新的标签生成模型;以及
模型去除模块,被配置为响应于所述预定模型集合中的标签生成模型未满足预定条件,从所述预定模型集合中去除所述标签生成模型。
10.根据权利要求7所述的装置,其中所述标签生成模型是基于以下至少一项来训练的:
反映文档结构的训练标签、反映文档语义的训练标签、反映文档主题的训练标签、反映多个关注点的共同上位关注点的训练标签、反映当前热门关注点的训练标签或反映欺骗性关注点的训练标签。
11.根据权利要求7所述的装置,其中所述标签优化模块进一步被配置为针对所述原始标签执行以下至少一项:
合并、归一化改写、歧义消除、排序和人工干预。
12.根据权利要求7所述的装置,其中所述文本分析模块进一步被配置为针对所述文档执行以下至少一项:
分段、分句、分词、词性标注、命名实体识别和依存关系分析。
13.一种电子设备,包括:
一个或多个处理器;以及存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-6中任一项所述的方法。
14.一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如权利要求1-6中任一项所述的方法。
CN201810696336.4A 2018-06-29 2018-06-29 用于生成文档标签的方法、装置、电子设备和存储介质 Active CN108875059B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810696336.4A CN108875059B (zh) 2018-06-29 2018-06-29 用于生成文档标签的方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810696336.4A CN108875059B (zh) 2018-06-29 2018-06-29 用于生成文档标签的方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN108875059A true CN108875059A (zh) 2018-11-23
CN108875059B CN108875059B (zh) 2021-02-12

Family

ID=64297142

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810696336.4A Active CN108875059B (zh) 2018-06-29 2018-06-29 用于生成文档标签的方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN108875059B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109376309A (zh) * 2018-12-28 2019-02-22 北京百度网讯科技有限公司 基于语义标签的文档推荐方法和装置
CN109918662A (zh) * 2019-03-04 2019-06-21 腾讯科技(深圳)有限公司 一种电子资源的标签确定方法、装置和可读介质
CN110287785A (zh) * 2019-05-20 2019-09-27 深圳壹账通智能科技有限公司 文本结构化信息提取方法、服务器及存储介质
CN110347921A (zh) * 2019-07-04 2019-10-18 有光创新(北京)信息技术有限公司 一种多模态数据信息的标签抽取方法及装置
CN110765778A (zh) * 2019-10-23 2020-02-07 北京锐安科技有限公司 一种标签实体处理方法、装置、计算机设备和存储介质
CN110888857A (zh) * 2019-10-14 2020-03-17 平安科技(深圳)有限公司 基于神经网络的数据标签生成方法、装置、终端及介质
CN111079445A (zh) * 2019-12-27 2020-04-28 南京三百云信息科技有限公司 基于语义模型的训练方法、装置以及电子设备
CN112395528A (zh) * 2019-08-13 2021-02-23 阿里巴巴集团控股有限公司 文本标签判别方法、装置、电子设备及存储介质
CN113220872A (zh) * 2021-02-08 2021-08-06 民生科技有限责任公司 一种文档标签生成方法、系统及可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106446135A (zh) * 2016-09-19 2017-02-22 北京搜狐新动力信息技术有限公司 一种多媒体数据标签生成方法和装置
US9734138B2 (en) * 2015-09-07 2017-08-15 Voicebox Technologies Corporation System and method of annotating utterances based on tags assigned by unmanaged crowds
CN107239564A (zh) * 2017-06-13 2017-10-10 南京大学 一种基于监督主题模型的文本标签推荐方法
CN107463701A (zh) * 2017-08-15 2017-12-12 北京百度网讯科技有限公司 基于人工智能推送信息流的方法和装置
CN107491436A (zh) * 2017-08-21 2017-12-19 北京百度网讯科技有限公司 一种标题党识别方法和装置、服务器、存储介质
CN107861948A (zh) * 2017-11-16 2018-03-30 百度在线网络技术(北京)有限公司 一种标签提取方法、装置、设备和介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9734138B2 (en) * 2015-09-07 2017-08-15 Voicebox Technologies Corporation System and method of annotating utterances based on tags assigned by unmanaged crowds
CN106446135A (zh) * 2016-09-19 2017-02-22 北京搜狐新动力信息技术有限公司 一种多媒体数据标签生成方法和装置
CN107239564A (zh) * 2017-06-13 2017-10-10 南京大学 一种基于监督主题模型的文本标签推荐方法
CN107463701A (zh) * 2017-08-15 2017-12-12 北京百度网讯科技有限公司 基于人工智能推送信息流的方法和装置
CN107491436A (zh) * 2017-08-21 2017-12-19 北京百度网讯科技有限公司 一种标题党识别方法和装置、服务器、存储介质
CN107861948A (zh) * 2017-11-16 2018-03-30 百度在线网络技术(北京)有限公司 一种标签提取方法、装置、设备和介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李鑫鑫: "自然语言处理中序列标注问题的联合学习方法研究", 《中国优秀博士学位论文全文库信息科技辑》 *
郭剑飞: "基于LDA多模型中文短文本主题分类体系构建与分类", 《中国优秀硕士学位论文全文库信息科技辑》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11216504B2 (en) 2018-12-28 2022-01-04 Beijing Baidu Netcom Science And Technology Co., Ltd. Document recommendation method and device based on semantic tag
CN109376309A (zh) * 2018-12-28 2019-02-22 北京百度网讯科技有限公司 基于语义标签的文档推荐方法和装置
CN109376309B (zh) * 2018-12-28 2022-05-17 北京百度网讯科技有限公司 基于语义标签的文档推荐方法和装置
CN109918662A (zh) * 2019-03-04 2019-06-21 腾讯科技(深圳)有限公司 一种电子资源的标签确定方法、装置和可读介质
CN110287785A (zh) * 2019-05-20 2019-09-27 深圳壹账通智能科技有限公司 文本结构化信息提取方法、服务器及存储介质
CN110347921A (zh) * 2019-07-04 2019-10-18 有光创新(北京)信息技术有限公司 一种多模态数据信息的标签抽取方法及装置
CN112395528A (zh) * 2019-08-13 2021-02-23 阿里巴巴集团控股有限公司 文本标签判别方法、装置、电子设备及存储介质
CN110888857A (zh) * 2019-10-14 2020-03-17 平安科技(深圳)有限公司 基于神经网络的数据标签生成方法、装置、终端及介质
CN110888857B (zh) * 2019-10-14 2023-11-07 平安科技(深圳)有限公司 基于神经网络的数据标签生成方法、装置、终端及介质
CN110765778A (zh) * 2019-10-23 2020-02-07 北京锐安科技有限公司 一种标签实体处理方法、装置、计算机设备和存储介质
CN110765778B (zh) * 2019-10-23 2023-08-29 北京锐安科技有限公司 一种标签实体处理方法、装置、计算机设备和存储介质
CN111079445A (zh) * 2019-12-27 2020-04-28 南京三百云信息科技有限公司 基于语义模型的训练方法、装置以及电子设备
CN113220872A (zh) * 2021-02-08 2021-08-06 民生科技有限责任公司 一种文档标签生成方法、系统及可读存储介质

Also Published As

Publication number Publication date
CN108875059B (zh) 2021-02-12

Similar Documents

Publication Publication Date Title
CN108875059A (zh) 用于生成文档标签的方法、装置、电子设备和存储介质
CN109145294B (zh) 文本实体识别方法及装置、电子设备、存储介质
CN112347310B (zh) 事件处理信息的查询方法、装置、计算机设备和存储介质
CN112395539B (zh) 一种基于自然语言处理的舆情风险监测方法及系统
CN109271624A (zh) 一种目标词确定方法、装置及存储介质
Hou et al. Fewjoint: A few-shot learning benchmark for joint language understanding
KR20200071877A (ko) 자율 증강형 반복 학습을 이용한 정보 추출 방법 및 시스템
CN112183102A (zh) 基于注意力机制与图注意力网络的命名实体识别方法
Deokar et al. Semantics-based event log aggregation for process mining and analytics
Menezes et al. Building a massive corpus for named entity recognition using free open data sources
CN113919336A (zh) 基于深度学习的文章生成方法、装置及相关设备
Ackermann et al. Data-driven annotation of textual process descriptions based on formal meaning representations
Pullar-Strecker et al. Hitting the target: stopping active learning at the cost-based optimum
JP2022082524A (ja) 機械学習を通じての学習モデルを使った情報提供方法および装置
US20220100967A1 (en) Lifecycle management for customized natural language processing
CN116974554A (zh) 代码数据处理方法、装置、计算机设备和存储介质
CN113569578B (zh) 一种用户意图识别方法、装置和计算机设备
CN109446318A (zh) 一种确定汽车维修文档主题的方法及相关设备
AU2019290658B2 (en) Systems and methods for identifying and linking events in structured proceedings
CN115221323A (zh) 基于意图识别模型的冷启动处理方法、装置、设备及介质
CN114529191A (zh) 用于风险识别的方法和装置
CN111199170B (zh) 配方文件识别方法及装置、电子设备、存储介质
Lin et al. Realtime event summarization from tweets with inconsistency detection
KR20200112353A (ko) 주제별 단어 또는 문서의 관계성 분석 방법 및 이를 구현하는 장치
CN113127576B (zh) 一种基于用户内容消费分析的热点发现方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant