CN114495143B - 一种文本对象识别方法、装置、电子设备及存储介质 - Google Patents

一种文本对象识别方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114495143B
CN114495143B CN202111596384.4A CN202111596384A CN114495143B CN 114495143 B CN114495143 B CN 114495143B CN 202111596384 A CN202111596384 A CN 202111596384A CN 114495143 B CN114495143 B CN 114495143B
Authority
CN
China
Prior art keywords
document
chapter
proper noun
document data
tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111596384.4A
Other languages
English (en)
Other versions
CN114495143A (zh
Inventor
黄昉
史亚冰
蒋烨
柴春光
朱勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202111596384.4A priority Critical patent/CN114495143B/zh
Publication of CN114495143A publication Critical patent/CN114495143A/zh
Application granted granted Critical
Publication of CN114495143B publication Critical patent/CN114495143B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种文本对象识别方法、装置、电子设备及存储介质,涉及人工智能技术领域,尤其涉及自然语言处理、知识图谱等领域。具体实现方案为:对文档数据进行文档结构解析,得到文档树;根据所述文档树,得到文本对象在所述文档数据中的章节范围;从所述文档数据中的章节范围,识别出所述文本对象。采用本公开,可以从大量的文档数据中识别出不同行业的行业术语。

Description

一种文本对象识别方法、装置、电子设备及存储介质
技术领域
本公开涉及人工智能技术领域,尤其涉及自然语言处理、知识图谱等领域。
背景技术
各行各业中存在不同的行业术语(如专有名词),要想实现行业中大规模知识图谱的构建,需要从大量的文档数据中识别出不同行业的行业术语。
发明内容
本公开提供了一种文本对象识别方法、装置、电子设备以及存储介质。
根据本公开的一方面,提供了一种文本对象识别方法,包括:
对文档数据进行文档结构解析,得到文档树;
根据所述文档树,得到文本对象在所述文档数据中的章节范围;
从所述文档数据中的章节范围,识别出所述文本对象。
根据本公开的另一方面,提供了一种文本对象识别装置,包括:
解析单元,用于对文档数据进行文档结构解析,得到文档树;
章节范围确定单元,用于根据所述文档树,得到文本对象在所述文档数据中的章节范围;
文本识别单元,用于从所述文档数据中的章节范围,识别出所述文本对象。
根据本公开的另一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与该至少一个处理器通信连接的存储器;其中,
该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个处理器执行,以使该至少一个处理器能够执行本公开任意一实施例所提供的方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使该计算机执行本公开任意一项实施例所提供的方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机指令,该计算机指令被处理器执行时实现本公开任意一项实施例所提供的方法。
采用本公开,可以对文档数据进行文档结构解析,得到文档树,根据该文档树可以得到文本对象在该文档数据中的章节范围,从该文档数据中的章节范围可以识别出该文本对象,从而可以从大量的文档数据中识别出不同行业的行业术语。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开实施例的包括行业术语一文档数据的示意图;
图2是根据本公开实施例的行业术语一分布式集群处理场景的示意图;
图3是根据本公开实施例的文本对象为专有名词情况下的识别场景图;
图4是根据本公开实施例的文本对象识别方法的流程示意图;
图5是根据本公开实施例的文本对象识别装置的组成结构示意图;
图6是用来实现本公开实施例的文本对象识别方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。本文中术语“第一”、“第二”表示指代多个类似的技术用语并对其进行区分,并不是限定顺序的意思,或者限定只有两个的意思,例如,第一特征和第二特征,是指代有两类/两个特征,第一特征可以为一个或多个,第二特征也可以为一个或多个。
另外,为了更好的说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。
不同的行业(如金融行业、电力行业、物理、化学、计算机等)中存在各自不同的行业术语(如专有名词),行业术语存在于各种类型的文档数据(如半结构化的表格)中。图1是根据本公开实施例的包括行业术语一文档数据的示意图,如图1所示,在电力行业中包括一些项目的条目“四氧化碳、空气、湿度、酸度、纯度、毒性、矿物油、可水解氟化物”,这些条目属于专有名词。不同的行业中存在的文档数据是大规模的,虽然可以通过文本相似度、半结构化数据等信息来实现文档数据中文本对象(如专有名词)的识别,但是识别精确度和识别成本很高。
如果可以提高识别精确度和降低识别成本,则能实现可拓展的、低成本的专名词库(即专有名词的数据库)的构建,通过该专名词库的构建,可以辅助在各行各业中实现大规模的知识图谱构建。
行业知识图谱(简称行业图谱)的行业市场规模很大,其中金融行业、法律行业、电力行业等重要领域占比超过50%。在这些行业中,产生了大量直接或间接依赖于行业图谱的需求与功能,例如金融行业的智能客服、智能投研、智能投顾、风控决策等;法律行业的智能搜索、法律推理、智能判案、文书撰审等。而基于各行各业文档数据的专名词库构建,是整个行业图谱的基础,只有将上述专有名词识别出来,才能在此基础上对行业图谱进行知识抽取、计算、推理等一系列计算机可执行的处理操作。
在各行各业中,相关公司、机构积累了大量的专业文档数据,用以支持组织决策、内部培训等,文档数据中蕴含了丰富的专有名词。大部分行业中的专业文档数据,可以采用半结构化的表格为主体形式来组织的,其中包含了大量的专有名词的属性信息,可以为行业图谱的构建提供十分重要的参考信息。
以专有名词构成的上述专名词库为例,主要通过以下两种方式来进行:
(1)专家定制。通过行业专家对于行业的专业知识的理解和对用户需求的了解,从文本数据中整理出相关的专有名词,以构建专名词库词库。方案(1)的这种方式,不仅要求行业专家对于行业数据有着充分的了解,还需要对同一个词在不同环境下的多种叫法进行整理和归一,以形成无歧义的专名词库,行业专家需要对专有名词的充分了解才行,实际上难度很高,导致专名词库的更新速度低,涵盖的行业范围少,每个行业范围下的专有名词门类也比较少。
(2)通过类似于中文命名实体识别(Named Entity Recognition,NER)技术来对文本数据中的专有名词进行识别。方案(2)的这种方式,要求对于用于构建的文本数据在质量、尤其是数量上提出了很高的要求,而一般模型训练的数据,很少有行业门类的数据,需要重新去收集各个行业的数据以作为模型的训练数据,也就是说,行业中难以获取到大量的训练数据来进行模型训练,导致使用NER技术的模型去识别专有名词,不仅识别精度低,且识别成本高。
根据本公开的实施例,图2是根据本公开实施例的行业术语一分布式集群处理场景的示意图,该分布式集群系统为集群系统的一个示例,示例性的描述了可以利用该分布式集群系统进行文档数据中文本对象的识别,该文本对象可以是各行各业中的专有名词,本公开不限于单机或多机上的文本对象识别,采用分布式的处理可以进一步提高识别速度。如图1所示,在该分布式集群系统中包括多个节点(如服务器集群201、服务器202、服务器集群203、服务器204、服务器205,服务器205还可以连接电子设备,如手机2051及台式机2052),多个节点间,以及多个节点与连接的电子设备间可以共同执行一个或多个识别处理任务。可选地,该分布式集群系统中的多个节点可以采用数据并行的识别处理方式,则多个节点可以基于相同的识别处理方式执行识别处理任务。可选地,在每一轮识别处理完成后,多个节点之间还可以进行数据交换(如数据同步)。
图3是根据本公开实施例的文本对象为专有名词情况下的识别场景图,可以应用于图2所示的集群系统,针对识别处理任务,如从一个文本数据301中识别出专有名词,以将该专有名词整理成专名词库,将该专名词库用于行业图谱304的构建,识别处理过程包括:对文档数据301进行文档结构解析后得到文档树302,根据文档树302得到专有名词303在文档数据302中的章节范围(该专有名词位于段落2.1-段落2.2这个章节范围内),最终从文档数据301中的章节范围识别出该专有名词303。
根据本公开的实施例,提供了一种文本对象识别方法,图4是根据本公开实施例的文本对象识别方法的流程示意图,该方法可以应用于文本对象识别装置,例如,该装置可以部署于单机、多机或集群系统中的终端或服务器或其它处理设备执行的情况下,可以实现文本对象识别等等处理。其中,终端可以为用户设备(UE,User Equipment)、移动设备、个人数字处理(PDA,Personal Digital Assistant)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中,该方法还可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。如图4所示,该方法应用于图2所示的集群系统中的任一节点或电子设备(手机或台式机等)中,包括:
S401、对文档数据进行文档结构解析,得到文档树。
S402、根据所述文档树,得到文本对象在所述文档数据中的章节范围。
S403、从所述文档数据中的章节范围,识别出所述文本对象。
S401-S403的一示例中,对文档数据(如金融行业、电力行业、法律行业等重要领域中包含专有名词的多个行业文档数据)进行文档结构解析,得到文档树,其中,“树”是一种数据结构,可以由n(n≥1)个有限节点组成一个具有层次关系的数据集合,该数据集合称之“树”,是因为它看起来像一棵倒挂的树,也就是说它是根朝上,而叶朝下的。针对文档数据的处理,为了便于计算机识别数据,将文档数据转换为该文档树,文档树中的每个节点可以有一个或多个子节点(没有父节点的节点称为根节点,每一个非根节点有且只有一个父节点,除了根节点外,每个子节点可以分为多个不相交的子树)。由于该文档树包括了文档数据中完整的章节逻辑及相应的文档结构信息,因此,根据该文档树,抽取该章节逻辑及相应的文档结构信息,可以得到文本对象(如专有名词)在该行业文档数据中的章节范围,最终从该行业文档数据中的章节范围将该专有名词识别出来。
需要指出的是,转换为上述文档树,计算机不仅便于识别数据,还可以快速定位到待识别的检索空间,比如,文档数据包括好多章节,专有名词可能在第二章,那么,基于该文档树利于快速定位,从而在第二章的章节范围去识别该专有名词,达到快速定位专有名词章节范围的目的。
采用本公开,通过对文档数据(如行业文档数据)的文档结构解析,可以得到文档树,根据该文档树可以得到文本对象(如专有名词)在该文档数据中的章节范围,从该文档数据中的章节范围可以识别出该文本对象,从而可以从大量的文档数据中识别出不同行业的行业术语(如专有名词)。
一实施方式中,对文档数据进行文档结构解析,得到文档树,包括以下方式中的至少之一:
方式1、根据该文档数据中的不同标签语义进行文档结构解析,得到该文档树;或者,
方式2、将该文档数据根据段落关系进行文档结构解析,得到该文档树。
采用本实施方式,可以通过多种方式的择一方式或组合方式对文档数据进行文档结构解析,针对性的解析,可以提高解析精确度。
一种实施方式中,根据文档数据中的不同标签语义进行文档结构解析,得到文档树,包括:根据该文档数据中的不同标签语义,对该文档数据进行文档结构的拆分和/或转换处理,得到所述文档树。采用本实施方式,不同的标签对应不同的标签类型,不同的标签类型有定义好的含义,称之为:该标签语义,比如,标签“table”指表格;标签“LIST”指列表,相应的,比如对于表格的处理,对于列表的处理是不同的,因此,需要根据该文档数据中的不同标签语义,对该文档数据进行针对性的文档结构拆分和/或转换处理,以得到更为精确的文档树,以便后续根据该文档树可以精确的识别出文本对象(如专有名词)在该文档数据中的章节范围。
一实施方式中,将文档数据根据段落关系进行文档结构解析,得到文档树,包括:将该文档数据转换成包括多个段落的文档结构,对该多个段落进行分类比对,得到段落关系。根据该段落关系得到该文档树。采用本实施方式,可以先把该文档数据转换成多个段落,可以采用分类模型(如卷积神经网络模型)对多个段落进行分类,通过多个段落的分类比对,得到文档数据中多个段落之间的段落关系(比如,将每个段落和它前面的段落进行段落关系的分类识别,以得到该段落关系),根据该段落关系可以得到更为精确的文档树,以便后续根据该文档树可以精确的识别出文本对象(如专有名词)在该文档数据中的章节范围。
一实施方式中,还包括:根据文档树得到文本对象在文档数据中的章节范围的情况下,根据对该文档数据中文档章节内容的识别,得到该文本对象所在的第一位置区间。其中,该文本对象所在的第一位置区间,在该文档数据中的章节范围之内,如第一位置区间位于一个文档数据的标题1.1之后,段落1.1.2之前,或者段落1.1.1-段落1.1.2之内等等。采用本实施方式,为了提高专有名词在文档数据中具体章节范围的准确度,可选的,可以在上述“根据文档树,得到文本对象在文档数据中的章节范围”步骤的基础上,通过对文档章节内容的理解(即:根据对该文档数据中文档章节内容的识别,得到该文本对象所在的第一位置区间)来更好的定位出专有名词的具体位置,该第一位置区间在所述文档数据中的章节范围之内,即:缩小了专有名词的识别搜索范围,从而提高了识别精度,降低了识别成本。
一实施方式中,根据对文档数据中文档章节内容的识别,得到文本对象所在的第一位置区间,包括以下方式中的至少之一:
方式1、结合所述文档树及关键词进行所述文档章节内容的识别,得到所述文本对象所在的第一位置区间;或者,
方式2、结合所述文档树及文档格式进行所述文档章节内容的识别,得到所述文本对象所在的第一位置区间。
采用本实施方式,可以通过多种方式的择一方式或组合方式对文档章节内容进行识别,针对性的识别,可以提高识别精确度。
一实施方式中,结合文档树及关键词进行文档章节内容的识别,得到文本对象所在的第一位置区间,包括:结合该文档树及关键词进行该文档章节内容的识别,得到与该关键词匹配的第一章节内容,将该第一章节内容确定为该文本对象所在的第一位置区间。采用本实施方式,关键词可以包括:已配置的指定关键词词表,可以通过该指定关键词词表,匹配得到该第一章节内容,将该第一章节内容确定为该文本对象所在的第一位置区间,从而提高了识别精度。
一实施方式中,结合文档树及文档格式进行文档章节内容的识别,得到文本对象所在的第一位置区间,包括:结合该文档树及文档格式进行该文档章节内容的识别,得到与该文档格式匹配的第二章节内容,将该第二章节内容确定为该文本对象所在的第一位置区间。采用本实施方式,该文档格式包括:加粗标识、前置标识、颜色标识、关键词类型标识中的至少一种格式,可以通过该文档格式,匹配得到该第二章节内容,将该第二章节内容确定为该文本对象所在的第一位置区间,从而提高了识别精度。
一实施方式中,从文档数据中的章节范围,识别出文本对象,包括以下方式中的至少之一:
方式1、根据文档样式的特征打分结果,将所述文本对象从所述文档数据中的章节范围识别出来;或者,
方式2、根据识别模型,将所述文本对象从所述文档数据中的章节范围识别出来;或者,
方式3、根据所述文本对象的位置分布相似度,将所述文本对象从所述文档数据中的章节范围识别出来。
采用本实施方式,比如,得到上述文本对象所在的第一位置区间(如专有名词释义章节范围)后,可以通过多种方式的择一方式或组合方式从该文本对象所在的第一位置区间识别出文本对象(如专有名词),针对性的识别,即:多个特征打分、基于NER技术的识别模型(如卷积神经网络)、位置分布相似度可以提高识别精确度。
下面对上述本公开实施例提供的文本对象识别方法进行示例说明。
本应用示例中,可以从结构化/半结构化的文档数据中识别出专有名词,比如,输入XML/HTML等具有语义形式表达的文档数据,通过本公开实施例的文本对象识别方法,输出文档数据中包含的专有名词,可选的,还可以进一步让专家进行整体核对,从而辅助专家定制方式的行业专名词库的构建。
在文本对象识别过程中,可以先识别文档数据的结构,以明确整个文档数据中哪些章节范围包括是对于专有名词的的说明和解释,然后再识别出章节范围中的专有名词,以及相关的其他信息(比如专有名词的别名、专有名词的释义等)。其中,通过识别该专有名词的别名,可以明确专有名词和别名是否为同一个意思,如果是同一个意思则将二者进行统一;通过专有名词的释义,比如英语字典除了给出英文对应的中文解释,还有英英的释义,通过该英英的释义可以对专有名词进行引申解释说明。具体的,该文本对象识别过程包括以下内容:
一、文档结构解析。主要包括以下几个步骤:
1)文档层次解析:通过对XML/HTML等类型的文档数据进行章节的层次化解析,将文档数据转换成类似“树”的数据结构(即:文档树),该文档树包含完整的章节逻辑和信息。
该文档层次解析可以通过如下方式的择一或组合方法:
i.基于样式:通过对HTML/XML等文档数据的标签语义,按照对应标签语义的语义规则(文档数据存在标签,而标签基于标签类型的不同定义了不同的标签语义,也就是说,不同的标签类型有不同的标签语义,比如,表格,列表,段落信息等等,需要利用该标签语义和对应标签语义的规则进行处理,对于表格的处理,对于列表的处理,对于段落信息的处理,都是不同的处理方式)进行拆分和转换。通过针对不同处理方式的拆分和/或转换,根据深度优先的遍历方式,可以将整个文档数据转换成文档树。其中,除了利用该标签语义,还可以利用多个标签的嵌套关系等进行拆分和/或转换。
ii.基于分类模型:通过对一个文档数据中的部分文档进行标注,对每个标注标签内的部分文本进行层次深度的分类,或者对于文本和前序文本的关系进行分类(如同级、上级、下级)等,将文档数据的文档层次解析转换为分类问题,得到最终的文档树。比如,当前段落是标题1.1的第一章,那么当前这个段落就是标题1.1的下级,打上“下级”的分类,相应的,标题1.1是当前段落的上级,打上“上级”的分类;又如,正文1.2是1个段落,正文1.3是一个段落。基于该分类模型判断正文1.2和正文1.3的段落关系,正文1.2是正文1.3的“上级”,相应的,正文1.3是正文1.2的“下级”;又如,1.1标题后面有很多的正文,这些正文是“同级”的分类等,不做赘述。
2)文档章节内容理解:识别出整个文档数据中,对于专有名词释义的章节,然后进行后续的识别处理。该步骤可以通过如下识别方式进行:
i.基于关键词:在形成文档树之后,可以对章节标题节点通过人工指定的关键词词表进行判断,包含或与关键词相似的标题,即认为是描述专有名词的章节(例如:「术语定义」等章节标题),比如,文本数据中有一段称之为关键词(Keywords)的部分,这一段都是专有名词;又如,文本数据中有一段称之为缩略语解释的部分,认为这些段落包括专词,从而,更快识别出专有名词所在的第一位置区间。
ii.基于样式:通过判断文档数据中的一些特殊样式,例如加粗、前置、特殊颜色、关键词的值(Keywords value,KV)类型等形式,这些形式都是是词语解释性的专有名词,从而,更快识别出专有名词所在的第一位置区间。其中,KV类型的一个示例“二氧化碳指:碳氧化合物,是空气中常见的化合物”,二氧化碳就是一个专有名词。
二、专名识别。在上述步骤得到了具体的专有名词所在章节范围(缩小识别范围后可以是上述第一位置区间)后,可以通过特征打分及加权计算识别出专有名词;还可以通过识别模型进行特征识别,识别出该专有名词。
该识别处理可以通过如下方式的择一或组合方法:
1)基于样式进行特征打分计算:
i.HTML样式,如加粗、颜色、加强等表头类标签的数量;
ii.表达形式:如果是KV类型的表达,K部分为专名,V部分为专有名词的释义;
iii.类型相似度:每一行文本数据是否是统一的类型(如以数字、英文等结尾的词);
iv.是否包含特定关键词;
2)基于识别模型:通过NER技术的识别模型在章节范围内对单句粒度的句子进行识别,获取到相关的专有名词。
需要指出的是:相比常规的NER技术所针对的训练数据,很少有行业门类的数据,需要重新去收集各个行业的数据以作为模型的训练数据,本应用示例中基于NER技术的识别模型,所针对的训练数据,已经是经过该文档层次解析后得到的包含专有名词的章节范围,无需专门去收集整理行业门类的数据,则通过模型训练得到的该识别模型,不仅识别精度高,且识别成本低(降低了人工成本)。
3)基于专有名词的位置分布相似度:通过前面两种识别方式1)-2)得到的专有名词后,可能还有遗漏的待识别的专有名词,也就是说,还有专有名词没有从上述章节范围内被识别出来,比如文档数据的某一段中有重复的章节部分“A、B、C”,A、B、C中包含的内容实际上表示同一个专有名词,通过前面两种识别方法1)-2)只识别出A、B、可是漏了C,那么,就需要通过当前识别方式3)来识别C与A和B的位置分布相似度,最终把C也识别出来,即C也是包含专有名词的章节部分。统计出位置、专有名词特征、XPATH信息等,将这些信息作为特征,在整个文档数据中辅助多个段落关系的分类判断,得到候选的章节/句子。然后重复上述该文档层次解析及专名识别步骤,可以扩展出更多专有名词的识别结果,得到更为全面的专有名词候选集合。
采用本应用示例,不仅可以提高针对专有名词的识别精度,而且,所依赖的数据少(行业图谱与通用的知识图谱不同,专有名词的类型有限,单一文档的描述内容较为集中,所以只需要对每类专有名词提供少量文档,就可以自动识别出涵盖大部分专有名词的候选集合);还可以降低人力成本(通过以上的识别方式获取到候选的专有名词的集合,之后只需要对候选集中的每个专有名词与专家合作进行判断以及简单的正式化,就可以得到专有名词的列表,减少了专家的整理范围,节省人力成本)。
根据本公开的实施例,提供了一种文本对象识别装置,图5是根据本公开实施例的文本对象识别装置的组成结构示意图,如图5所示,文本对象识别装置500包括:解析单元501,用于对文档数据进行文档结构解析,得到文档树;章节范围确定单元502,用于根据所述文档树,得到文本对象在所述文档数据中的章节范围;文本识别单元503,用于从所述文档数据中的章节范围,识别出所述文本对象。
一实施方式中,所述解析单元,用于采用包括以下方式中的至少之一进行解析:
方式1、根据所述文档数据中的不同标签语义进行所述文档结构解析,得到所述文档树;或者,
方式2、将所述文档数据根据段落关系进行所述文档结构解析,得到所述文档树;
其中,所述文档树包括:所述文档数据中完整的章节逻辑及相应的文档结构信息。
一实施方式中,所述解析单元,用于:根据所述文档数据中的不同标签语义,对所述文档数据进行文档结构的拆分和/或转换处理,得到所述文档树。
一实施方式中,所述解析单元,用于:将所述文档数据转换成包括多个段落的文档结构;对所述多个段落进行分类比对,得到段落关系;根据所述段落关系,得到所述文档树。
一实施方式中,还包括位置识别单元,用于:根据对所述文档数据中文档章节内容的识别,得到所述文本对象所在的第一位置区间;所述文本对象所在的第一位置区间,在所述文档数据中的章节范围之内。
一实施方式中,所述位置识别单元,用于采用包括以下方式中的至少之一确定第一位置区间的位置:
方式1、结合所述文档树及关键词进行所述文档章节内容的识别,得到所述文本对象所在的第一位置区间;或者,
方式2、结合所述文档树及文档格式进行所述文档章节内容的识别,得到所述文本对象所在的第一位置区间。
一实施方式中,所述位置识别单元,用于:结合所述文档树及关键词进行所述文档章节内容的识别,得到与所述关键词匹配的第一章节内容,将所述第一章节内容确定为所述文本对象所在的第一位置区间。
一实施方式中,所述位置识别单元,用于:结合所述文档树及文档格式进行所述文档章节内容的识别,得到与所述文档格式匹配的第二章节内容,将所述第二章节内容确定为所述文本对象所在的第一位置区间;其中,所述文档格式包括:加粗标识、前置标识、颜色标识、关键词类型标识中的至少一种格式。
一实施方式中,所述文本识别单元,用于采用包括以下方式中的至少之一识别出所述文本对象:
方式1、根据文档样式的特征打分结果,将所述文本对象从所述文档数据中的章节范围识别出来;或者,
方式2、根据识别模型,将所述文本对象从所述文档数据中的章节范围识别出来;或者,
方式3、根据所述文本对象的位置分布相似度,将所述文本对象从所述文档数据中的章节范围识别出来。
本公开实施例各装置中的各模块的功能可以参见上述方法中的对应描述,在此不再赘述。
本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图6所示,电子设备600包括计算单元601,其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序,来执行各种适当的动作和处理。在RAM603中,还可存储电子设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
电子设备600中的多个部件连接至I/O接口605,包括:输入单元606,例如键盘、鼠标等;输出单元607,例如各种类型的显示器、扬声器等;存储单元608,例如磁盘、光盘等;以及通信单元609,例如网卡、调制解调器、无线通信收发机等。通信单元609允许电子设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理,例如文本对象识别方法。例如,在一些实施例中,文本对象识别方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元608。在一些实施例中,计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到电子设备600上。当计算机程序加载到RAM 603并由计算单元601执行时,可以执行上文描述的文本对象识别方法的一个或多个步骤。备选地,在其他实施例中,计算单元601可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行文本对象识别方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入、或者触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (16)

1.一种专有名词识别方法,包括:
对文档数据进行文档结构解析,得到文档树,其中,所述文档树包括所述文档数据的章节逻辑及相应的文档结构信息;
根据所述文档树,基于所述文档数据的章节逻辑及相应的文档结构信息,得到所述专有名词在所述文档数据中的章节范围;
在得到所述专有名词在所述文档数据中的章节范围的情况下,结合所述文档树及关键词和/或结合所述文档树及文档格式对所述文档数据中文档章节内容的识别,得到所述专有名词所在的第一位置区间,其中,所述专有名词所在的第一位置区间在所述文档数据中的章节范围之内;
从所述文档数据中的章节范围之内的所述第一位置区间,识别出所述专有名词,
所述专有名词识别方法还包括在识别出所述专有名词后扩展识别所述专有名词,具体包括:
在识别出所述专有名词后,基于识别出的所述专有名词的位置,识别所述专有名词的位置分布相似度,根据所述专有名词的位置分布相似度,得到候选章节范围,从所述候选章节范围,识别出所述专有名词。
2.根据权利要求1所述的方法,其中,所述对文档数据进行文档结构解析,得到文档树,包括以下方式中的至少之一:
根据所述文档数据中的不同标签语义进行所述文档结构解析,得到所述文档树;或者,
将所述文档数据根据段落关系进行所述文档结构解析,得到所述文档树。
3.根据权利要求2所述的方法,其中,所述根据所述文档数据中的不同标签语义进行所述文档结构解析,得到所述文档树,包括:
根据所述文档数据中的不同标签语义,对所述文档数据进行文档结构的拆分和/或转换处理,得到所述文档树。
4.根据权利要求2所述的方法,其中,所述将所述文档数据根据段落关系进行所述文档结构解析,得到所述文档树,包括:
将所述文档数据转换成包括多个段落的文档结构;
对所述多个段落进行分类比对,得到段落关系;
根据所述段落关系,得到所述文档树。
5.根据权利要求1所述的方法,其中,所述结合所述文档树及关键词进行所述文档章节内容的识别,得到所述专有名词所在的第一位置区间,包括:
结合所述文档树及关键词进行所述文档章节内容的识别,得到与所述关键词匹配的第一章节内容,将所述第一章节内容确定为所述专有名词所在的第一位置区间。
6.根据权利要求1所述的方法,其中,所述结合所述文档树及文档格式进行所述文档章节内容的识别,得到所述专有名词所在的第一位置区间,包括:
结合所述文档树及文档格式进行所述文档章节内容的识别,得到与所述文档格式匹配的第二章节内容,将所述第二章节内容确定为所述专有名词所在的第一位置区间;
其中,所述文档格式包括:加粗标识、前置标识、颜色标识、关键词类型标识中的至少一种格式。
7.根据权利要求1-6中任一项所述的方法,其中,所述从所述文档数据中的章节范围之内的所述第一位置区间,识别出所述专有名词,包括以下方式中的至少之一:
根据文档样式的特征打分结果,将所述专有名词从所述文档数据中的章节范围之内的所述第一位置区间识别出来;或者,
根据识别模型,将所述专有名词从所述文档数据中的章节范围之内的所述第一位置区间识别出来。
8.一种文本对象识别装置,包括:
解析单元,用于对文档数据进行文档结构解析,得到文档树,其中,所述文档树包括所述文档数据的章节逻辑及相应的文档结构信息;
章节范围确定单元,用于根据所述文档树,基于所述文档数据的章节逻辑及相应的文档结构信息,得到专有名词在所述文档数据中的章节范围;
位置识别单元,在得到所述专有名词在所述文档数据中的章节范围的情况下,结合所述文档树及关键词和/或结合所述文档树及文档格式对所述文档数据中文档章节内容的识别,得到所述专有名词所在的第一位置区间,其中,所述专有名词所在的第一位置区间在所述文档数据中的章节范围之内;
文本识别单元,用于从所述文档数据中的章节范围之内的所述第一位置区间,识别出所述专有名词,
所述文本识别单元还用于在识别出所述专有名词后扩展识别所述专有名词,具体包括:
在识别出所述专有名词后,基于识别出的所述专有名词的位置,识别所述专有名词的位置分布相似度,根据所述专有名词的位置分布相似度,得到候选章节范围,从所述候选章节范围,识别出所述专有名词。
9.根据权利要求8所述的装置,其中,所述解析单元,用于采用包括以下方式中的至少之一进行解析:
根据所述文档数据中的不同标签语义进行所述文档结构解析,得到所述文档树;或者,
将所述文档数据根据段落关系进行所述文档结构解析,得到所述文档树。
10.根据权利要求9所述的装置,其中,所述解析单元,用于:
根据所述文档数据中的不同标签语义,对所述文档数据进行文档结构的拆分和/或转换处理,得到所述文档树。
11.根据权利要求9所述的装置,其中,所述解析单元,用于:
将所述文档数据转换成包括多个段落的文档结构;
对所述多个段落进行分类比对,得到段落关系;
根据所述段落关系,得到所述文档树。
12.根据权利要求8所述的装置,其中,所述位置识别单元,用于:
结合所述文档树及关键词进行所述文档章节内容的识别,得到与所述关键词匹配的第一章节内容,将所述第一章节内容确定为所述专有名词所在的第一位置区间。
13.根据权利要求8所述的装置,其中,所述位置识别单元,用于:
结合所述文档树及文档格式进行所述文档章节内容的识别,得到与所述文档格式匹配的第二章节内容,将所述第二章节内容确定为所述专有名词所在的第一位置区间;
其中,所述文档格式包括:加粗标识、前置标识、颜色标识、关键词类型标识中的至少一种格式。
14.根据权利要求8-13中任一项所述的装置,其中,所述文本识别单元,用于采用包括以下方式中的至少之一识别出所述文本对象:
根据文档样式的特征打分结果,将所述专有名词从所述文档数据中的章节范围之内的所述第一位置区间识别出来;或者,
根据识别模型,将所述专有名词从所述文档数据中的章节范围之内的所述第一位置区间识别出来。
15.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。
16.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的方法。
CN202111596384.4A 2021-12-24 2021-12-24 一种文本对象识别方法、装置、电子设备及存储介质 Active CN114495143B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111596384.4A CN114495143B (zh) 2021-12-24 2021-12-24 一种文本对象识别方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111596384.4A CN114495143B (zh) 2021-12-24 2021-12-24 一种文本对象识别方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN114495143A CN114495143A (zh) 2022-05-13
CN114495143B true CN114495143B (zh) 2024-03-22

Family

ID=81496395

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111596384.4A Active CN114495143B (zh) 2021-12-24 2021-12-24 一种文本对象识别方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114495143B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW202207007A (zh) * 2020-08-14 2022-02-16 新穎數位文創股份有限公司 物件辨識裝置與物件辨識方法
CN115203428B (zh) * 2022-05-30 2023-09-26 北京百度网讯科技有限公司 一种知识图谱构建方法、装置、电子设备及存储介质
CN114969843B (zh) * 2022-08-03 2022-11-01 确信信息股份有限公司 支持文档样式保护的签验章方法、系统、存储介质及设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109885672A (zh) * 2019-03-04 2019-06-14 中国科学院软件研究所 一种面向在线教育的问答式智能检索系统及方法
CN110377884A (zh) * 2019-06-13 2019-10-25 北京百度网讯科技有限公司 文档解析方法、装置、计算机设备及存储介质
CN112541359A (zh) * 2020-11-27 2021-03-23 北京百度网讯科技有限公司 文档内容识别方法、装置、电子设备及介质
CN112560491A (zh) * 2020-12-11 2021-03-26 北京百炼智能科技有限公司 一种基于ai技术的信息抽取方法、装置和存储介质
CN113569054A (zh) * 2021-05-12 2021-10-29 浙江工业大学 多源中文金融公告文书的知识图谱构建方法及系统
US11170154B1 (en) * 2021-04-09 2021-11-09 Cascade Reading, Inc. Linguistically-driven automated text formatting

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2492096B (en) * 2011-06-21 2014-02-19 Canon Kk Method for processing a structured document to render, and corresponding processor
US11334592B2 (en) * 2019-10-15 2022-05-17 Wheelhouse Interactive, LLC Self-orchestrated system for extraction, analysis, and presentation of entity data

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109885672A (zh) * 2019-03-04 2019-06-14 中国科学院软件研究所 一种面向在线教育的问答式智能检索系统及方法
CN110377884A (zh) * 2019-06-13 2019-10-25 北京百度网讯科技有限公司 文档解析方法、装置、计算机设备及存储介质
CN112541359A (zh) * 2020-11-27 2021-03-23 北京百度网讯科技有限公司 文档内容识别方法、装置、电子设备及介质
CN112560491A (zh) * 2020-12-11 2021-03-26 北京百炼智能科技有限公司 一种基于ai技术的信息抽取方法、装置和存储介质
US11170154B1 (en) * 2021-04-09 2021-11-09 Cascade Reading, Inc. Linguistically-driven automated text formatting
CN113569054A (zh) * 2021-05-12 2021-10-29 浙江工业大学 多源中文金融公告文书的知识图谱构建方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A Suffix Tree Based Handwritten Chinese Address Recognition System;Y. Jiang 等;《Ninth International Conference on Document Analysis and Recognition (ICDAR 2007)》;第1-5页 *
Web汉语料的智能抽取与词汇切分;陈展荣 等;《计算机工程与设计》;第1422-1424页 *

Also Published As

Publication number Publication date
CN114495143A (zh) 2022-05-13

Similar Documents

Publication Publication Date Title
CN114495143B (zh) 一种文本对象识别方法、装置、电子设备及存储介质
CN112732934B (zh) 电网设备分词词典和故障案例库构建方法
US11194797B2 (en) Automatic transformation of complex tables in documents into computer understandable structured format and providing schema-less query support data extraction
CN107145584B (zh) 一种基于n-gram模型的简历解析方法
CN113220836B (zh) 序列标注模型的训练方法、装置、电子设备和存储介质
KR20160121382A (ko) 텍스트 마이닝 시스템 및 툴
CN106777296A (zh) 一种基于语义匹配的人才搜索推荐方法及系统
TW202020691A (zh) 特徵詞的確定方法、裝置和伺服器
CN111177532A (zh) 一种垂直搜索方法、装置、计算机系统及可读存储介质
US11308083B2 (en) Automatic transformation of complex tables in documents into computer understandable structured format and managing dependencies
CN106874397B (zh) 一种面向物联网设备的自动语义标注方法
CN114579104A (zh) 数据分析场景的生成方法、装置、设备及存储介质
CN115099239B (zh) 一种资源识别方法、装置、设备以及存储介质
CN112989235A (zh) 基于知识库的内链构建方法、装置、设备和存储介质
CN114861677A (zh) 信息抽取方法、装置、电子设备以及存储介质
CN113836316B (zh) 三元组数据的处理方法、训练方法、装置、设备及介质
CN114625834A (zh) 企业的行业信息确定方法、装置及电子设备
CN112764762B (zh) 一种将规范文本自动转为可计算逻辑规则的方法及系统
CN112560425B (zh) 模板生成方法、装置、电子设备及存储介质
CN114970553B (zh) 基于大规模无标注语料的情报分析方法、装置及电子设备
CN114462383B (zh) 建筑图纸设计说明书获取方法、系统、存储介质及设备
CN112948573B (zh) 文本标签的提取方法、装置、设备和计算机存储介质
CN113221566B (zh) 实体关系抽取方法、装置、电子设备和存储介质
CN114860872A (zh) 数据处理方法、装置、设备以及存储介质
KR20220068462A (ko) 지식 그래프 생성 방법 및 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant