CN113761906A - 解析文档的方法、装置、设备和计算机可读介质 - Google Patents

解析文档的方法、装置、设备和计算机可读介质 Download PDF

Info

Publication number
CN113761906A
CN113761906A CN202010686621.5A CN202010686621A CN113761906A CN 113761906 A CN113761906 A CN 113761906A CN 202010686621 A CN202010686621 A CN 202010686621A CN 113761906 A CN113761906 A CN 113761906A
Authority
CN
China
Prior art keywords
text
document
text block
key information
block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010686621.5A
Other languages
English (en)
Other versions
CN113761906B (zh
Inventor
马丹妹
闫欣鸣
陶洪明
李博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Wodong Tianjun Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN202010686621.5A priority Critical patent/CN113761906B/zh
Publication of CN113761906A publication Critical patent/CN113761906A/zh
Application granted granted Critical
Publication of CN113761906B publication Critical patent/CN113761906B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了解析文档的方法、装置、设备和计算机可读介质,涉及计算机技术领域。该方法的一具体实施方式包括:按照文档类型提取文档中的文本,并获取所述文档的格式特征;根据所述文档的格式特征和文本块特征,将所述文本划分为多个文本块;分析所述文本块中的文字,确定所述文本块的关键信息;依据所述文本块的关键信息,组成所述文档的解析文本。该实施方式能够准确地从文档中提取信息以形成所需文本,提高文本准确率。

Description

解析文档的方法、装置、设备和计算机可读介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种解析文档的方法、装置、设备和计算机可读介质。
背景技术
随着社会的发展,信息化的生活与人们已经变得息息相关。传统的纸质文档不便于数据的搜集,取而代之的是信息化系统。众多企业都拥有自己的信息化系统。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:对于文档中数据的采集仍然有一大问题,那就是无法准确地从文档中提取信息以形成所需文本。
发明内容
有鉴于此,本发明实施例提供一种解析文档的方法、装置、设备和计算机可读介质,能够准确地从文档中提取信息以形成所需文本,提高文本准确率。
为实现上述目的,根据本发明实施例的一个方面,提供了一种解析文档的方法,包括:
按照文档类型提取文档中的文本,并获取所述文档的格式特征;
根据所述文档的格式特征和文本块特征,将所述文本划分为多个文本块;
分析所述文本块中的文字,确定所述文本块的关键信息;
依据所述文本块的关键信息,组成所述文档的解析文本。
所述按照文档类型提取文档中的文本,并获取所述文档的格式特征,包括:
识别所述文档的文档类型;
按照所述文档类型提取文档中的原始文本,并获取所述文档的格式特征;
对所述文档中的原始文本进行归一化操作,得到所述文档中的文本,以统一文本中的文字规范。
所述根据所述文档的格式特征和文本块特征,将所述文本划分为多个文本块,包括:
基于预设文本块关键词,定位多个所述文本块特征;
根据所述文档的格式特征和多个所述文本块特征,将所述文本划分为多个文本块。
所述分析所述文本块中文字,确定所述文本块的关键信息,包括:
依据关键信息数据库,匹配所述文本块中文字,将匹配成功的文字作为所述文本块的关键信息。
所述分析所述文本块中文字,确定所述文本块的关键信息,包括:
依据预设单句关键词,将所述文本块中文字,分为一个或多个词句;
在每个词句中筛选出关键信息;
将所述多个词句的关键信息,作为所述文本块的关键信息。
所述分析所述文本块中文字,确定所述文本块的关键信息,包括:
依据关键信息数据库,匹配一个文本块中文字,将匹配成功的文字作为所述一个文本块的关键信息;
以及,
依据预设单句关键词,将另一个文本块中文字,分为一个或多个词句;
按照上下文关系,在每个词句中筛选出关键信息;
将所述多个词句的关键信息,作为所述另一个文本块的关键信息。
所述按照文档类型提取文档中的文本,并获取所述文档的格式特征之后,还包括:
根据所述文档中的文本与文本模板匹配,得到所述文本的模板信息;
所述依据所述文本块的关键信息,组成所述文档的解析文本,包括:
按照所述文本的模板信息和所述文本块的关键信息,组成所述文档的解析文本。
所述文档包括简历、产品说明书和论文中的一种或多种。
根据本发明实施例的第二方面,提供了一种解析文档的装置,包括:
提取模块,用于按照文档类型提取文档中的文本,并获取所述文档的格式特征;
划分模块,用于根据所述文档的格式特征和文本块特征,将所述文本划分为多个文本块;
分析模块,用于分析所述文本块中的文字,确定所述文本块的关键信息;
组成模块,用于依据所述文本块的关键信息,组成所述文档的解析文本。
根据本发明实施例的第三方面,提供了一种解析文档的电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述的方法。
根据本发明实施例的第四方面,提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现如上述的方法。
上述发明中的一个实施例具有如下优点或有益效果:按照文档类型提取文档中的文本,并获取文档的格式特征;根据文档的格式特征和文本块特征,将文本划分为多个文本块;分析文本块中的文字,确定文本块的关键信息;依据文本块的关键信息,组成文档的解析文本。由于可以将文本划分为多个文本块,进而能够分析每个文本块中的文字,以确定关键信息,进而形成所需文本,提高文本准确率。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的解析文档的方法的主要流程的示意图;
图2是根据本发明实施例的提取文档中的文本并获取文档的格式特征的流程示意图;
图3是根据本发明实施例的将文本划分为多个文本块的流程示意图;
图4是根据本发明实施例的确定文本块的关键信息的流程示意图;
图5是根据本发明实施例的解析文档的方法流程示意图;
图6是根据本发明实施例的解析文档的装置的主要结构的示意图;
图7是本发明实施例可以应用于其中的示例性系统架构图;
图8是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
目前,有众多支持文档解析功能的服务。然而,大多文档解析针对的是英文。英文每个单词都是独立的,从而以较轻松的方式准确获取信息。而中文独特的结构,利用上下文语义推测内容,并不便于准确获取信息。
中文文档的解析主要是采用模板适配,准确率较高。但是,对于各种自由格式的文档,以及形形色色不断更迭的文档,解析的工作效率和准确性均较低。
此外,虽然可以利用关键字进行解析,但往往难以处理各式各样的文档。
作为一个示例,文档样式多种多样,正则规则需要依据具体内容做不同形式的规则匹配,覆盖率低,准确率达到基本水准之后,难以提高。
作为另一个示例,利用TensorFlow构建的机器学习模型,提取信息形成文本。存在以下缺点:一是需要依赖大量文档提取特征。二是文档的多样性影响机器学习模型的训练。进而导致机器学习模型的准确率远低于利用正则规则方式。
为了解决无法准确地从文档中提取信息以形成所需文本的技术问题,可以采用以下本发明实施例中的技术方案。
参见图1,图1是根据本发明实施例的解析文档的方法主要流程的示意图,在将文本划分为文本块的基础上,分析文本块中的文字以确定文本块的关键信息,继而组成文档的解析文本。如图1所示,具体包括以下步骤:
S101、按照文档类型提取文档中的文本,并获取文档的格式特征。
文档是用于存储指定信息的电子文本。在本发明实施例中,文档可以是以下文档中的一种或多种,简历、产品说明书和论文。也就是说,文档中包括多个部分,每部分表述固定内容。
作为一个示例,产品说明包括产品结构、产品使用说明、产品故障解决和保修方式4个部分。
作为另一个示例,简历包括:基本信息、教育经历、工作经历和项目经历,合计4个部分。
对于文档而言,有对应的文档类型,文档类型可以以文档的后缀标识。在本发明实施例中,文档类型包括以下的一种或多种,doc、docx、pdf、html、mht和rtf。
参见图2,图2是根据本发明实施例的提取文档中的文本并获取文档的格式特征的流程示意图,具体包括:
S201、识别文档的文档类型。
在本发明实施例中,针对于文档类型,有相应获取文本的方式,因此首先需要识别文档的文档类型。
作为一个示例,可以根据文档的后缀识别文档类型。作为另一个示例,可以使用第三方工具Tika,识别出对应的文档类型。其中,Tika是一个内容抽取的工具集合。
S202、按照文档类型提取文档中的原始文本,并获取文档的格式特征。
可以按照文档类型提取文档中的原始文本。原始文本是文档中包括原有文字规范的文本。此外,还可以获取文档的格式特征。格式特征是表征文档中文本格式的特点。作为一个示例,格式特征包括以下一种或多种,字体,字号,颜色和html元素标签。
下面针对于不同的文档类型,分别进行示例性说明。
1、doc文档提取方式
提取doc文档并转换为html文档进行解析,并将doc文档中的字体和字号作为格式特征。
如果转换html文档失败,则直接提取doc文档中的原始文本。转换为html文档的目的是为了得到相对结构化的文本,方便后续划分文本块。
2、docx文档提取方式
采用POI按行读取docx文档中的原始文本,并将docx文档中的字体和字号作为格式特征。其中,POI是java里解析word文档并富含样式的一个工具类。
3、pdf文档提取方式
使用pdfbox按行提取pdf文档中的原始文本,并将pdf文档中的字体和字号作为格式特征。其中,pdfbox是为开发人员读取和创建pdf文档而准备的纯Java类库。
4、html文档提取方式
根据html文档中源码及其结构特征,提取不同元素块内特征以获取原始文本,并将html文档中的字体、字号和html元素标签作为格式特征。相对于按行提取原始文本的优势在于,方便关键信息的提取,避免不必要的文本拆分。
5、mht文档提取方式
将mht文档转换成html文档后,提取原始文本,并获取格式特征。
6、rtf文档提取方式
按行提取rtf文档中的原始文本,并将rtf文档中的字体和字号作为格式特征。
S203、对文档中的原始文本进行归一化操作,得到文档中的文本,以统一文本中的文字规范。
考虑到不同文档类型中原始文本的文字规范不同。作为一个示例,pdf文档中常常存在多余空格。作为另一个示例,文档中文字按照康熙字符集或其它字符集提取。作为再一个示例,文档中文字通常存在全角字符和半角字符的混淆,以及简体和繁体的混淆。
需要对文档中的原始文本进行归一化操作,进而得到文档中的文本,文档中的文本是原始文本归一化操作后的文本。文档中的文本具有统一的文字规范。
作为一个示例,无论原始文档中是简体字还是繁体字,归一化为简体字;无论原始文档中的文本是全角字符还是半角字符,归一化为全角字符。
在图2的实施例中,提取文档中的原始文本后,对原始文本进行归一化操作,以统一文本中的文字规范,便于正确解析文档。
S102、根据文档的格式特征和文本块特征,将文本划分为多个文本块。
文档中包括多个部分,每部分表述固定内容。在本发明实施例中,将包括固定内容的文本称为文本块。
作为一个示例,简历中介绍个人信息的文本块是基本信息文本块;简历中介绍个人受教育的文本块是教育经历文本块;简历中介绍个人工作情况的文本块是工作经历文本块;简历中介绍个人曾完成项目的文本块是项目经历文本块。
参见图3,图3是根据本发明实施例的将文本划分为多个文本块的流程示意图,具体包括:
S301、基于预设文本块关键词,定位多个文本块特征。
考虑到文本块包括固定内容的文本。对于固定内容的文本来说,包括文本块关键词。
作为一个示例,对于个人介绍文本块,文本块关键词是:姓名;对于教育经历文本块,文本块关键词是教育;对于工作经历文本块,文本块关键词是工作;位于项目经历文本块,文本块关键词是项目。类似地,对于其他文本块,可以预设文本块关键词。
基于预设文本块关键词,可以按行查找文本,以定位多个预设文本块特征。
具体来说,基于多个预设文本块关键词,按行查找文本,以在文本中匹配预设文本块关键词。可以将文本中预设文本块关键词作为文本块特征。进而基于多个预设文本块关键词,定位多个文本块特征。
作为一个示例,预设文本块关键词包括“姓名”和“教育”。在文本的第一段包括“姓名”,在文本的第五段包括“教育”。可以将第一段中“姓名”和第五段中“教育”,作为文本块特征。
S302、根据文档的格式特征和多个文本块特征,将文本划分为多个文本块。
文本块特征所在位置属于对应的文本块。此外,结合文档的格式特征,可以将文本划分为多个文本块。
对于html文档
以html为代表的结构化文档解析出的文本,本身存在一定结构特征。可以将html文档中的字体、字号和html元素标签作为格式特征。作为一个示例,html元素标签包括段落p标签,对内容前加<p>内容后加</p>即可实现文章换段落。
那么,可以根据html元素标签和多个文本块特征,将文本划分为多个文本块。
作为一个示例,根据html元素标签将文本划分为5个段落。文本块特征1出现在第一段,则第一段为第一文本块;文本块特征2出现在第三段,则第三段为第二文本块。
对于pdf文档
pdf文档无明显结构特征,文档的格式特征包括字体和字号。可以先根据字体和字号,将文本划分为多个段落。再将两个文本块特征之间的段落作为文本块。
作为一个示例,按照字体和字号,文本中包括8个段落。文本块特征1出现在第一段,文本块特征2出现在第三段,文本块特征3出现在第五段落,文本块特征4出现第7段落。可以将第一段和第二段作为第一文本块;将第三段和第四段作为第二文本块;将第五段和第六段作为第三文本块;将第七段和第八段作第四文本块。
对于无明显结构特征的文档,可以采用上述方案将文本划分为多个文本块。
在图3的实施例中,定位到文本块特征后,结合文档的格式特征,划分得到文本块,进而在文本块内进行针对性分析,而无需在其他文本块内分析,进而避免不同文本块中信息之间的干扰。
作为一个示例,将文本划分为基本信息文本块、教育经历文本块、工作经历文本块和项目经历文本块,共4个文本块。就可以在工作经历文本块中确定工作单位名称和工作时间,而无需在其他文本块中进行确定。避免了项目经历文本块中工作单位名称和工作时间对工作经历文本块的干扰。
S103、分析文本块中的文字,确定文本块的关键信息。
在文本块中可以进行分析,以确定文本块的关键信息。文本块的关键信息是表征文本块的特有信息。作为一个示例,对于基本信息文本块的特有信息是:姓氏和性别。
在本发明实施例中,对于文本块可以采用以下方式一和/或方式二,确定文本块的关键信息。
方式一
依据关键信息数据库,匹配文本块中文字,将匹配成功的文字作为文本块的关键信息。
其中,不同的文本块可以设置不同的关键信息数据库,即文本块与关键信息数据库具有对应关系。
作为一个示例,基本信息文本块对应关键信息数据库中包括百家姓;教育经历文本块对应关键信息数据库中包括全球所有高校名单。
依据关键信息数据库,匹配文本块中文字。可以匹配成功的文字作为文本块的关键信息。
作为一个示例,基本信息文本块对应关键信息数据库中包括百家姓,匹配成功的文字为“王”,则可以将“王”作为基本信息文本块的关键信息。
方式二
参见图4,图4是根据本发明实施例的确定文本块的关键信息的流程示意图,具体包括:
S401、依据预设单句关键词,将文本块中文字,分为一个或多个词句。
文本块中包括一个或多个词句,可以依据预设单句关键词,将文本块中文字分为词句。
作为一个示例,文本块中的一个词句中包括日期和工作单位名称。可以预设单句关键词包括数字和公司。进而依据预设单句关键词,将文本块中文字,分为一个或多个词句。
S402、在每个词句中筛选出关键信息。
词句中包括多个词语,可以从词句中筛选出关键信息。
作为一个示例,可以将词句中的名词作为关键信息。作为另一个示例,可以将一个词句中与其他词语关系紧密的词语,作为关键信息。作为再一个示例,为了提高关键信息的准确性,可以利用隐马尔可夫模型(Hidden Markov Model,HMM)计算概率,将概率超过概率阈值的词语,作为该词句中的关键信息。如:计算词语是某个企业名称的概率。
S403、将多个词句的关键信息,作为文本块的关键信息。
在确定每个词句的关键信息后,合并多个词句的关键信息,进而得到文本块的关键信息。
在图4的实施例中,可以将文本块划分为词句,进而确定词句中关键信息和文本块的关键信息,从语句和文本块两个维度进行分析,提高的关键信息的针对性和准确性。
而且,在本发明实施例中,对于不同的文本块可以采用不同的方式得到关键信息。也就是说,可以同时采用方式一和方式二确定文本块的关键信息。
作为一个示例,对于第一文本块和第二文本块,采用方式一确定文本块的关键信息;对于第三文本块和第四文本块,采用方式二确定文本块的关键信息。
S104、依据文本块的关键信息,组成文档的解析文本。
在文本块的关键信息的基础上,能够组成文档的解析文本。作为一个示例,按照预设解析模板,填写文本块的关键信息,进而组成文档的解析文本。
在本发明的一个实施例中,为了提高文本准确率,还可以结合文本模板,组成文档的解析文本。
具体来说,文本模板是包括文本块的模板。按照文本模板能够迅速识别与文本模板对应的文本的模板信息。作为一个示例,文本a是按照文本模板A建立的,那么可以按照文本模板A识别文本a的模板信息。其中,模板信息是文本模板中一个项目的内容。作为一个示例,模板信息是文本模板中姓名对应的文字。
然后,按照文本的模板信息和文本块的关键信息,组成文档的解析文本。
作为一个示例,按照文本的模板信息和文件块的关键信息的相同信息,组成文档的解析文本,进而提高文本准确率。即,将按照文本的模板信息和文件块的关键信息的交集中的信息,组成文档的解析文本。
作为另一个示例,按照文本的模板信息和文件块的关键信息的所有信息,组成文档的解析文本,在确保文本全面性的情况下,提高准确率。即,将按照文本的模板信息和文件块的关键信息的并集中的信息,组成文档的解析文本。
在上述实施例中,按照文档类型提取文档中的文本,并获取文档的格式特征;根据文档的格式特征和文本块特征,将文本划分为多个文本块;分析文本块中的文字,确定文本块的关键信息;依据文本块的关键信息,组成文档的解析文本。由于可以将文本划分为多个文本块,进而能够分析每个文本块中的文字,以确定关键信息,进而形成所需文本,提高文本准确率。
参见图5,图5是根据本发明实施例的解析文档的方法流程示意图,以文档具体为简历为例,进行示例性说明。具体包括:
S501、获取简历文档。
在网络中能够获取简历。作为一个示例,根据统一资源定位符(Uniform ResourceLocator,URL)获取简历文档。
S502、识别文档类型。
获取简历文档后,需要识别文档类型。作为一个示例,可以利用第三方工具tika识别文档类型。作为一个示例,可以识别的文档类别包括以下一种或多种,dox、docx、pdf、html、mht和rtf。
S503、归一化操作。
不同文档类型中原始文本的文字规范不同。需要对文档中的原始文本进行归一化操作,进而得到文档中的文本,文档中的文本是原始文本归一化操作后的文本。文档中的文本具有统一的文字规范。
在归一化操作后,可以将归一化操作后的文本分别执行S504和S506。
S504、识别文本模板。
按照预设识别方式识别文本模板。作为一个示例,在文本中识别出文本模板的标识,则可以根据文本模板的标识,识别文本。
S505、文本的模板信息。
按照文本模板识别文本,进而得到文本的模板信息。
S506、将文本划分为文本块。
将文本划分为基本信息文本块、教育经历文本块、工作经历文本块和项目经历文本块4个文本块。
S507、确定文本块的关键信息。
分析文本块的文字,以确定文本块的关键信息。作为一个示例,以方式一分析基本信息文本块和教育经历文本块;以方式二分析工作经历文本块和项目经历文本块。
S508、组成文档的解析文本。
按照文本的模板信息和文本块的关键信息,组成简历的解析文本。
S509、保存并反馈文档的解析文本。
将解析文本存储至数据库,并反馈解析文本。
作为一个示例,可以将经脱敏处理的文本存储至mysql数据库中。即,将简历文档标识、简历文档类型和脱敏处理后的解析文本异步存储至mysql数据库中。其中,脱敏处理是指对解析文本中敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。
此外,还可以以数据库标识和文档类型作为文件名,保存解析文本至操作支持系统(Operation Support Systems,OSS)。
参见图6,图6是根据本发明实施例的解析文档的装置的主要结构的示意图,解析文档的装置可以实现解析文档的方法,如图6所示,解析文档的装置具体包括:
提取模块601,用于按照文档类型提取文档中的文本,并获取所述文档的格式特征。
划分模块602,用于根据所述文档的格式特征和文本块特征,将所述文本划分为多个文本块。
分析模块603,用于分析所述文本块中的文字,确定所述文本块的关键信息。
组成模块604,用于依据所述文本块的关键信息,组成所述文档的解析文本。
在本发明的一个实施例中,提取模块601,具体用于识别所述文档的文档类型;
按照所述文档类型提取文档中的原始文本,并获取所述文档的格式特征;
对所述文档中的原始文本进行归一化操作,得到所述文档中的文本,以统一文本中的文字规范。
在本发明的一个实施例中,划分模块602,具体用于基于预设文本块关键词,定位多个所述文本块特征;
根据所述文档的格式特征和多个所述文本块特征,将所述文本划分为多个文本块。
在本发明的一个实施例中,分析模块603,具体用于依据关键信息数据库,匹配所述文本块中文字,将匹配成功的文字作为所述文本块的关键信息。
在本发明的一个实施例中,分析模块603,具体用于依据预设单句关键词,将所述文本块中文字,分为一个或多个词句;
在每个词句中筛选出关键信息;
将所述多个词句的关键信息,作为所述文本块的关键信息。
在本发明的一个实施例中,分析模块603,具体用于依据关键信息数据库,匹配一个文本块中文字,将匹配成功的文字作为所述一个文本块的关键信息;
以及,
依据预设单句关键词,将另一个文本块中文字,分为一个或多个词句;
按照上下文关系,在每个词句中筛选出关键信息;
将所述多个词句的关键信息,作为所述另一个文本块的关键信息。
在本发明的一个实施例中,组成模块604,具体用于根据所述文档中的文本与文本模板匹配,得到所述文本的模板信息;
按照所述文本的模板信息和所述文本块的关键信息,组成所述文档的解析文本。
在本发明的一个实施例中,文档包括简历、产品说明书和论文中的一种或多种。
图7示出了可以应用本发明实施例的解析文档的方法或解析文档的装置的示例性系统架构700。
如图7所示,系统架构700可以包括终端设备701、702、703,网络704和服务器705。网络704用以在终端设备701、702、703和服务器705之间提供通信链路的介质。网络704可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备701、702、703通过网络704与服务器705交互,以接收或发送消息等。终端设备701、702、703上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备701、702、703可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器705可以是提供各种服务的服务器,例如对用户利用终端设备701、702、703所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理,并将处理结果(例如目标推送信息、产品信息--仅为示例)反馈给终端设备。
需要说明的是,本发明实施例所提供的解析文档的方法一般由服务器705执行,相应地,解析文档的装置一般设置于服务器705中。
应该理解,图7中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图8,其示出了适于用来实现本发明实施例的终端设备的计算机系统800的结构示意图。图8示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图8所示,计算机系统800包括中央处理单元(CPU)801,其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中,还存储有系统800操作所需的各种程序和数据。CPU 801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
以下部件连接至I/O接口805:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(CPU)801执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括发送单元、获取单元、确定单元和第一处理单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,发送单元还可以被描述为“向所连接的服务端发送图片获取请求的单元”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:
按照文档类型提取文档中的文本,并获取所述文档的格式特征;
根据所述文档的格式特征和文本块特征,将所述文本划分为多个文本块;
分析所述文本块中的文字,确定所述文本块的关键信息;
依据所述文本块的关键信息,组成所述文档的解析文本。
根据本发明实施例的技术方案,按照文档类型提取文档中的文本,并获取文档的格式特征;根据文档的格式特征和文本块特征,将文本划分为多个文本块;分析文本块中的文字,确定文本块的关键信息;依据文本块的关键信息,组成文档的解析文本。由于可以将文本划分为多个文本块,进而能够分析每个文本块中的文字,以确定关键信息,进而形成所需文本,提高文本准确率。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (11)

1.一种解析文档的方法,其特征在于,包括:
按照文档类型提取文档中的文本,并获取所述文档的格式特征;
根据所述文档的格式特征和文本块特征,将所述文本划分为多个文本块;
分析所述文本块中的文字,确定所述文本块的关键信息;
依据所述文本块的关键信息,组成所述文档的解析文本。
2.根据权利要求1所述解析文档的方法,其特征在于,所述按照文档类型提取文档中的文本,并获取所述文档的格式特征,包括:
识别所述文档的文档类型;
按照所述文档类型提取文档中的原始文本,并获取所述文档的格式特征;
对所述文档中的原始文本进行归一化操作,得到所述文档中的文本,以统一文本中的文字规范。
3.根据权利要求1所述解析文档的方法,其特征在于,所述根据所述文档的格式特征和文本块特征,将所述文本划分为多个文本块,包括:
基于预设文本块关键词,定位多个所述文本块特征;
根据所述文档的格式特征和多个所述文本块特征,将所述文本划分为多个文本块。
4.根据权利要求1或3所述解析文档的方法,其特征在于,所述分析所述文本块中文字,确定所述文本块的关键信息,包括:
依据关键信息数据库,匹配所述文本块中文字,将匹配成功的文字作为所述文本块的关键信息。
5.根据权利要求1或3所述解析文档的方法,其特征在于,所述分析所述文本块中文字,确定所述文本块的关键信息,包括:
依据预设单句关键词,将所述文本块中文字,分为一个或多个词句;
在每个词句中筛选出关键信息;
将所述多个词句的关键信息,作为所述文本块的关键信息。
6.根据权利要求1或3所述解析文档的方法,其特征在于,所述分析所述文本块中文字,确定所述文本块的关键信息,包括:
依据关键信息数据库,匹配一个文本块中文字,将匹配成功的文字作为所述一个文本块的关键信息;
以及,
依据预设单句关键词,将另一个文本块中文字,分为一个或多个词句;
按照上下文关系,在每个词句中筛选出关键信息;
将所述多个词句的关键信息,作为所述另一个文本块的关键信息。
7.根据权利要求1所述解析文档的方法,其特征在于,所述按照文档类型提取文档中的文本,并获取所述文档的格式特征之后,还包括:
根据所述文档中的文本与文本模板匹配,得到所述文本的模板信息;
所述依据所述文本块的关键信息,组成所述文档的解析文本,包括:
按照所述文本的模板信息和所述文本块的关键信息,组成所述文档的解析文本。
8.根据权利要求1所述解析文档的方法,其特征在于,所述文档包括简历、产品说明书和论文中的一种或多种。
9.一种解析文档的装置,其特征在于,包括:
提取模块,用于按照文档类型提取文档中的文本,并获取所述文档的格式特征;
划分模块,用于根据所述文档的格式特征和文本块特征,将所述文本划分为多个文本块;
分析模块,用于分析所述文本块中的文字,确定所述文本块的关键信息;
组成模块,用于依据所述文本块的关键信息,组成所述文档的解析文本。
10.一种解析文档的电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。
11.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-8中任一所述的方法。
CN202010686621.5A 2020-07-16 2020-07-16 解析文档的方法、装置、设备和计算机可读介质 Active CN113761906B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010686621.5A CN113761906B (zh) 2020-07-16 2020-07-16 解析文档的方法、装置、设备和计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010686621.5A CN113761906B (zh) 2020-07-16 2020-07-16 解析文档的方法、装置、设备和计算机可读介质

Publications (2)

Publication Number Publication Date
CN113761906A true CN113761906A (zh) 2021-12-07
CN113761906B CN113761906B (zh) 2024-06-18

Family

ID=78785524

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010686621.5A Active CN113761906B (zh) 2020-07-16 2020-07-16 解析文档的方法、装置、设备和计算机可读介质

Country Status (1)

Country Link
CN (1) CN113761906B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160103823A1 (en) * 2014-10-10 2016-04-14 The Trustees Of Columbia University In The City Of New York Machine Learning Extraction of Free-Form Textual Rules and Provisions From Legal Documents
CN110321432A (zh) * 2019-06-24 2019-10-11 拓尔思信息技术股份有限公司 文本事件信息提取方法、电子装置和非易失性存储介质
CN110427488A (zh) * 2019-07-30 2019-11-08 北京明略软件系统有限公司 文档的处理方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160103823A1 (en) * 2014-10-10 2016-04-14 The Trustees Of Columbia University In The City Of New York Machine Learning Extraction of Free-Form Textual Rules and Provisions From Legal Documents
CN110321432A (zh) * 2019-06-24 2019-10-11 拓尔思信息技术股份有限公司 文本事件信息提取方法、电子装置和非易失性存储介质
CN110427488A (zh) * 2019-07-30 2019-11-08 北京明略软件系统有限公司 文档的处理方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
祖石诚;王修来;曹阳;张玉韬;梁珊;: "基于新型文本块分割法的简历解析", 计算机科学, no. 1, 15 June 2020 (2020-06-15) *

Also Published As

Publication number Publication date
CN113761906B (zh) 2024-06-18

Similar Documents

Publication Publication Date Title
US11675977B2 (en) Intelligent system that dynamically improves its knowledge and code-base for natural language understanding
US9411790B2 (en) Systems, methods, and media for generating structured documents
CN108572990B (zh) 信息推送方法和装置
US11055373B2 (en) Method and apparatus for generating information
US10417335B2 (en) Automated quantitative assessment of text complexity
US20180293302A1 (en) Natural question generation from query data using natural language processing system
KR20130066603A (ko) 폰트 서브세트의 개시
CN111177532A (zh) 一种垂直搜索方法、装置、计算机系统及可读存储介质
US10936667B2 (en) Indication of search result
US20160171106A1 (en) Webpage content storage and review
US20220121668A1 (en) Method for recommending document, electronic device and storage medium
CN111143505A (zh) 文档处理方法、装置、介质及电子设备
CN115687655A (zh) 一种基于pdf文档的知识图谱构建方法、系统、设备及存储介质
CN110851136A (zh) 数据获取方法、装置、电子设备及存储介质
CN112380337A (zh) 基于富文本的高亮方法及装置
CN113836316B (zh) 三元组数据的处理方法、训练方法、装置、设备及介质
CN114743012B (zh) 一种文本识别方法及装置
CN113761906B (zh) 解析文档的方法、装置、设备和计算机可读介质
CN111144122A (zh) 评价处理方法、装置和计算机系统及介质
CN114239562A (zh) 文档中程序代码块的识别方法、装置和设备
CN112613279A (zh) 一种文件的转换方法、装置、计算机装置及可读存储介质
US10762279B2 (en) Method and system for augmenting text in a document
CN111241431A (zh) 一种网页分类方法和装置
CN110968677B (zh) 文本寻址的方法及装置、介质和电子设备
CN108932326B (zh) 一种实例扩展方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant