CN110532449A - 一种业务文档的处理方法、装置、设备和存储介质 - Google Patents

一种业务文档的处理方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN110532449A
CN110532449A CN201910816715.7A CN201910816715A CN110532449A CN 110532449 A CN110532449 A CN 110532449A CN 201910816715 A CN201910816715 A CN 201910816715A CN 110532449 A CN110532449 A CN 110532449A
Authority
CN
China
Prior art keywords
page
service
attribute
service profile
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910816715.7A
Other languages
English (en)
Other versions
CN110532449B (zh
Inventor
黄劲
纪炎明
康阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yingsheng Zhichuang Technology (guangzhou) Co Ltd
Original Assignee
Yingsheng Zhichuang Technology (guangzhou) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yingsheng Zhichuang Technology (guangzhou) Co Ltd filed Critical Yingsheng Zhichuang Technology (guangzhou) Co Ltd
Priority to CN201910816715.7A priority Critical patent/CN110532449B/zh
Publication of CN110532449A publication Critical patent/CN110532449A/zh
Application granted granted Critical
Publication of CN110532449B publication Critical patent/CN110532449B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明实施例公开了一种业务文档的处理方法、装置、设备和存储介质。该方法通过获取归属于业务对象的业务文档;将所述业务文档所包括的文本元素和图像元素转换为目标文本;对所述目标文本进行分析处理,得到所述业务对象在预置的业务属性下所对应的属性值;将所述属性值与所述业务对象进行关联存储,以统计所述业务对象的业务属性,解决了因业务文档因格式、内容的表示形式繁多所带来的业务属性统计困难的问题,实现节约人工成本,提高统计业务对象的业务属性的正确率。

Description

一种业务文档的处理方法、装置、设备和存储介质
技术领域
本发明实施例涉及数据处理的技术,尤其涉及一种业务文档的处理方法、装置、设备和存储介质。
背景技术
对于一些实际的业务场景,需要确定各业务对象的业务属性。如,业务对象为公司,则该业务属性可以是该公司的名称、地址、服务范围、技术、产品等。进一步的,当业务对象为公司的产品时,则该产品的业务属性可以是系列、颜色、功能、大小等。
一般的,对于业务对象而言,可以有各种业务文档对该业务对象的业务属性进行说明。示例性的,该业务文档可以是产品说明书、企业宣传文档、企业介绍文档等。
现有的,由于业务文档的格式繁多、而且内容的表示形式比较丰富,不利于通过自动化的方式从该业务文档中提取出该业务对象的业务属性。进而,一般的,采用的人工的方式对该业务文档进行整理,这也带来了极高的人力成本和出错的概率。
发明内容
本发明提供一种业务文档的处理方法、装置、设备和存储介质,以实现节约人工成本,提高统计业务对象的业务属性的正确率。
第一方面,本发明实施例提供了一种业务文档的处理方法,该方法包括:
获取归属于业务对象的业务文档;
将所述业务文档所包括的文本元素和图像元素转换为目标文本;
对所述目标文本进行分析处理,得到所述业务对象在预置的业务属性下所对应的属性值;
将所述属性值与所述业务对象进行关联存储,以统计所述业务对象的业务属性。
进一步的,所述将所述业务文档所包括的文本元素和图像元素转换为目标文本,包括:
从所述业务文档的页面中读取页面元素,所述页面元素包括文本元素和图像元素;
将所述页面元素中的文本元素,转换为第一文字信息;
对所述页面元素中的图像元素进行字符识别,得到第二文字信息;
对所述第一文字信息和所述第二文字信息进行组合,得到所述业务文档的目标文本。
进一步的,所述对所述目标文本进行分析处理,得到所述业务对象在预置的业务属性下所对应的属性值,包括:
对所述目标文本进行分词处理,得到候选词语;
获取预置的业务属性所对应的字典文件,其中,所述字典文件包括所述业务属性的属性值与至少一个标准词语之间的映射关系;
将所述候选词语与所述字典文件中的标准词语进行匹配;
当所述字典文件中存在与所述候选词语匹配成功的标准词语时,则将与所述候选词语存在所述映射关系的属性值,作为所述业务对象在所述业务属性下的属性值。
进一步的,在获取预置的业务属性所对应的字典文件之后,还包括:
基于所述业务文档中每一页面对应的所述候选词语,将与预置的业务属性相关的页面作为主题页面;
使用所述主题页面中的候选词语,继续执行所述将所述候选词语与所述字典文件中的标准词语进行匹配的步骤。
进一步的,所述基于所述业务文档中每一页面对应的所述候选词语,将与预置的业务属性相关的页面作为主题页面,包括:
获取词语分类模型;
针对所述业务文档中每一页面,将所述页面对应的所述候选词语输入所述词语分类模型进行处理,得到所述候选词语的第一概率,其中,所述第一概率为所述候选词语归类于主题页面的概率,所述主题页面为与预置的业务属性相关的页面;
将每一页面中所有所述候选词语的第一概率进行乘积计算,得到所述页面的第二概率,所述第二概率为所述页面归类于主题页面的概率;
将所述第二概率满足预设条件的页面,作为主题页面。
进一步的,所述获取词语分类模型,包括:
获取携带有主题标签的样本页面,所述主题标签与预置的业务属性相关联;
从所述样本页面中提取样本词语,并将该样本词语标记为所述主题标签;
使用所述样本词语进行模型训练,得到词语分类模型。
进一步的,在所述获取与业务对象存在关联关系的业务文档之后,还包括:
将所述业务文档中的页面转换为页面图像;
识别所述页面图像中的预置的图标;
将与所述图标关联设置的属性值,作为所述业务对象在预置的业务属性下所对应的属性值。
第二方面,本发明实施例还提供了一种业务文档的处理装置,该装置包括:
业务文档获取模块,用于获取归属于业务对象的业务文档;
目标文本转换模块,用于将所述业务文档所包括的文本元素和图像元素转换为目标文本;
属性值获取模块,用于对所述目标文本进行分析处理,得到所述业务对象在预置的业务属性下所对应的属性值;
存储模块,用于将所述属性值与所述业务对象进行关联存储,以统计所述业务对象的业务属性。
第三方面,本发明实施例还提供了一种业务文档的处理设备,该设备包括:存储器以及一个或多个处理器;
所述存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面中任一所述的业务文档的处理方法。
第四方面,本发明实施例还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如第一方面中任一所述的业务文档的处理方法。
本发明实施例通过获取归属于业务对象的业务文档;将所述业务文档所包括的文本元素和图像元素转换为目标文本;对所述目标文本进行分析处理,得到所述业务对象在预置的业务属性下所对应的属性值;将所述属性值与所述业务对象进行关联存储,以统计所述业务对象的业务属性,解决了因业务文档因格式、内容的表示形式繁多所带来的业务属性统计困难的问题,实现节约人工成本,提高统计业务对象的业务属性的正确率。
附图说明
图1为本发明实施例一提供的一种业务文档的处理方法的流程图;
图2为本发明实施例二提供的一种业务文档的处理方法的流程图;
图3为本发明实施例三提供的一种业务文档的处理装置的结构示意图;
图4为本发明实施例四提供的一种业务文档的处理设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种业务文档的处理方法的流程图,本实施例可适用于统计业务对象的业务属性的情况,该方法可以由业务文档的处理设备来执行,该业务文档的处理设备可以是服务器、电脑、终端等。本实施例以业务文档的处理设备为服务器为例进行说明,该服务器可以是集群服务器或独立服务器。
参照图1,该方法具体包括如下步骤:
S110、获取归属于业务对象的业务文档。
本实施例中,业务文档包括对业务对象的业务属性的说明。其中,业务对象为实际业务中的个体,且每个业务对象具有各自的业务属性。该业务属性为该业务对象的属性。
例如,业务对象为公司,则该业务属性可以是该公司的名称、地址、服务范围、技术、产品等;公司的业务文档可以是企业宣传文档、企业介绍文档等。
又例如,当业务对象为公司的产品时,则该产品的业务属性可以是系列、颜色、功能、大小等。产品的业务文档可以是产品说明书、销售订单等。
本实施例中,业务文档为使用文字、图像等编辑软件产生的文件,本实施例中对业务文档的格式不作限定,可以是PPT、PDF、WORD、JPEG等格式。
进一步的,该业务文档可以是可编辑文档或不可编辑文档,均可以通过该业务文档所对应的格式使用特定的应用程序接口(Application Programming Interface,API)进行文档内容的读取。
在一实施例中,针对分析客户的服务商为例进行说明,该业务对象为客户,该服务商为该客户的业务属性。进一步的,可以上传与客户相关的企业宣传文档、企业介绍文档等业务文档。可以将该业务文档与该客户关联存储于数据库中;也可以对该上传的业务文档依据客户名称进行重命名,如为该业务文档的名称,以该客户的名称为前缀。
S120、将所述业务文档所包括的文本元素和图像元素转换为目标文本。
其中,文本元素为使用字符形式展现在业务文档中的元素;图像元素为以图像形式展现在业务文档中的元素。业务文档的文本元素的来源包括页面、文档属性。
针对文档属性,文档属性是为每个业务文档存储的属性的备注,该文档属性可以包括作者、创建人、修改人、文档名、关键字、大小、类型、编辑时间等。进一步的,可以使用特定的API读取该业务文档的文档属性,作为目标文本。
针对页面,业务文档为具有至少一个页面的文件,业务文档的内容以页面的形式展现。进一步的,该页面中包括页面元素。本实施例以从业务文档各个页面读取页面元素为例进行说明。其中,该页面元素可以至少包括文本元素和图像元素中的一种。
在一些具体的实施例中,可以根据业务文档所包括的文本元素和图像元素的情况,进行不同的处理。
1、对于具有文本元素和图像元素的业务文档
在一实施例中,可以从业务文档的页面中读取页面元素,页面元素包括文本元素和图像元素;将页面元素中的文本元素,转换为第一文字信息;对页面元素中的图像元素进行字符识别,得到第二文字信息;对第一文字信息和第二文字信息进行组合,得到业务文档的目标文本。
2、对于纯具有图像元素的业务文档
在一实施例中,该业务文档为纯具有图像元素的文件,可以对该业务文档的图像元素进行字符识别,得到第三文字信息,并将该第三文字信息作为该业务文档的目标文本。
在又一实施例中,可以对具有文本元素和图像元素的业务文档进行图像转换的处理,得到纯具有图像元素的业务文档。具体的,可以将业务文档的页面转换为页面图像,对该页面图像进行字符识别,得到第四文字信息,并将该第四文字信息作为该业务文档的目标文本。
S130、对所述目标文本进行分析处理,得到所述业务对象在预置的业务属性下所对应的属性值。
本实施例中,不同的业务对象的业务属性具有各自的属性值。例如,每个企业有每个企业不同的企业名称、企业地址。每个客户具有每个客户不同的服务商。
本实施例中,可以是以统计客户的服务商为例进行详细的说明。以业务对象为客户,业务属性为客户的服务商为例进行说明。可以从目标文本中获取的商家名称,作为该客户相关的服务商,即该商家名称为业务属性服务商的属性值。
在一实施例中,可以将步骤S130细化为如下步骤S131-S134:
S131、对所述目标文本进行分词处理,得到候选词语。
本实施例中,可以适用于多种语言的业务文档。
需要注意的是,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符。因此,针对业务文档中存在中文的情况,需要对目标文本进行分词处理。其中,分词处理又称为中文分词处理,分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。
示例性的,可以将“我来到香格里拉”进行分词处理之后,得到的候选词语包括:“我”、“来到”、“香格里拉”。
S132、获取预置的业务属性所对应的字典文件,其中,所述字典文件包括所述业务属性的属性值与至少一个标准词语之间的映射关系。
针对同一属性值存在有多种语言表达(至少一个标准词语)的情况,可以使用字典文件中的映射关系,将多种语言表达的属性值,映射为使用同一种语言表达。如,标准词语“Maps”、“Map”、“地图”均可以映射为“地图”。
也就是说,通过使用字典文件,可以对属性值进行标准化的语言表达,一方面,方便对属性值进行归类统计;另一方面,可以避免因属性值采用其他的语言表达,而出现漏检的情况。从而,可以提高统计业务对象的业务属性的正确率。
进一步的,还可以对字典文件中的映射关系根据实际的情况进行更新,保证该业务文档的处理方法的正确率。
再进一步的,可以使用字典文件包含至少一种业务属性中属性值的映射关系,也可以使用不同的字典文件存储不同业务属性中属性值的映射关系。避免由于同一属性值在不同业务属性中所表达的意思不同,可以获取预置的业务属性所对应的字典文件,以提高统计业务对象的业务属性的正确率。
S133、将所述候选词语与所述字典文件中的标准词语进行匹配。
示例性的,如该业务属性用于表示公司(业务对象)所使用的技术,示例性的,若该公司为地图提供商,则“地图”可以作为该公司的技术(业务属性)之一。进一步的,可以假设该候选词语为“Maps”,当字典文件中的标准词语存在“Maps”时,则确定字典文件中存在与候选词语“Maps”匹配成功的标准词语,否则,则确定该候选词语“Maps”匹配失败。在该候选词语“Maps”匹配失败时,可以确定该候选词语“Maps”并非针对该业务属性的属性值。
S134、当所述字典文件中存在与所述候选词语匹配成功的标准词语时,则将与所述候选词语存在所述映射关系的属性值,作为所述业务对象在所述业务属性下的属性值。
示例性的,假设该候选词语为“Maps”,当字典文件中的标准词语存在“Maps”时,则将与标准词语“Maps”具有映射关系的属性值“地图”作为业务对象在业务属性下的属性值“地图”。
S140、将所述属性值与所述业务对象进行关联存储,以统计所述业务对象的业务属性。
本实施例中,例如,当业务对象为公司,则该业务属性可以是该公司的名称、地址、服务范围、技术、产品等;公司的业务文档可以是企业宣传文档、企业介绍文档等。进一步的,可以从业务文档中提取出各业务属性对应的属性值,从而可以达到统计公司的名称、地址、服务范围、技术、产品等业务属性的效果。
又例如,当业务对象为公司的产品时,则该产品的业务属性可以是系列、颜色、功能、大小等。产品的业务文档可以是产品说明书、销售订单等。进一步的,可以从业务文档中提取出各业务属性对应的属性值,从而可以达到统计产品的系列、颜色、功能、大小等的效果。
又例如,当业务对象为客户时,则该客户的业务属性可以是服务商。客户的业务文档可以是企业宣传文档、企业介绍文档等。进一步的,可以从业务文档中提取出公司名称,作为该客户的服务商这一业务属性对应的属性值,从而可以达到统计客户的服务商的效果。
本实施例的技术方案,通过获取归属于业务对象的业务文档;将所述业务文档所包括的文本元素和图像元素转换为目标文本;对所述目标文本进行分析处理,得到所述业务对象在预置的业务属性下所对应的属性值;将所述属性值与所述业务对象进行关联存储,以统计所述业务对象的业务属性,解决了因业务文档因格式、内容的表示形式繁多所带来的业务属性统计困难的问题,实现节约人工成本,提高统计业务对象的业务属性的正确率。
实施例二
图2为本发明实施例二提供的一种业务文档的处理方法的流程图。本实施例在上述实施例的基础上进一步细化,包括如何进行业务对象在预置的业务属性下所对应的属性值的提取的优化、将图标识别为属性值的说明。
参照图2,该方法具体包括如下步骤:
S210、获取归属于业务对象的业务文档。
S220、将所述业务文档所包括的文本元素和图像元素转换为目标文本。
S230、对所述目标文本进行分析处理,得到所述业务对象在预置的业务属性下所对应的属性值。
本实施例中,可以将步骤S230细化为如下步骤S231-S235:
S231、对所述目标文本进行分词处理,得到候选词语。
S232、获取预置的业务属性所对应的字典文件,其中,所述字典文件包括所述业务属性的属性值与至少一个标准词语之间的映射关系。
S233、基于所述业务文档中每一页面对应的所述候选词语,将与预置的业务属性相关的页面作为主题页面。
本实施例中,业务文档为具有至少一个页面的文件,一般的,每个页面对于业务属性的说明具有不同的侧重点。因此,在使用业务文档对多种业务属性的属性值进行提取,可以从该业务文档确定出于预置的业务属性相关的页面作为主题页面。
示例性的,如应用于对公司(业务对象)的产品(业务属性)进行统计分子,则可以将业务文档中的产品介绍页面,作为主题页面,主要从该主题页面提取目标文本或图标即可。通过对主题页面的确定,可以进一步提高统计业务属性的正确率。
在一实施例中,可以采用贝叶斯的技术,具体的,可以通过获取词语分类模型;针对业务文档中每一页面,将页面对应的候选词语输入词语分类模型进行处理,得到候选词语的第一概率,其中,第一概率为候选词语归类于主题页面的概率,主题页面为与预置的业务属性相关的页面;将每一页面中所有候选词语的第一概率进行乘积计算,得到页面的第二概率,第二概率为页面归类于主题页面的概率;将第二概率满足预设条件的页面,作为主题页面。其中,该预设条件可以是预置的概率阈值,当该第二概率超过该概率阈值,则可以确定该第二概率对应的页面为主题页面。
其中,该词语分类模型可以是采用神经网络技术构建的模型,可以通过获取携带有主题标签的样本页面,主题标签与预置的业务属性相关联;从样本页面中提取样本词语,并将该样本词语标记为主题标签;使用样本词语进行模型训练,得到词语分类模型。在将候选词语输入该词语分类模型进行处理后,该词语分类模型可以输出该候选词语归属于不同的主题页面的概率。
本实施例中,可以使用所述主题页面中的候选词语,继续执行步骤S234。
S234、将所述候选词语与所述字典文件中的标准词语进行匹配。
S235、当所述字典文件中存在与所述候选词语匹配成功的标准词语时,则将与所述候选词语存在所述映射关系的属性值,作为所述业务对象在所述业务属性下的属性值。
本实施例中,步骤S220-S230和步骤S240-S260可以同时执行。
S240、将所述业务文档中的页面转换为页面图像。
S250、识别所述页面图像中的预置的图标。
一般的,某些业务属性的属性值可以通过图标的形式进行表示,如公司的名称可以是使用商标的形式进行表示。
该图标的识别可以使用目标检测的技术。其中,目标检测是一件比较实际的且具有挑战性的计算机视觉任务,其可以看成图像分类与定位的结合,给定一张图片,目标检测系统要能够识别出图片的目标并给出其位置,由于图片中目标数是不定的,且要给出目标的精确位置,目标检测相比分类任务更复杂。本实施例中,可以通过目标检测的技术,可以是以预置的图标作为目标,确定该图标在页面图像中的位置,并确定该图标所关联设置的属性值。
示例性的,可以使用YOLO算法进行实现。
S260、将与所述图标关联设置的属性值,作为所述业务对象在预置的业务属性下所对应的属性值。
针对统计客户的服务商的应用场景,可以在该页面图像中识别到公司相关的商标时,将该商标对应的公司,确定为该客户的服务商。
进一步的,在确定主题页面时,也可以将在页面所识别的图标作为考虑因素。示例性的,可以通过获取词语分类模型;针对业务文档中每一页面,将页面对应的候选词语输入词语分类模型进行处理,得到候选词语的第一概率,其中,第一概率为候选词语归类于主题页面的概率,主题页面为与预置的业务属性相关的页面;识别每一页面中的图标,确定该图标归属于主题页面的第三概率;将每一页面中所有候选词语的第一概率、每一页面中所有图标的第三概率进行乘积计算,得到页面的第四概率,第四概率为页面归类于主题页面的概率;将第四概率满足预设条件的页面,作为主题页面。
S270、将所述属性值与所述业务对象进行关联存储,以统计所述业务对象的业务属性。
实施例三
图3为本发明实施例三提供的一种业务文档的处理装置的结构示意图,本实施例可适用于统计业务对象的业务属性的情况,该装置可以集成于业务文档的处理设备中,该业务文档的处理设备可以是服务器、电脑、终端等。本实施例以业务文档的处理设备为服务器为例进行说明,该服务器可以是集群服务器或独立服务器。
参照图3,该装置具体包括如下结构:业务文档获取模块310、目标文本转换模块320、属性值获取模块330和存储模块340。
业务文档获取模块310,用于获取归属于业务对象的业务文档。
目标文本转换模块320,用于将所述业务文档所包括的文本元素和图像元素转换为目标文本。
属性值获取模块330,用于对所述目标文本进行分析处理,得到所述业务对象在预置的业务属性下所对应的属性值。
存储模块340,用于将所述属性值与所述业务对象进行关联存储,以统计所述业务对象的业务属性。
本实施例的技术方案,通过获取归属于业务对象的业务文档;将所述业务文档所包括的文本元素和图像元素转换为目标文本;对所述目标文本进行分析处理,得到所述业务对象在预置的业务属性下所对应的属性值;将所述属性值与所述业务对象进行关联存储,以统计所述业务对象的业务属性,解决了因业务文档因格式、内容的表示形式繁多所带来的业务属性统计困难的问题,实现节约人工成本,提高统计业务对象的业务属性的正确率。
在上述技术方案的基础上,所述目标文本转换模块320,包括:
页面元素读取单元,用于从所述业务文档的页面中读取页面元素,所述页面元素包括文本元素和图像元素。
第一文字信息转换单元,用于将所述页面元素中的文本元素,转换为第一文字信息。
第二文字信息识别单元,用于对所述页面元素中的图像元素进行字符识别,得到第二文字信息。
文字信息组合单元,用于对所述第一文字信息和所述第二文字信息进行组合,得到所述业务文档的目标文本。
在上述技术方案的基础上,所述属性值获取模块330,包括:
分词单元,用于对所述目标文本进行分词处理,得到候选词语。
字典文件获取单元,用于获取预置的业务属性所对应的字典文件,其中,所述字典文件包括所述业务属性的属性值与至少一个标准词语之间的映射关系。
匹配单元,用于将所述候选词语与所述字典文件中的标准词语进行匹配。
属性值获取单元,用于当所述字典文件中存在与所述候选词语匹配成功的标准词语时,则将与所述候选词语存在所述映射关系的属性值,作为所述业务对象在所述业务属性下的属性值。
在上述技术方案的基础上,属性值获取模块330,还包括:
主题页面确定单元,用于在获取预置的业务属性所对应的字典文件之后,基于所述业务文档中每一页面对应的所述候选词语,将与预置的业务属性相关的页面作为主题页面。
候选词语使用单元,用于使用所述主题页面中的候选词语,继续执行所述将所述候选词语与所述字典文件中的标准词语进行匹配的步骤。
在上述技术方案的基础上,所述主题页面确定单元,包括:
模型获取子单元,用于获取词语分类模型;
第一概率获取子单元,用于针对所述业务文档中每一页面,将所述页面对应的所述候选词语输入所述词语分类模型进行处理,得到所述候选词语的第一概率,其中,所述第一概率为所述候选词语归类于主题页面的概率,所述主题页面为与预置的业务属性相关的页面。
第二概率获取子单元,用于将每一页面中所有所述候选词语的第一概率进行乘积计算,得到所述页面的第二概率,所述第二概率为所述页面归类于主题页面的概率。
主题页面确定子单元,用于将所述第二概率满足预设条件的页面,作为主题页面。
在上述技术方案的基础上,所述模型获取子单元,具体用于获取携带有主题标签的样本页面,所述主题标签与预置的业务属性相关联;从所述样本页面中提取样本词语,并将该样本词语标记为所述主题标签;使用所述样本词语进行模型训练,得到词语分类模型。
在上述技术方案的基础上,所述装置,还包括:
页面图像转换模块,用于在所述获取与业务对象存在关联关系的业务文档之后,将所述业务文档中的页面转换为页面图像。
图标识别模块,用于识别所述页面图像中的预置的图标。
属性值确定模块,用于将与所述图标关联设置的属性值,作为所述业务对象在预置的业务属性下所对应的属性值。
上述产品可执行本发明任意实施例所提供的方法,具备执行方法相应的功能模块和有益效果。
实施例四
图4为本发明实施例四提供的一种业务文档的处理设备的结构示意图。如图4所示,该业务文档的处理设备包括:处理器40、存储器41、输入装置42以及输出装置43。该业务文档的处理设备中处理器40的数量可以是一个或者多个,图4中以一个处理器40为例。该业务文档的处理设备中存储器41的数量可以是一个或者多个,图4中以一个存储器41为例。该业务文档的处理设备的处理器40、存储器41、输入装置42以及输出装置43可以通过总线或者其他方式连接,图4中以通过总线连接为例。该业务文档的处理设备可以是电脑和服务器等。本实施例以业务文档的处理设备为服务器进行详细说明,该服务器可以是独立服务器或集群服务器。
存储器41作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明任意实施例所述的业务文档的处理方法对应的程序指令/模块(例如,业务文档的处理装置中的业务文档获取模块310、目标文本转换模块320、属性值获取模块330和存储模块340)。存储器41可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据设备的使用所创建的数据等。此外,存储器41可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器41可进一步包括相对于处理器40远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置42可用于接收输入的数字或者字符信息,以及产生与业务文档的处理设备的观众用户设置以及功能控制有关的键信号输入,还可以是用于获取图像的摄像头以及获取音频数据的拾音设备。输出装置43可以包括扬声器等音频设备。需要说明的是,输入装置42和输出装置43的具体组成可以根据实际情况设定。
处理器40通过运行存储在存储器41中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述的业务文档的处理方法。
实施例五
本发明实施例五还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种业务文档的处理方法,包括:
获取归属于业务对象的业务文档;
将所述业务文档所包括的文本元素和图像元素转换为目标文本;
对所述目标文本进行分析处理,得到所述业务对象在预置的业务属性下所对应的属性值;
将所述属性值与所述业务对象进行关联存储,以统计所述业务对象的业务属性。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的业务文档的处理方法操作,还可以执行本发明任意实施例所提供的业务文档的处理方法中的相关操作,且具备相应的功能和有益效果。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是机器人,个人计算机,服务器,或者网络设备等)执行本发明任意实施例所述的业务文档的处理方法。
值得注意的是,上述业务文档的处理装置中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“在一实施例中”、“在又一实施例中”、“示例性的”或“在一具体示例中”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种业务文档的处理方法,其特征在于,包括:
获取归属于业务对象的业务文档;
将所述业务文档所包括的文本元素和图像元素转换为目标文本;
对所述目标文本进行分析处理,得到所述业务对象在预置的业务属性下所对应的属性值;
将所述属性值与所述业务对象进行关联存储,以统计所述业务对象的业务属性。
2.根据权利要求1所述的方法,其特征在于,所述将所述业务文档所包括的文本元素和图像元素转换为目标文本,包括:
从所述业务文档的页面中读取页面元素,所述页面元素包括文本元素和图像元素;
将所述页面元素中的文本元素,转换为第一文字信息;
对所述页面元素中的图像元素进行字符识别,得到第二文字信息;
对所述第一文字信息和所述第二文字信息进行组合,得到所述业务文档的目标文本。
3.根据权利要求1所述的方法,其特征在于,所述对所述目标文本进行分析处理,得到所述业务对象在预置的业务属性下所对应的属性值,包括:
对所述目标文本进行分词处理,得到候选词语;
获取预置的业务属性所对应的字典文件,其中,所述字典文件包括所述业务属性的属性值与至少一个标准词语之间的映射关系;
将所述候选词语与所述字典文件中的标准词语进行匹配;
当所述字典文件中存在与所述候选词语匹配成功的标准词语时,则将与所述候选词语存在所述映射关系的属性值,作为所述业务对象在所述业务属性下的属性值。
4.根据权利要求3所述的方法,其特征在于,在获取预置的业务属性所对应的字典文件之后,还包括:
基于所述业务文档中每一页面对应的所述候选词语,将与预置的业务属性相关的页面作为主题页面;
使用所述主题页面中的候选词语,继续执行所述将所述候选词语与所述字典文件中的标准词语进行匹配的步骤。
5.根据权利要求4所述的方法,其特征在于,所述基于所述业务文档中每一页面对应的所述候选词语,将与预置的业务属性相关的页面作为主题页面,包括:
获取词语分类模型;
针对所述业务文档中每一页面,将所述页面对应的所述候选词语输入所述词语分类模型进行处理,得到所述候选词语的第一概率,其中,所述第一概率为所述候选词语归类于主题页面的概率,所述主题页面为与预置的业务属性相关的页面;
将每一页面中所有所述候选词语的第一概率进行乘积计算,得到所述页面的第二概率,所述第二概率为所述页面归类于主题页面的概率;
将所述第二概率满足预设条件的页面,作为主题页面。
6.根据权利要求5所述的方法,其特征在于,所述获取词语分类模型,包括:
获取携带有主题标签的样本页面,所述主题标签与预置的业务属性相关联;
从所述样本页面中提取样本词语,并将该样本词语标记为所述主题标签;
使用所述样本词语进行模型训练,得到词语分类模型。
7.根据权利要求1-6任一所述的方法,其特征在于,在所述获取与业务对象存在关联关系的业务文档之后,还包括:
将所述业务文档中的页面转换为页面图像;
识别所述页面图像中的预置的图标;
将与所述图标关联设置的属性值,作为所述业务对象在预置的业务属性下所对应的属性值。
8.一种业务文档的处理装置,其特征在于,包括:
业务文档获取模块,用于获取归属于业务对象的业务文档;
目标文本转换模块,用于将所述业务文档所包括的文本元素和图像元素转换为目标文本;
属性值获取模块,用于对所述目标文本进行分析处理,得到所述业务对象在预置的业务属性下所对应的属性值;
存储模块,用于将所述属性值与所述业务对象进行关联存储,以统计所述业务对象的业务属性。
9.一种业务文档的处理设备,其特征在于,包括:存储器以及一个或多个处理器;
所述存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的业务文档的处理方法。
10.一种包含计算机可执行指令的存储介质,其特征在于,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-7中任一所述的业务文档的处理方法。
CN201910816715.7A 2019-08-30 2019-08-30 一种业务文档的处理方法、装置、设备和存储介质 Active CN110532449B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910816715.7A CN110532449B (zh) 2019-08-30 2019-08-30 一种业务文档的处理方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910816715.7A CN110532449B (zh) 2019-08-30 2019-08-30 一种业务文档的处理方法、装置、设备和存储介质

Publications (2)

Publication Number Publication Date
CN110532449A true CN110532449A (zh) 2019-12-03
CN110532449B CN110532449B (zh) 2022-05-31

Family

ID=68665696

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910816715.7A Active CN110532449B (zh) 2019-08-30 2019-08-30 一种业务文档的处理方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN110532449B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111143643A (zh) * 2019-12-23 2020-05-12 中汇信息技术(上海)有限公司 元素识别方法、装置、可读存储介质和电子设备
CN113378524A (zh) * 2021-06-07 2021-09-10 北京百度网讯科技有限公司 更新文档的存储信息的方法、装置、设备和存储介质
CN115994205A (zh) * 2023-03-22 2023-04-21 广东粤港澳大湾区国家纳米科技创新研究院 自组装属性提取方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020188761A1 (en) * 2000-09-28 2002-12-12 Chikirivao Bill S. Data-type definition driven dynamic business component instantiation and execution framework
CN108228665A (zh) * 2016-12-22 2018-06-29 阿里巴巴集团控股有限公司 确定对象标签、建立标签索引、搜索对象的方法及装置
CN108470296A (zh) * 2017-02-23 2018-08-31 阿里巴巴集团控股有限公司 一种业务对象信息处理方法及装置
CN108932340A (zh) * 2018-07-13 2018-12-04 华融融通(北京)科技有限公司 一种不良资产经营领域下金融知识图谱的构建方法
CN109829810A (zh) * 2018-12-13 2019-05-31 平安科技(深圳)有限公司 业务推荐方法、装置、计算机设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020188761A1 (en) * 2000-09-28 2002-12-12 Chikirivao Bill S. Data-type definition driven dynamic business component instantiation and execution framework
CN108228665A (zh) * 2016-12-22 2018-06-29 阿里巴巴集团控股有限公司 确定对象标签、建立标签索引、搜索对象的方法及装置
CN108470296A (zh) * 2017-02-23 2018-08-31 阿里巴巴集团控股有限公司 一种业务对象信息处理方法及装置
CN108932340A (zh) * 2018-07-13 2018-12-04 华融融通(北京)科技有限公司 一种不良资产经营领域下金融知识图谱的构建方法
CN109829810A (zh) * 2018-12-13 2019-05-31 平安科技(深圳)有限公司 业务推荐方法、装置、计算机设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111143643A (zh) * 2019-12-23 2020-05-12 中汇信息技术(上海)有限公司 元素识别方法、装置、可读存储介质和电子设备
CN111143643B (zh) * 2019-12-23 2023-11-03 中汇信息技术(上海)有限公司 元素识别方法、装置、可读存储介质和电子设备
CN113378524A (zh) * 2021-06-07 2021-09-10 北京百度网讯科技有限公司 更新文档的存储信息的方法、装置、设备和存储介质
CN115994205A (zh) * 2023-03-22 2023-04-21 广东粤港澳大湾区国家纳米科技创新研究院 自组装属性提取方法及装置

Also Published As

Publication number Publication date
CN110532449B (zh) 2022-05-31

Similar Documents

Publication Publication Date Title
US20210182611A1 (en) Training data acquisition method and device, server and storage medium
CN107766371B (zh) 一种文本信息分类方法及其装置
CN109685056B (zh) 获取文档信息的方法及装置
Xu et al. Remote sensing image scene classification based on generative adversarial networks
CN110909725A (zh) 识别文本的方法、装置、设备及存储介质
CN112163424B (zh) 数据的标注方法、装置、设备和介质
Wilkinson et al. Neural Ctrl-F: segmentation-free query-by-string word spotting in handwritten manuscript collections
CN111931859B (zh) 一种多标签图像识别方法和装置
CN110264315B (zh) 介绍信息生成方法和装置
CN110532449A (zh) 一种业务文档的处理方法、装置、设备和存储介质
CN111897781B (zh) 一种知识图谱数据抽取方法和系统
CN108734159B (zh) 一种图像中敏感信息的检测方法及系统
CN108154191B (zh) 文档图像的识别方法和系统
CN113051914A (zh) 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
CN113205047A (zh) 药名识别方法、装置、计算机设备和存储介质
JP5836779B2 (ja) 画像処理方法、画像処理装置、撮像装置およびプログラム
CN110765301A (zh) 图片处理方法、装置、设备及存储介质
WO2021114634A1 (zh) 文本标注方法、设备及存储介质
CN113918686A (zh) 智能问答模型构建方法、装置、计算机设备及存储介质
CN107704869B (zh) 一种语料数据抽样方法及模型训练方法
CN117974152A (zh) 客户投诉数据分析方法、装置、存储介质及电子设备
CN112560925A (zh) 一种复杂场景目标检测数据集构建方法及系统
CN115130437B (zh) 一种文档智能填写方法、装置及存储介质
CN110413795A (zh) 一种数据驱动的专业知识图谱构建方法
CN115292506A (zh) 应用于办公领域的知识图谱本体构建方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant