CN111177301B - 一种关键信息识别提取方法及系统 - Google Patents

一种关键信息识别提取方法及系统 Download PDF

Info

Publication number
CN111177301B
CN111177301B CN201911176312.7A CN201911176312A CN111177301B CN 111177301 B CN111177301 B CN 111177301B CN 201911176312 A CN201911176312 A CN 201911176312A CN 111177301 B CN111177301 B CN 111177301B
Authority
CN
China
Prior art keywords
sample
classified
node
distance
searching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911176312.7A
Other languages
English (en)
Other versions
CN111177301A (zh
Inventor
秦丞
唐源磊
贺渝镔
殷军
王杭
颜丽渊
田昊
柏瑞
刘姜钧泰
李云冬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yunnan Power Grid Co Ltd
Original Assignee
Yunnan Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yunnan Power Grid Co Ltd filed Critical Yunnan Power Grid Co Ltd
Priority to CN201911176312.7A priority Critical patent/CN111177301B/zh
Publication of CN111177301A publication Critical patent/CN111177301A/zh
Application granted granted Critical
Publication of CN111177301B publication Critical patent/CN111177301B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种关键信息识别提取方法及系统,属于信息处理技术领域。该方法首先获取用户选择的目标路径,解析文件夹结构并生成相应的标签树;遍历标签树的各个节点内容,在数据库中生成存储目录;对用户选取文件夹中的文档或图片进行识别,并将其转化为二进制数据,作为待分类样本,将待分类样本与样本数据集中的每一个样本进行比较,获得样本距离;找到与待分类样本最为相近的K个样本,并获取这K个样本的标签;选择这K个样本标签中出现次数最多的分类,作为待分类样本的分类;然后按照样本分类对应的标签得到识别内容。通过本发明可以有效识别提取文件中的关键信息进行比较筛选存入数据库,大幅度提高文档管理效率。

Description

一种关键信息识别提取方法及系统
技术领域
本发明属于信息处理技术领域,具体涉及一种关键信息识别提取方法及系统。
背景技术
信息化项目的合同、发票、技术协议等关键资料的归档、查找过程中,主要存在以下问题:
1)由于目前信息化项目的合同、发票、技术协议等关键资料的归档主要是通过纸质、扫描件等方式进行归档和系统录入,平时的工作当中会经常对历史文档进行查询,通过检索纸质材料和非结构化数据会耗费大量的人力和时间。
2)目前由人工对信息化项目关键资料的内容进行纸质和非结构化数据存档管理,缺乏有效的技术工具手段支撑,工作任务繁重,人工操作耗时耗力,还可能存在漏查、误查等问题。
上述原因导致在信息化项目关键资料管理实际工作中存在效率不高、质量不优等问题,有时拖延了工作时间,甚至影响了项目工程进度。
OCR字符识别方法及系统,申请号201310752624.4,公开了该方法包括:对用户选择的目标区域内的图像进行OCR字符识别以得到识别的词串;计算识别的词串中子词串的数量;如果词串中子词串的数量大于2,则判断第1个子词串W1中字符的个数和第K个子词串WK中字符的个数是否小于预设值;如果 W1中字符的个数和/或WK中字符的个数小于预设值,则判断W1的噪声概率得分和/或WK的噪声概率得分是否大于预设噪音;如果是,则判定W1和/或WK 为噪声并从词串中删除W1和/或WK以得到新的词串。根据该发明的实施例可提升对OCR识别的结果的OCR翻译的准确性。该方法存在如下缺点:1.识别速度较慢准确率不高,需要针对场景进行训练学习;2.手写体和印章无法识别;3. 无法根据用户需求提取指定的关键内容。
业务文档的公式信息提取方法及装置,申请号:201810085254.6,公开了该方法包括:获取第一序列,第一序列由业务文档生成,包括至少两个变量;获取第一标注序列,第一标注序列包括至少两个预设变量,第一标注序列对应第一标注表达式,第一标注表达式包括至少两个预设变量和至少两个预设变量之间的运算关系;如果第一序列与第一标注序列相匹配,则根据第一标注表达式及至少两个变量提取第一表达式,第一表达式包括至少两个变量和至少两个变量之间的运算关系,其中,至少两个变量之间的运算关系与第一标注表达式中的至少两个预设变量之间的运算关系相同。采用上述技术方案的提取方法可以有效提取出业务文档中的公式信息,尤其是隐含的用文本描述的公式信息。该方法存在如下缺点:1.无法满足实际应用要求,不能根据场景设置对应信息提取规则;2.不能对PDF、JPG、PNG等格式进行处理;3.没有对提取对象进行分类存储处理。
因此如何克服现有技术的不足是目前信息处理技术领域亟需解决的问题。
发明内容
本发明的目的是为了解决现有技术的不足,提供一种关键信息识别提取方法及系统,通过本发明可以有效识别提取文件中的关键信息进行比较筛选存入数据库,大幅度提高文档管理效率。
为实现上述目的,本发明采用的技术方案如下:
一种关键信息识别提取方法,包括如下步骤:
获取用户选择的目标路径,解析文件夹结构;
根据结构层级生成得到所述文件夹路径的标签树;
遍历标签树的各个节点内容,得到对应文件夹中的内容;
根据标签树的各个节点在数据库中生成存储目录;
对用户选取文件夹中的文档或图片进行识别,并将其转化为二进制数据,作为待分类样本;
令数据库中含有一个样本数据集,样本数据集中每个样本带有标签,通过标签能够获取样本数据集中每一个样本的分类;
当获取到一个没有标签的待分类样本时,将待分类样本与样本数据集中的每一个样本进行比较;
假设待分类样本作为测试节点,初始化样本距离为无穷大;
从根节点开始搜索,计算当前节点与测试节点之间的距离;
若当前节点与测试节点之间的距离小于样本距离,则将当前节点与测试节点之间的距离赋值给样本距离;
确定当前节点的划分维度;利用当前结点的划分阈值向下搜索,若测试样本当前维的值小于当前节点阈值,则搜索左子树,否则,搜索右子树;
采用递归的方式继续对上一步确定搜索的左子树或右子树进行搜索,获得样本距离;
找到与待分类样本最为相近的K个样本,并获取这K个样本的标签;K不小于3;
选择这K个样本标签中出现次数最多的分类,作为待分类样本的分类;
然后按照样本分类对应的标签得到识别内容。
进一步,优选的是,所述的K为5。
本发明还提供一种关键信息识别提取装置,包括:
预处理模块,用于获取用户选择的目标路径,解析文件夹结构,根据结构层级生成得到所述文件夹路径的标签树;
待分类样本获取模块,用于遍历标签树的各个节点内容,得到对应文件夹中的内容,根据标签树的各个节点在数据库中生成存储目录,之后对用户选取文件夹中的文档或图片进行识别,并将其转化为二进制数据,作为待分类样本;
样本距离获取模块,用于当获取到一个没有标签的待分类样本时,将待分类样本与样本数据集中的每一个样本进行比较;假设待分类样本作为测试节点,初始化样本距离为无穷大;从根节点开始搜索,计算当前节点与测试节点之间的距离;若当前节点与测试节点之间的距离小于样本距离,则将当前节点与测试节点之间的距离赋值给样本距离;确定当前节点的划分维度;利用当前结点的划分阈值向下搜索,若测试样本当前维的值小于当前节点阈值,则搜索左子树,否则,搜索右子树;采用递归的方式继续对确定搜索的左子树或右子树进行搜索,获得样本距离;
所述的数据库中含有一个样本数据集,样本数据集中每个样本带有标签,通过标签能够获取样本数据集中每一个样本的分类;
内容识别模块,用于找到与待分类样本最为相近的K个样本,并获取这K 个样本的标签;K不小于3,选择这K个样本标签中出现次数最多的分类,作为待分类样本的分类;然后按照样本分类对应的标签得到识别内容。
本发明同时提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述关键信息识别提取方法的步骤。
本发明另外提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述关键信息识别提取方法的步骤。
本发明与现有技术相比,其有益效果为:
(1)本发明能有效识别、提取文件中的关键信息、进行比较筛选存入数据库,能将非结构化关键项目资料的关键信息进行结构化整理和管理,能规范化项目资料的存档;
(2)本发明能让多人同时快速查找需要的项目合同、发票、技术协议等关键信息;
(3)本发明能降低在检索纸质材料和非结构化资料时耗费的人力和时间,降低工作量,系统方便实用,实现了信息精准查询,降低漏查、误差等问题,大幅度提高文档管理效率。
附图说明
图1为本发明关键信息识别提取装置的结构示意图;
图2为本发明电子设备的结构示意图;
图3为应用实例中待识别图片;
图4为应用实例中的识别结果。
具体实施方式
下面结合实施例对本发明作进一步的详细描述。
本领域技术人员将会理解,下列实施例仅用于说明本发明,而不应视为限定本发明的范围。实施例中未注明具体技术或条件者,按照本领域内的文献所描述的技术或条件或者按照产品说明书进行。所用材料或设备未注明生产厂商者,均为可以通过购买获得的常规产品。
一种关键信息识别提取方法,包括如下步骤:
获取用户选择的目标路径,解析文件夹结构;
根据结构层级生成得到所述文件夹路径的标签树;
遍历标签树的各个节点内容,得到对应文件夹中的内容;
根据标签树的各个节点在数据库中生成存储目录;
对用户选取文件夹中的文档或图片进行识别,并将其转化为二进制数据,作为待分类样本;
令数据库中含有一个样本数据集,样本数据集中每个样本带有标签,通过标签能够获取样本数据集中每一个样本的分类;
当获取到一个没有标签的待分类样本时,将待分类样本与样本数据集中的每一个样本进行比较;
假设待分类样本作为测试节点,初始化样本距离为无穷大;
从根节点开始搜索,计算当前节点与测试节点之间的距离;
若当前节点与测试节点之间的距离小于样本距离,则将当前节点与测试节点之间的距离赋值给样本距离;
确定当前节点的划分维度;利用当前结点的划分阈值向下搜索,若测试样本当前维的值小于当前节点阈值,则搜索左子树,否则,搜索右子树;
采用递归的方式继续对上一步确定搜索的左子树或右子树进行搜索,获得样本距离;
找到与待分类样本最为相近的K个样本,并获取这K个样本的标签;K不小于3;
选择这K个样本标签中出现次数最多的分类,作为待分类样本的分类;
然后按照样本分类对应的标签得到识别内容。
优选,所述的K为5。
如图1所示,一种关键信息识别提取装置,包括:
预处理模块101,用于获取用户选择的目标路径,解析文件夹结构,根据结构层级生成得到所述文件夹路径的标签树;
待分类样本获取模块102,用于遍历标签树的各个节点内容,得到对应文件夹中的内容,根据标签树的各个节点在数据库中生成存储目录,之后对用户选取文件夹中的文档或图片进行识别,并将其转化为二进制数据,作为待分类样本;
样本距离获取模块103,用于当获取到一个没有标签的待分类样本时,将待分类样本与样本数据集中的每一个样本进行比较;假设待分类样本作为测试节点,初始化样本距离为无穷大;从根节点开始搜索,计算当前节点与测试节点之间的距离;若当前节点与测试节点之间的距离小于样本距离,则将当前节点与测试节点之间的距离赋值给样本距离;确定当前节点的划分维度;利用当前结点的划分阈值向下搜索,若测试样本当前维的值小于当前节点阈值,则搜索左子树,否则,搜索右子树;采用递归的方式继续对确定搜索的左子树或右子树进行搜索,获得样本距离;
所述的数据库中含有一个样本数据集,样本数据集中每个样本带有标签,通过标签能够获取样本数据集中每一个样本的分类;
内容识别模块104,用于找到与待分类样本最为相近的K个样本,并获取这K个样本的标签;K不小于3,选择这K个样本标签中出现次数最多的分类,作为待分类样本的分类;然后按照样本分类对应的标签得到识别内容。
本发明实施例提供的系统是用于执行上述各方法实施例的,具体流程和详细内容请参照上述实施例,此处不再赘述。
一种电子设备,如图2所示,该电子设备可以包括:处理器(processor)20 1、通信接口(Communications Interface)202、存储器(memory)203和通信总线204,其中,处理器201,通信接口202,存储器203通过通信总线204完成相互间的通信。处理器201可以调用存储器203中的逻辑指令,以执行如下方法:获取用户选择的目标路径,解析文件夹结构;
根据结构层级生成得到所述文件夹路径的标签树;
遍历标签树的各个节点内容,得到对应文件夹中的内容;
根据标签树的各个节点在数据库中生成存储目录;
对用户选取文件夹中的文档或图片进行识别,并将其转化为二进制数据,作为待分类样本;
令数据库中含有一个样本数据集,样本数据集中每个样本带有标签,通过标签能够获取样本数据集中每一个样本的分类;
当获取到一个没有标签的待分类样本时,将待分类样本与样本数据集中的每一个样本进行比较;
假设待分类样本作为测试节点,初始化样本距离为无穷大;
从根节点开始搜索,计算当前节点与测试节点之间的距离;
若当前节点与测试节点之间的距离小于样本距离,则将当前节点与测试节点之间的距离赋值给样本距离;
确定当前节点的划分维度;利用当前结点的划分阈值向下搜索,若测试样本当前维的值小于当前节点阈值,则搜索左子树,否则,搜索右子树;
采用递归的方式继续对上一步确定搜索的左子树或右子树进行搜索,获得样本距离;
找到与待分类样本最为相近的K个样本,并获取这K个样本的标签;K不小于3;
选择这K个样本标签中出现次数最多的分类,作为待分类样本的分类;
然后按照样本分类对应的标签得到识别内容。
此外,上述的存储器303中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read -Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的电网频率振荡的控制方法,例如包括:获取用户选择的目标路径,解析文件夹结构;
根据结构层级生成得到所述文件夹路径的标签树;
遍历标签树的各个节点内容,得到对应文件夹中的内容;
根据标签树的各个节点在数据库中生成存储目录;
对用户选取文件夹中的文档或图片进行识别,并将其转化为二进制数据,作为待分类样本;
令数据库中含有一个样本数据集,样本数据集中每个样本带有标签,通过标签能够获取样本数据集中每一个样本的分类;
当获取到一个没有标签的待分类样本时,将待分类样本与样本数据集中的每一个样本进行比较;
假设待分类样本作为测试节点,初始化样本距离为无穷大;
从根节点开始搜索,计算当前节点与测试节点之间的距离;
若当前节点与测试节点之间的距离小于样本距离,则将当前节点与测试节点之间的距离赋值给样本距离;
确定当前节点的划分维度;利用当前结点的划分阈值向下搜索,若测试样本当前维的值小于当前节点阈值,则搜索左子树,否则,搜索右子树;
采用递归的方式继续对上一步确定搜索的左子树或右子树进行搜索,获得样本距离;
找到与待分类样本最为相近的K个样本,并获取这K个样本的标签;K不小于3;
选择这K个样本标签中出现次数最多的分类,作为待分类样本的分类;
然后按照样本分类对应的标签得到识别内容。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
应用实例
采用本发明方法对图3(该图片来源于百度)所示内容进行识别,识别结果如图4所示。结果表明,本发明方法能有效识别、提取文件中的关键信息、进行比较筛选存入数据库,能将非结构化关键项目资料的关键信息进行结构化整理和管理,能规范化项目资料的存档。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (5)

1.一种关键信息识别提取方法,其特征在于,包括如下步骤:
获取用户选择的目标路径,解析文件夹结构;
根据结构层级生成得到所述文件夹路径的标签树;
遍历标签树的各个节点内容,得到对应文件夹中的内容;
根据标签树的各个节点在数据库中生成存储目录;
对用户选取文件夹中的文档或图片进行识别,并将其转化为二进制数据,作为待分类样本;
令数据库中含有一个样本数据集,样本数据集中每个样本带有标签,通过标签能够获取样本数据集中每一个样本的分类;
当获取到一个没有标签的待分类样本时,将待分类样本与样本数据集中的每一个样本进行比较;
假设待分类样本作为测试节点,初始化样本距离为无穷大;
从根节点开始搜索,计算当前节点与测试节点之间的距离;
若当前节点与测试节点之间的距离小于样本距离,则将当前节点与测试节点之间的距离赋值给样本距离;
确定当前节点的划分维度;利用当前结点的划分阈值向下搜索,若测试样本当前维的值小于当前节点阈值,则搜索左子树,否则,搜索右子树;
采用递归的方式继续对上一步确定搜索的左子树或右子树进行搜索,获得样本距离;
找到与待分类样本最为相近的K个样本,并获取这K个样本的标签;K不小于3;
选择这K个样本标签中出现次数最多的分类,作为待分类样本的分类;
然后按照样本分类对应的标签得到识别内容。
2.根据权利要求1所述的关键信息识别提取方法,其特征在于,所述的K为5。
3.一种关键信息识别提取装置,其特征在于,包括:
预处理模块,用于获取用户选择的目标路径,解析文件夹结构,根据结构层级生成得到所述文件夹路径的标签树;
待分类样本获取模块,用于遍历标签树的各个节点内容,得到对应文件夹中的内容,根据标签树的各个节点在数据库中生成存储目录,之后对用户选取文件夹中的文档或图片进行识别,并将其转化为二进制数据,作为待分类样本;
样本距离获取模块,用于当获取到一个没有标签的待分类样本时,将待分类样本与样本数据集中的每一个样本进行比较;假设待分类样本作为测试节点,初始化样本距离为无穷大;从根节点开始搜索,计算当前节点与测试节点之间的距离;若当前节点与测试节点之间的距离小于样本距离,则将当前节点与测试节点之间的距离赋值给样本距离;确定当前节点的划分维度;利用当前结点的划分阈值向下搜索,若测试样本当前维的值小于当前节点阈值,则搜索左子树,否则,搜索右子树;采用递归的方式继续对确定搜索的左子树或右子树进行搜索,获得样本距离;
数据库中含有一个样本数据集,样本数据集中每个样本带有标签,通过标签能够获取样本数据集中每一个样本的分类;
内容识别模块,用于找到与待分类样本最为相近的K个样本,并获取这K个样本的标签;K不小于3,选择这K个样本标签中出现次数最多的分类,作为待分类样本的分类;然后按照样本分类对应的标签得到识别内容。
4.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至2任一项所述关键信息识别提取方法的步骤。
5.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至2任一项所述关键信息识别提取方法的步骤。
CN201911176312.7A 2019-11-26 2019-11-26 一种关键信息识别提取方法及系统 Active CN111177301B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911176312.7A CN111177301B (zh) 2019-11-26 2019-11-26 一种关键信息识别提取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911176312.7A CN111177301B (zh) 2019-11-26 2019-11-26 一种关键信息识别提取方法及系统

Publications (2)

Publication Number Publication Date
CN111177301A CN111177301A (zh) 2020-05-19
CN111177301B true CN111177301B (zh) 2023-05-26

Family

ID=70653713

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911176312.7A Active CN111177301B (zh) 2019-11-26 2019-11-26 一种关键信息识别提取方法及系统

Country Status (1)

Country Link
CN (1) CN111177301B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112667709B (zh) * 2020-12-24 2022-05-03 山东大学 基于Spark的校园卡租借行为检测方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1716256A (zh) * 2004-06-30 2006-01-04 微软公司 自动分类法的生成
CN104598536A (zh) * 2014-12-29 2015-05-06 浙江大学 一种分布式网络信息结构化处理方法
CN105630941A (zh) * 2015-12-23 2016-06-01 成都电科心通捷信科技有限公司 基于统计和网页结构的Web正文内容抽取方法
CN105677764A (zh) * 2015-12-30 2016-06-15 百度在线网络技术(北京)有限公司 信息提取方法和装置
CN105912633A (zh) * 2016-04-11 2016-08-31 上海大学 面向稀疏样本的聚焦式Web信息抽取系统及方法
CN108319626A (zh) * 2017-01-18 2018-07-24 阿里巴巴集团控股有限公司 一种基于名称信息的对象分类方法与设备
CN110046236A (zh) * 2019-03-20 2019-07-23 腾讯科技(深圳)有限公司 一种非结构化数据的检索方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2332741T3 (es) * 2005-12-05 2010-02-11 Siemens Corporation Uso de agrupamiento secuencial para seleccion de instancias en monitorizacion de estados de maquina.
US20170083920A1 (en) * 2015-09-21 2017-03-23 Fair Isaac Corporation Hybrid method of decision tree and clustering technology

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1716256A (zh) * 2004-06-30 2006-01-04 微软公司 自动分类法的生成
CN104598536A (zh) * 2014-12-29 2015-05-06 浙江大学 一种分布式网络信息结构化处理方法
CN105630941A (zh) * 2015-12-23 2016-06-01 成都电科心通捷信科技有限公司 基于统计和网页结构的Web正文内容抽取方法
CN105677764A (zh) * 2015-12-30 2016-06-15 百度在线网络技术(北京)有限公司 信息提取方法和装置
CN105912633A (zh) * 2016-04-11 2016-08-31 上海大学 面向稀疏样本的聚焦式Web信息抽取系统及方法
CN108319626A (zh) * 2017-01-18 2018-07-24 阿里巴巴集团控股有限公司 一种基于名称信息的对象分类方法与设备
CN110046236A (zh) * 2019-03-20 2019-07-23 腾讯科技(深圳)有限公司 一种非结构化数据的检索方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Song Xue 等.Binary-decision-tree-based multiclass Support Vector Machines.《International Symposium on Communications and Information Technologies》.2014,85-89. *
李璐.基于大数据的事件数据模式挖掘研究.《中国优秀硕士学位论文全文数据库信息科技辑》.2018,I138-299. *
田鹏程.新闻类网页内容感知系统研究与实现.《中国优秀硕士学位论文全文数据库信息科技辑》.2018,I139-539. *

Also Published As

Publication number Publication date
CN111177301A (zh) 2020-05-19

Similar Documents

Publication Publication Date Title
CN111324784B (zh) 一种字符串处理方法及装置
US8965127B2 (en) Method for segmenting text words in document images
KR20190123790A (ko) 전자 문서로부터 데이터 추출
EP2202645A1 (en) Method of feature extraction from noisy documents
CN109685052A (zh) 文本图像处理方法、装置、电子设备及计算机可读介质
US11907659B2 (en) Item recall method and system, electronic device and readable storage medium
CN112784009B (zh) 一种主题词挖掘方法、装置、电子设备及存储介质
CN110413998B (zh) 一种面向电力行业的自适应中文分词方法及其系统、介质
CN111078979A (zh) 一种基于ocr和文本处理技术识别网贷网站的方法及系统
CN108153728B (zh) 一种关键词确定方法及装置
Zhai et al. Chinese image text recognition with BLSTM-CTC: a segmentation-free method
CN111177301B (zh) 一种关键信息识别提取方法及系统
CN111325019A (zh) 词库的更新方法及装置、电子设备
CN112214737B (zh) 以图片为主的欺诈网页的识别方法、系统、装置和介质
KR20150122855A (ko) 실시간 질의 및 정답을 위한 분산처리 시스템 및 방법
CN116958996A (zh) Ocr信息提取方法、系统及设备
CN110807082A (zh) 质量抽检项目确定方法、系统、电子设备及可读存储介质
US11928877B2 (en) Systems and methods for automatic context-based annotation
CN109344254B (zh) 一种地址信息分类方法及装置
CN110826488B (zh) 一种针对电子文档的图像识别方法、装置及存储设备
CN113688240A (zh) 威胁要素提取方法、装置、设备及存储介质
Fugini et al. Data and Process Quality Evaluation in a Textual Big Data Archiving System
CN112905733A (zh) 一种基于ocr识别技术的图书保存方法、系统及装置
Liang et al. Implementing word retrieval in handwritten documents using a small dataset
CN110750638A (zh) 一种基于半监督学习的多标签语料库文本分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant