CN111858963B - 网页客服知识抽取方法及装置 - Google Patents

网页客服知识抽取方法及装置 Download PDF

Info

Publication number
CN111858963B
CN111858963B CN202010735444.5A CN202010735444A CN111858963B CN 111858963 B CN111858963 B CN 111858963B CN 202010735444 A CN202010735444 A CN 202010735444A CN 111858963 B CN111858963 B CN 111858963B
Authority
CN
China
Prior art keywords
template
knowledge
webpage
customer service
matching degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010735444.5A
Other languages
English (en)
Other versions
CN111858963A (zh
Inventor
申亚坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bank of China Ltd
Original Assignee
Bank of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bank of China Ltd filed Critical Bank of China Ltd
Priority to CN202010735444.5A priority Critical patent/CN111858963B/zh
Publication of CN111858963A publication Critical patent/CN111858963A/zh
Application granted granted Critical
Publication of CN111858963B publication Critical patent/CN111858963B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供了一种网页客服知识抽取方法及装置,涉及数据处理技术领域,该方法包括:获取网页的客服数据;计算客服数据与模板库中各模板的匹配度;模板是用于进行知识拆分的组件;根据匹配度确定目标模板;利用目标模板对网页进行知识抽取。本发明可以根据基于匹配度确定出的目标模板,自动进行知识抽取,得到的抽取结果可用于更新客服知识库,从而提高客服知识库的知识迭代效率。

Description

网页客服知识抽取方法及装置
技术领域
本发明涉及数据处理技术领域,尤其是涉及一种网页客服知识抽取方法及装置。
背景技术
知识抽取即从不同来源、不同结构的数据中进行知识提取,形成知识条目(结构化知识、资源描述框架三元组)存入到知识图谱中,从而进行知识检索和知识推理。客服知识库用于存储知识图谱。客服知识库中存储的基本单元是知识本体,这些知识本体通常是知识维护人员根据业务经验从网页、文档等根据知识模板手动拆解得到,这种方式依赖人工以及知识梳理专家的模板,适用于小数据集。面对海量客服知识时,客服知识库数据更新迭代效率低。
发明内容
本发明提供了一种网页客服知识抽取方法及装置,可以用于提升客服知识库数据更新迭代效率。
第一方面,本发明实施例提供了一种网页客服知识抽取方法,该方法包括:获取所述网页的客服数据;计算所述客服数据与模板库中各模板的匹配度;所述模板是用于进行知识筛选的组件;根据所述匹配度确定目标模板;利用所述目标模板对所述网页进行知识抽取。
第二方面,本发明实施例还提供一种网页客服知识抽取装置,该装置包括:获取模块,用于获取所述网页的客服数据;匹配模块,用于计算所述客服数据与模板库中各模板的匹配度;所述模板是用于进行知识筛选的组件;确定模块,用于根据所述匹配度确定目标模板;抽取模块,用于利用所述目标模板对所述网页进行知识抽取
第三方面,本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述网页客服知识抽取方法。
第四方面,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述网页客服知识抽取方法的计算机程序。
本发明实施例带来了以下有益效果:本发明实施例提供了一种网页客服知识抽取方案,该方案首先获取待进行知识抽取的网页中的客服数据,通过计算客服数据与模板库中各模板之间的匹配度,从而确定目标模板,其中,模板是用于进行知识筛选的组件,最后,根据确定出的目标模板对网页进行知识抽取,从而得到网页客服知识抽取结果。本发明实施例可以根据基于匹配度确定出的目标模板,自动进行知识抽取,得到的抽取结果可用于更新客服知识库,从而提高客服知识库的知识迭代效率。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的网页客服知识抽取方法流程图;
图2为本发明实施例提供的网页客服知识抽取方法执行流程示意图;
图3为本发明实施例提供的一种网页客服知识抽取装置结构框图;
图4为本发明实施例提供的另一种网页客服知识抽取装置结构框图;
图5为本发明实施例提供的计算机设备结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前,现有的客服知识库依赖人工进行知识抽取进行知识迭代,现有方案存在难以维护、可移植性差、工作量大、自动化程度不高等缺点。
基于此,本发明实施例提供的一种网页客服知识抽取方法及装置,可以针对列表、Html(Hyper Text Markup Language,超级文本标记语言)页面、表格等半结构化数据来源,通过包装器归纳和自动梳理知识完成自动抽取,最终将海量非机构化文档源中的知识自动添加到业务本体知识图谱中,使系统知识有了更新迭代,一定程度上解放了知识管理员的双手,提高了知识迭代效率。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种网页客服知识抽取方法进行详细介绍。
本发明实施例提供了一种网页客服知识抽取方法,参见图1所示的一种网页客服知识抽取方法流程图,该方法包括以下步骤:
步骤S102,获取网页的客服数据。
在本发明实施例中,网页可是待进行知识抽取的网页,网页中包括如客户身份数据、银行卡卡号数据、住址数据、收费数据以及办理条件等客服数据。
步骤S104,计算客服数据与模板库中各模板的匹配度。
在本发明实施例中,模板是用于进行知识筛选的组件。模板中包括例如客户姓名、银行卡卡号、办理条件等项目信息。不同的网页包括不同的项目组合,模板库中包括不同网页创建时所对应的模板。因此,通过计算客服数据与模板库中各模板的匹配度,从而确定模板与网页的匹配情况。
需要说明的是,模板库可以根据要进行知识抽取的网页预先确定。鉴于客服领域网页页面的业务知识很多都是具有相同的模板,针对大量有规律的知识页面,提取有限的知识提取模板,并将知识提取模板存入模板库。模板可以是Xpath(XML Path Language,XML路径语言)或CSS(Cascading Style Sheets,层叠样式表)选择器等具有一定筛选过滤功能的组件。
步骤S106,根据匹配度确定目标模板。
在本发明实施例中,在得到网页与模板之间的匹配度之后,根据匹配度筛选匹配程度较高的模板,作为目标模板。
步骤S108,利用目标模板对网页进行知识抽取。
在本发明实施例中,确定了目标模板之后,利用目标模板对网页进行知识抽取,即从网页中筛选目标模板中各项目对应的数据。例如,目标模板中包括客户姓名项目,则根据目标模板从网页中获取到客户姓名“张三”。从网页中筛选目标模板中各项目对应的客服数据,得到知识抽取结果。
本发明实施例提供了一种网页客服知识抽取方案,该方案首先获取待进行知识抽取的网页中的客服数据,通过计算客服数据与模板库中各模板之间的匹配度,从而确定目标模板,其中,模板是用于进行知识筛选的组件,最后,根据确定出的目标模板对网页进行知识抽取,从而得到网页客服知识抽取结果。本发明实施例可以根据基于匹配度确定出的目标模板,自动进行知识抽取,得到的抽取结果可用于更新客服知识库,从而提高客服知识库的知识迭代效率。
为了进一步提升数据处理效率,获取网页的客服数据之前,还可以执行如下步骤:
利用网页爬取组件,获取网页的业务数据;对业务数据进行清洗处理,得到客服数据。
在本发明实施例中,通过网页爬取程序获取海量的客服业务知识时,首先对网页的业务数据进行数据清洗,去除无效页面、过时页面、错误页面等,将过滤后的页面数据作为客服数据,从而提升数据处理效率以及后续知识抽取的准确率。
为了提升数据抽取结果的准确性,根据匹配度确定目标模板,可以按照如下步骤执行:
若第一模板对应的匹配度大于预设匹配度阈值,且第一模板对应的匹配度大于模板库中任意模板对应的匹配度,则将第一模板作为目标模板。
在本发明实施例中,计算与模板库中已知模板与客服数据的匹配度,当第一模板对应的匹配度大于预设匹配度阈值时,选择匹配度最高的第一模板作为目标模板,进行知识提取。
需要说明的是预设匹配度阈值的大小可以根据实际需求进行设置,本发明实施例对此不作具体限定。
参见图2所示的网页客服知识抽取方法执行流程示意图,其中包装器即为目标模板,通过包装器对网页进行知识提取,得到多个资源描述框架(Resource DescriptionFramework,RDF)。需要说明的是,在确定多个RDF时,也可以同时确定RDF之间的关联关系。从而将多个RDF用于更新本体库,完成客服知识库数据更新迭代。
考虑到网页信息格式以及内容的多样性,为了提升自动化程度,利用目标模板对网页进行知识抽取,可以按照如下步骤执行:
接收网页标注信息;根据网页标注信息,利用目标模板对网页进行知识抽取。
网页标注信息可以是人工发出的信息,例如,目标模板中,客户姓名项目为中文,而网页中姓名信息为英文,为了提升自动化程度,可以人工预先对网页中的信息进行处理或修正,得到网页标注信息,接收人工发送的网页标注信息,基于网页标注信息利用目标模板对网页进行知识抽取。
考虑到网页可能为后补网页或存在特殊知识,该方法还可以执行如下步骤:
若不存在目标模板,则生成知识抽取提醒信息,并将知识抽取提醒信息发送至显示模块,以使显示模块显示抽取提醒信息。
在本发明实施例中,若客服数据与模板库中各模板的匹配度均低于预设匹配度阈值,可确定不存在目标模板,因此,需生成知识抽取提醒信息,将知识抽取提醒信息发送至显示模块,以使显示模块显示抽取提醒信息,从而提醒相关人员采用现有的方法进行知识抽取。
参见图2所示的网页客服知识抽取方法执行流程示意图,对于在模板库中匹配不到拆解模板的网页,采用常规知识抽取方法,即先后通过命名实体识别、术语抽取、关系抽取、共指消解等步骤完成RDF三元组的拆解,最终将审核通过的RDF组存入到本体库中。
本发明实施例提供了一种网页客服知识抽取方法及装置,该方法能够利用大部分业务知识具有相同业务模板的特点,对海量的客服知识采用模板匹配方法进行初步过滤,符合模板的知识进行包装器方式进行拆解,对于模板外知识采用非机构化知识拆解流程进行提取,采用包装器和非机构化知识抽取相结合的方式进行自动知识抽取,在一定程度上解决了管理员的工作量,为本体库补充了一定规模的知识,提升了系统的智能化程度。
本发明实施例中还提供了一种网页客服知识抽取装置,如下面的实施例所述。由于该装置解决问题的原理与网页客服知识抽取方法相似,因此该装置的实施可以参见网页客服知识抽取方法的实施,重复之处不再赘述。参见图3所示的一种网页客服知识抽取装置结构框图,该装置包括:
获取模块71,用于获取网页的客服数据;匹配模块72,用于计算客服数据与模板库中各模板的匹配度;模板是用于进行知识筛选的组件;确定模块73,用于根据匹配度确定目标模板;抽取模块74,用于利用目标模板对网页进行知识抽取。
在一个实施例中,参见图4所示的另一种网页客服知识抽取装置结构框图,该装置还包括预处理模块75,用于:获取网页的业务数据;对业务数据进行清洗处理,得到客服数据。
在一个实施例中,确定模块,具体用于:若第一模板对应的匹配度大于预设匹配度阈值,且第一模板对应的匹配度大于模板库中任意模板对应的匹配度,将第一模板作为目标模板。
在一个实施例中,抽取模块,具体用于:接收网页标注信息;根据网页标注信息,利用目标模板对网页进行知识抽取。
在一个实施例中,参见图4所示的另一种网页客服知识抽取装置结构框图,该装置还包括生成模块76,用于:若不存在目标模板,则生成知识抽取提醒信息,并将知识抽取提醒信息发送至显示模块,以使所述显示模块显示所述抽取提醒信息。
本发明实施例还提供一种计算机设备,参见图5所示的计算机设备结构示意框图,该计算机设备包括存储器81、处理器82及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述任一种网页客服知识抽取方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的计算机设备的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质存储有执行上述任一种网页客服知识抽取方法的计算机程序。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (8)

1.一种客服知识库数据更新方法,其特征在于,包括:
获取网页的客服数据;
计算所述客服数据与模板库中各模板的匹配度;所述模板是用于进行知识筛选的组件,所述模板包括基于路径选择语言XML组件、层叠样式表CSS选择器组件;
根据所述匹配度确定目标模板;
利用所述目标模板对所述网页进行知识抽取;
根据所述匹配度确定目标模板,包括:
若第一模板对应的匹配度大于预设匹配度阈值,且所述第一模板对应的匹配度大于所述模板库中任意模板对应的匹配度,则将所述第一模板作为目标模板;
通过所述目标模板对网页进行知识抽取,得到多个资源描述框架RDF,确定多个RDF之间的关联关系,更新本体库;所述本体库用于完成客服知识库数据更新迭代;
获取所述网页的客服数据之前,还包括:
利用网页爬取组件,获取所述网页的业务数据;
对所述网页的业务数据进行清洗处理,去除无效页面、过时页面、错误页面,将过滤后的页面数据作为客服数据。
2.根据权利要求1所述的方法,其特征在于,利用所述目标模板对所述网页进行知识抽取,包括:
接收网页标注信息;
根据所述网页标注信息,利用所述目标模板对所述网页进行知识抽取。
3.根据权利要求1所述的方法,其特征在于,还包括:
若不存在目标模板,则生成知识抽取提醒信息,并将所述知识抽取提醒信息发送至显示模块,以使所述显示模块显示所述抽取提醒信息。
4.一种客服知识库数据更新装置,其特征在于,包括:
获取模块,用于获取网页的客服数据;
匹配模块,用于计算所述客服数据与模板库中各模板的匹配度;所述模板是用于进行知识筛选的组件,所述模板包括基于路径选择语言XML、层叠样式表CSS选择器组件;
确定模块,用于根据所述匹配度确定目标模板;
抽取模块,用于利用所述目标模板对所述网页进行知识抽取,通过所述目标模板对网页进行知识抽取,得到多个资源描述框架RDF,确定多个RDF之间的关联关系,更新本体库;
所述确定模块,具体用于:
若第一模板对应的匹配度大于预设匹配度阈值,且所述第一模板对应的匹配度大于所述模板库中任意模板对应的匹配度,将所述第一模板作为目标模板;
通过所述目标模板对网页进行知识抽取,得到多个资源描述框架RDF,确定多个RDF之间的关联关系,更新本体库;所述本体库用于完成客服知识库数据更新迭代;
还包括预处理模块,用于:
利用网页爬取组件,获取所述网页的业务数据;
对所述网页的业务数据进行清洗处理,去除无效页面、过时页面、错误页面,将过滤后的页面数据作为客服数据。
5.根据权利要求4所述的装置,其特征在于,所述抽取模块,具体用于:
接收网页标注信息;
根据所述网页标注信息,利用所述目标模板对所述网页进行知识抽取。
6.根据权利要求4所述的装置,其特征在于,还包括生成模块,用于:
若不存在目标模板,则生成知识抽取提醒信息,并将所述知识抽取提醒信息发送至显示模块,以使所述显示模块显示所述抽取提醒信息。
7.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至3任一所述方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至3任一所述方法。
CN202010735444.5A 2020-07-28 2020-07-28 网页客服知识抽取方法及装置 Active CN111858963B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010735444.5A CN111858963B (zh) 2020-07-28 2020-07-28 网页客服知识抽取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010735444.5A CN111858963B (zh) 2020-07-28 2020-07-28 网页客服知识抽取方法及装置

Publications (2)

Publication Number Publication Date
CN111858963A CN111858963A (zh) 2020-10-30
CN111858963B true CN111858963B (zh) 2024-02-23

Family

ID=72947795

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010735444.5A Active CN111858963B (zh) 2020-07-28 2020-07-28 网页客服知识抽取方法及装置

Country Status (1)

Country Link
CN (1) CN111858963B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112612841A (zh) * 2020-12-29 2021-04-06 重庆农村商业银行股份有限公司 一种知识抽取构建方法、装置、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101446905A (zh) * 2008-12-29 2009-06-03 北京飞天诚信科技有限公司 编译方法及编译器
CN103377225A (zh) * 2012-04-25 2013-10-30 腾讯科技(深圳)有限公司 知识库系统的构建方法和设备
CN108021598A (zh) * 2016-11-04 2018-05-11 广州市动景计算机科技有限公司 页面抽取模板匹配方法、装置及服务器
CN108932340A (zh) * 2018-07-13 2018-12-04 华融融通(北京)科技有限公司 一种不良资产经营领域下金融知识图谱的构建方法
CN109033282A (zh) * 2018-07-11 2018-12-18 山东邦尼信息科技有限公司 一种基于抽取模板的网页正文抽取方法及装置
CN109522562A (zh) * 2018-11-30 2019-03-26 济南浪潮高新科技投资发展有限公司 一种基于文本图像融合识别的网页知识抽取方法
CN109902182A (zh) * 2019-01-30 2019-06-18 北京百度网讯科技有限公司 知识数据处理方法、装置、设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11250204B2 (en) * 2017-12-05 2022-02-15 International Business Machines Corporation Context-aware knowledge base system

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101446905A (zh) * 2008-12-29 2009-06-03 北京飞天诚信科技有限公司 编译方法及编译器
CN103377225A (zh) * 2012-04-25 2013-10-30 腾讯科技(深圳)有限公司 知识库系统的构建方法和设备
CN108021598A (zh) * 2016-11-04 2018-05-11 广州市动景计算机科技有限公司 页面抽取模板匹配方法、装置及服务器
CN109033282A (zh) * 2018-07-11 2018-12-18 山东邦尼信息科技有限公司 一种基于抽取模板的网页正文抽取方法及装置
CN108932340A (zh) * 2018-07-13 2018-12-04 华融融通(北京)科技有限公司 一种不良资产经营领域下金融知识图谱的构建方法
CN109522562A (zh) * 2018-11-30 2019-03-26 济南浪潮高新科技投资发展有限公司 一种基于文本图像融合识别的网页知识抽取方法
CN109902182A (zh) * 2019-01-30 2019-06-18 北京百度网讯科技有限公司 知识数据处理方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN111858963A (zh) 2020-10-30

Similar Documents

Publication Publication Date Title
US10402163B2 (en) Intelligent data extraction
JP5756386B2 (ja) 動的なウェブ・アプリケーションの問題を修正するメタデータの生成・管理の支援方法、装置、およびプログラム
Neudecker et al. A survey of OCR evaluation tools and metrics
CN107784026B (zh) 一种etl数据处理方法及装置
CN109408821B (zh) 一种语料生成方法、装置、计算设备及存储介质
US9449114B2 (en) Removing non-substantive content from a web page by removing its text-sparse nodes and removing high-frequency sentences of its text-dense nodes using sentence hash value frequency across a web page collection
CN107193915A (zh) 一种企业信息分类方法及装置
US20170090685A1 (en) Method and system for determining user interface usage
CN111858963B (zh) 网页客服知识抽取方法及装置
Thaler et al. Unsupervised signature extraction from forensic logs
CN108121743A (zh) 一种通用网页模版的生成和使用方法、系统
CN104572874B (zh) 一种网页信息的抽取方法及装置
CN117668036A (zh) 问题数据的治理方法及其装置、电子设备及存储介质
CN107368464B (zh) 一种获取招标产品信息的方法及装置
CN114625743A (zh) 一种人事主数据的数据更新方法、装置及电子设备
CN115563985A (zh) 语句分析方法、装置、设备、存储介质及程序产品
CN111367962B (zh) 数据库的更新方法及装置、计算机可读存储介质、电子设备
CN111382332B (zh) 一种地震灾情信息处理方法及系统
CN113111075A (zh) 投融资信息挖掘方法、装置、电子设备和存储介质
CN106055625B (zh) 一种执行业务的方法及装置
JP7502216B2 (ja) プログラム生成支援装置、プログラム生成支援方法、及びプログラム生成支援プログラム
US20240169070A1 (en) Information analysis apparatus, information analysis method, and computer-readable recording medium
JP6664306B2 (ja) 類似文書抽出装置、類似文書抽出方法及び類似文書抽出プログラム
CN116991803A (zh) 一种基于规则标签的大文档分片处理方法及装置
CN114969531A (zh) 一种用户标签动态生成方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant