CN111144116A - 一种文档知识结构化的抽取方法及装置 - Google Patents

一种文档知识结构化的抽取方法及装置 Download PDF

Info

Publication number
CN111144116A
CN111144116A CN201911353441.9A CN201911353441A CN111144116A CN 111144116 A CN111144116 A CN 111144116A CN 201911353441 A CN201911353441 A CN 201911353441A CN 111144116 A CN111144116 A CN 111144116A
Authority
CN
China
Prior art keywords
knowledge
document
extracting
specialties
processed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911353441.9A
Other languages
English (en)
Other versions
CN111144116B (zh
Inventor
俞阳
韩姝娜
朱君
杜振东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Yunwen Network Technology Co ltd
Shaanxi Institute Of Water Conservancy And Electricity Survey And Design
Electric Power Research Institute of State Grid Jiangsu Electric Power Co Ltd
Original Assignee
Nanjing Yunwen Network Technology Co ltd
Shaanxi Institute Of Water Conservancy And Electricity Survey And Design
Electric Power Research Institute of State Grid Jiangsu Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Yunwen Network Technology Co ltd, Shaanxi Institute Of Water Conservancy And Electricity Survey And Design, Electric Power Research Institute of State Grid Jiangsu Electric Power Co Ltd filed Critical Nanjing Yunwen Network Technology Co ltd
Priority to CN201911353441.9A priority Critical patent/CN111144116B/zh
Publication of CN111144116A publication Critical patent/CN111144116A/zh
Application granted granted Critical
Publication of CN111144116B publication Critical patent/CN111144116B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文档知识结构化的抽取方法及装置,所述方法包括获取待处理文档;基于所述待处理文档的特征,选择合适的抽取规则;按照选中的抽取规则,抽取所述待处理文档中的知识点,并对抽取到的知识点做预设的处理,完成文档知识结构化的抽取。本发明能够实现运用自然语言处理技术对电力规章制度、法律法规、政策文件等文本文件进行知识点提取,实现对企业大量文本化知识的自主学习和更新维护。

Description

一种文档知识结构化的抽取方法及装置
技术领域
本发明属于计算机技术领域下的自然语言处理技术领域,具体涉及一种文档知识结构化的抽取方法及装置。
背景技术
随着电力营销业务的快速发展,营销知识的积累、传递及分析应用的重要性日益突出,国网客服中心、国网江苏公司、国网山东公司等结合业务需要均已初步建立了统一的95598知识管理平台。95598知识管理平台中的知识均来自于国家层面、国网公司层面、省公司层面下发的各类规章制度、法律法规、政策文件,知识库维护人员需要投入大量的人力来梳理新下发的文件,将文件整理为口语化可以直接答复客户诉求的知识点内容,导致文件转化为知识的效率低、维护成本高等问题。
发明内容
针对上述问题,本发明提出一种文档知识结构化的抽取方法及装置,能够实现对企业大量文本化知识的自主学习和更新维护。
为了实现上述技术目的,达到上述技术效果,本发明通过以下技术方案实现:
第一方面,本发明提供了一种文档知识结构化的抽取方法,包括:
获取待处理文档;
基于所述待处理文档的特征,选择合适的抽取规则;
按照选中的抽取规则,抽取所述待处理文档中的知识点,并对抽取到的知识点做预设的处理,完成文档知识结构化的抽取。
可选地,所述抽取规则包括从段落层面抽取知识;
所述按照选中的抽取规则,抽取所述待处理文档中的知识点,并对抽取到的知识点做预设的处理,具体为:
将所述待处理文档按标题、段落内容拆分为标题加知识内容的形式;
对拆分后的知识内容标注标签和属性。
可选地,所述抽取规则包括从事件层面抽取知识;
所述按照选中的抽取规则,抽取所述待处理文档中的知识点,具体为:
提取所述待处理文档中的场景事件的特征;
将所述场景事件的特征输入至意图识别模型,由所述意图识别模型进行分类后,获得对应的意图信息。
可选地,所述意图识别模型中包括预定义的场景事件的特征,所述场景事件包括电价电费、营业专业、计量专业、服务专业、市场专业、营销质量管控专业、用电检查、智能用电专业、基建专业、调控专业、运检专业、线损专业、综合专业。
可选地,所述抽取规则包括从句子层面抽取知识;
所述按照选中的抽取规则,抽取所述待处理文档中的知识点,并对抽取到的知识点做预设的处理,具体为:
获取领域专业词库;
基于所述领域专业词库,结合标注样本,开展句子中的电力营销领域实体识别,获得专业实体词;
基于所述领域专业词库和获得的专业实体词,以及所述专业实体词在文本中的表达方式,结合自然语言处理技术抽取实体的相关属性,及属性间的关系。
第二方面,本发明提供了一种文档知识结构化的抽取装置,包括:
获取单元,用于获取待处理文档;
选择单元,用于基于所述待处理文档的特征,选择合适的抽取规则;
处理单元,用于按照选中的抽取规则,抽取所述待处理文档中的知识点,并对抽取到的知识点做预设的处理,完成文档知识结构化的抽取。
可选地,所述抽取规则包括从段落层面抽取知识;
所述按照选中的抽取规则,抽取所述待处理文档中的知识点,并对抽取到的知识点做预设的处理,具体为:
将所述待处理文档按标题、段落内容拆分为标题加知识内容的形式;
对拆分后的知识内容标注标签和属性。
可选地,所述抽取规则包括从事件层面抽取知识;
所述按照选中的抽取规则,抽取所述待处理文档中的知识点,具体为:
提取所述待处理文档中的场景事件的特征;
将所述场景事件的特征输入至意图识别模型,由所述意图识别模型进行分类后,获得对应的意图信息。
可选地,所述意图识别模型中包括预定义的场景事件的特征,所述场景事件包括电价电费、营业专业、计量专业、服务专业、市场专业、营销质量管控专业、用电检查、智能用电专业、基建专业、调控专业、运检专业、线损专业、综合专业。
可选地,所述抽取规则包括从句子层面抽取知识;
所述按照选中的抽取规则,抽取所述待处理文档中的知识点,并对抽取到的知识点做预设的处理,具体为:
获取领域专业词库;
基于所述领域专业词库,结合标注样本,开展句子中的电力营销领域实体识别,获得专业实体词;
基于所述领域专业词库和获得的专业实体词,以及所述专业实体词在文本中的表达方式,结合自然语言处理技术抽取实体的相关属性,及属性间的关系。
与现有技术相比,本发明的有益效果:
本发明能够实现运用自然语言处理技术对电力规章制度、法律法规、政策文件等文本文件进行知识点提取,实现对企业大量文本化知识的自主学习和更新维护。
附图说明
为了使本发明的内容更容易被清楚地理解,下面根据具体实施例并结合附图,对本发明作进一步详细的说明,其中:
图1为本发明一种实施例的文档知识结构化的抽取方法的流程图;
图2为本发明一种实施例所提出的从事件层面抽取知识的流程图;
图3为本发明一种实施例所提出的从句子层面抽取知识的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明的保护范围。
下面结合附图对本发明的应用原理作详细的描述。
实施例1
本发明实施例中提供了一种文档知识结构化的抽取方法,如图1所示,具体包括以下步骤:
(1)获取待处理文档;
(2)基于所述待处理文档的特征,选择合适的抽取规则;
(3)按照选中的抽取规则,抽取所述待处理文档中的知识点,并对抽取到的知识点做预设的处理,完成文档知识结构化的抽取。
在本发明实施例的一种具体实施方式中,所述抽取规则包括从段落层面抽取知识;
所述按照选中的抽取规则,抽取所述待处理文档中的知识点,并对抽取到的知识点做预设的处理,具体为:
将所述待处理文档按标题、段落内容拆分为标题加知识内容的形式,在具体实施过程中,还包括以原子化形式呈现给维护人员;
对拆分后的知识内容标注标签和属性,以便于后期检索时做到精准检索,便于知识维护人员快速检索到所需要的知识点;
所述从段落层面抽取知识的方式,适用于结构清晰、段落层次分明的文档。
在具体实施过程中,从段落层面抽取知识主要考虑利用从文字特殊样式和文字特殊表述两方面进行知识点抽取。文字特殊样式是指在文件中通过加粗,颜色高亮,字体变化,字号方法,格式定义为标题等多种有别与正文的样式来进行判断潜在知识点;文字特殊表述是指,虽然无明显样式区别,但其内容包含数字标题、核心语义、段首、敏感词等信息,该部分内容也极大可能成为潜在知识。
在本发明实施例的第二种具体实施方式中,所述抽取规则包括从事件层面抽取知识;
所述按照选中的抽取规则,抽取所述待处理文档中的知识点,具体为:
提取所述待处理文档中的场景事件的特征;
将所述场景事件的特征输入至意图识别模型,由所述意图识别模型进行分类后,获得对应的意图信息;
即按照定义的场景事件的特征,从整篇文档中提取符合对应场景的事件。
具体地,所述意图识别模型中包括预定义的场景事件的特征,所述场景事件包括电价电费、营业专业、计量专业、服务专业、市场专业、营销质量管控专业、用电检查、智能用电专业、基建专业、调控专业、运检专业、线损专业、综合专业。
在具体实施过程中,具体可以包括以下步骤:
步骤(1):根据95598知识点内容聚类分析,根据电力营销专业以及客户常见咨询问题,得出具有代表性的13类预定义的规则类型(即13类场景事件),主要包含:电价电费、营业专业、计量专业、服务专业、市场专业、营销质量管控专业、用电检查、智能用电专业、基建专业、调控专业、运检专业、线损专业、综合专业(即其他所有专业);
步骤2:从原始数据中根据13类预定义场景事件的特征,针对场景识别将运用意图识别技术进行场景识别。该方法需要前期针对电表串户、临时停电等在内场景进行场景标注,运用深度卷积神经网络进行模型学习,最终实现对于用户场景的精准定位。
步骤3:针对特定场景事件进行场景事件的特征抽取,并输入至已经训练好的意图识别模型(神经网络模型),由所述意图识别模型进行分类后,获得对应的意图信息。
因此,一旦用户意图的范围确定了,就可以使用神经网络抽取对应的场景事件要素。主要流程如图2所示。
在本发明实施例的第三种具体实施方式中,所述抽取规则包括从句子层面抽取知识;句子层面抽取知识采用的是更为精细化的方式,主要用于补全深层逻辑隐藏和关联知识;
所述按照选中的抽取规则,抽取所述待处理文档中的知识点,并对抽取到的知识点做预设的处理,具体为:
获取领域专业词库;
基于所述领域专业词库,结合标注样本,开展句子中的电力营销领域实体识别,获得专业实体词;
基于所述领域专业词库和获得的专业实体词,以及所述专业实体词在文本中的表达方式,结合自然语言处理技术抽取实体的相关属性,及属性间的关系。
具体地,如图3所示,首先95598数据中根据文字的特殊样式以及特殊表达,抽取专业词的候选词集,再由人工针对候选专业词集筛选出的领域相关的专业词构成领域专业词库;然后以领域专业词库为基础,结合95598知识的专业性类别,以及大量标注样本,开展句子中的电力营销领域实体识别,识别时间、地点等常规命名实体,以及识别电力客服领域的业务、设备、用户等领域相关专用实体。最后根据所述领域专业词库和电力客服领域专业实体词以及这些专业实体词在文本中的表达方式,结合句法分析等自然语言处理相关技术抽取实体的相关属性,及属性间的关系,即结构化的知识。其中用到的句法分析算法如下所示:
a.整个转移过程中的三种动作:Shift,Left-Arc,Right-Arc。采用栈Stack作为中存储,以及Buffer(即整个原始的句子)。
b.在arc-standard system中,一次分析任务c=(s,b,A),由一个栈s,一个队列b,一系列依存弧A构成。如果定义一个句子为单词构成的序列w1,w2,...wn,栈s是用来储存系统已经处理过的句法子树的根节点的,初始状态下S=[ROOT]。
c.定义从栈顶数起的第i个元素为si。那么栈顶元素就是s1,s1的下一个元素就是s2:即让先入栈的元素在左边,后入栈的元素在右边:则称s2为左焦点词,s1为右焦点词。
d.接下来的动作都是围绕着这两个焦点词展开的:
d.1队列
初始状态下队列就是整个句子,且顺序不变b=[w1,w2,...wn],队列的出口在左边。
d.2依存弧
一条依存弧有两个信息:动作类型及依存关系名称I。I是依存句法语料库中使用了哪些依存关系label而定,在arc-standard系统中,一共有如下三种动作:
LEFT-ARC(l):添加一条s1→s2的依存边,名称为l1,并且将s2从栈中删除。前提条件:|s|≥2。亦即建立右焦点词依存于左焦点词的依存关系。
RIGHT-ARC(l):添加一条s2 s1的依存边,名称为l2,并且将s1从栈中删除。前提条件:|s|≥2。亦即建立左焦点词依存于右焦点词的依存关系。
SHIFT:将b1出队,压入栈中。亦即不建立依存关系,只转移句法分析的焦点,即新的左焦点词是原来的右焦点词,依此类推。
反馈:每一步动作都是由机器学习分类器得到的,如果得到treebank的句法分析树结构,就能得到序列转移或动作的顺序,最终变成一个有监督学习问题。
实施例2
基于与实施例1相同的发明构思,本发明实施例中提供了一种文档知识结构化的抽取装置,包括:
获取单元,用于获取待处理文档;
选择单元,用于基于所述待处理文档的特征,选择合适的抽取规则;
处理单元,用于按照选中的抽取规则,抽取所述待处理文档中的知识点,并对抽取到的知识点做预设的处理,完成文档知识结构化的抽取。
在本发明实施例的一种具体实施方式中,所述抽取规则包括从段落层面抽取知识;
所述按照选中的抽取规则,抽取所述待处理文档中的知识点,并对抽取到的知识点做预设的处理,具体为:
将所述待处理文档按标题、段落内容拆分为标题加知识内容的形式;
对拆分后的知识内容标注标签和属性。
在本发明实施例的一种具体实施方式中,所述抽取规则包括从事件层面抽取知识;
所述按照选中的抽取规则,抽取所述待处理文档中的知识点,具体为:
提取所述待处理文档中的场景事件的特征;
将所述场景事件的特征输入至意图识别模型,由所述意图识别模型进行分类后,获得对应的意图信息。
具体地,所述意图识别模型中包括预定义的场景事件的特征,所述场景事件包括电价电费、营业专业、计量专业、服务专业、市场专业、营销质量管控专业、用电检查、智能用电专业、基建专业、调控专业、运检专业、线损专业、综合专业。
在本发明实施例的一种具体实施方式中,所述抽取规则包括从句子层面抽取知识;
所述按照选中的抽取规则,抽取所述待处理文档中的知识点,并对抽取到的知识点做预设的处理,具体为:
获取领域专业词库;
基于所述领域专业词库,结合标注样本,开展句子中的电力营销领域实体识别,获得专业实体词;
基于所述领域专业词库和获得的专业实体词,以及所述专业实体词在文本中的表达方式,结合自然语言处理技术抽取实体的相关属性,及属性间的关系。
其余部分均与实施例1相同。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (10)

1.一种文档知识结构化的抽取方法,其特征在于,包括:
获取待处理文档;
基于所述待处理文档的特征,选择合适的抽取规则;
按照选中的抽取规则,抽取所述待处理文档中的知识点,并对抽取到的知识点做预设的处理,完成文档知识结构化的抽取。
2.根据权利要求1所述的一种文档知识结构化的抽取方法,其特征在于,所述抽取规则包括从段落层面抽取知识;
所述按照选中的抽取规则,抽取所述待处理文档中的知识点,并对抽取到的知识点做预设的处理,具体为:
将所述待处理文档按标题、段落内容拆分为标题加知识内容的形式;
对拆分后的知识内容标注标签和属性。
3.根据权利要求1所述的一种文档知识结构化的抽取方法,其特征在于:所述抽取规则包括从事件层面抽取知识;
所述按照选中的抽取规则,抽取所述待处理文档中的知识点,具体为:
提取所述待处理文档中的场景事件的特征;
将提取到的场景事件的特征输入至意图识别模型,由所述意图识别模型进行分类后,获得对应的意图信息。
4.根据权利要求3所述的一种文档知识结构化的抽取方法,其特征在于:所述意图识别模型中包括预定义的场景事件的特征,所述场景事件包括电价电费、营业专业、计量专业、服务专业、市场专业、营销质量管控专业、用电检查、智能用电专业、基建专业、调控专业、运检专业、线损专业、综合专业。
5.根据权利要求1所述的一种文档知识结构化的抽取方法,其特征在于:所述抽取规则包括从句子层面抽取知识;
所述按照选中的抽取规则,抽取所述待处理文档中的知识点,并对抽取到的知识点做预设的处理,具体为:
获取领域专业词库;
基于所述领域专业词库,结合标注样本,开展句子中的电力营销领域实体识别,获得专业实体词;
基于所述领域专业词库和获得的专业实体词,以及所述专业实体词在文本中的表达方式,结合自然语言处理技术抽取实体的相关属性,及属性间的关系。
6.一种文档知识结构化的抽取装置,其特征在于,包括:
获取单元,用于获取待处理文档;
选择单元,用于基于所述待处理文档的特征,选择合适的抽取规则;
处理单元,用于按照选中的抽取规则,抽取所述待处理文档中的知识点,并对抽取到的知识点做预设的处理,完成文档知识结构化的抽取。
7.根据权利要求7所述的一种文档知识结构化的抽取装置,其特征在于,所述抽取规则包括从段落层面抽取知识;
所述按照选中的抽取规则,抽取所述待处理文档中的知识点,并对抽取到的知识点做预设的处理,具体为:
将所述待处理文档按标题、段落内容拆分为标题加知识内容的形式;
对拆分后的知识内容标注标签和属性。
8.根据权利要求7所述的一种文档知识结构化的抽取装置,其特征在于,所述抽取规则包括从事件层面抽取知识;
所述按照选中的抽取规则,抽取所述待处理文档中的知识点,具体为:
提取所述待处理文档中的场景事件的特征;
将所述场景事件的特征输入至意图识别模型,由所述意图识别模型进行分类后,获得对应的意图信息。
9.根据权利要求8所述的一种文档知识结构化的抽取装置,其特征在于,所述意图识别模型中包括预定义的场景事件的特征,所述场景事件包括电价电费、营业专业、计量专业、服务专业、市场专业、营销质量管控专业、用电检查、智能用电专业、基建专业、调控专业、运检专业、线损专业、综合专业。
10.根据权利要求7所述的一种文档知识结构化的抽取装置,其特征在于,所述抽取规则包括从句子层面抽取知识;
所述按照选中的抽取规则,抽取所述待处理文档中的知识点,并对抽取到的知识点做预设的处理,具体为:
获取领域专业词库;
基于所述领域专业词库,结合标注样本,开展句子中的电力营销领域实体识别,获得专业实体词;
基于所述领域专业词库和获得的专业实体词,以及所述专业实体词在文本中的表达方式,结合自然语言处理技术抽取实体的相关属性,及属性间的关系。
CN201911353441.9A 2019-12-25 2019-12-25 一种文档知识结构化的抽取方法及装置 Active CN111144116B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911353441.9A CN111144116B (zh) 2019-12-25 2019-12-25 一种文档知识结构化的抽取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911353441.9A CN111144116B (zh) 2019-12-25 2019-12-25 一种文档知识结构化的抽取方法及装置

Publications (2)

Publication Number Publication Date
CN111144116A true CN111144116A (zh) 2020-05-12
CN111144116B CN111144116B (zh) 2024-02-02

Family

ID=70519814

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911353441.9A Active CN111144116B (zh) 2019-12-25 2019-12-25 一种文档知识结构化的抽取方法及装置

Country Status (1)

Country Link
CN (1) CN111144116B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112035500A (zh) * 2020-09-01 2020-12-04 中国银行股份有限公司 知识库的更新方法、装置、服务器和计算机存储介质
CN112613315A (zh) * 2020-12-29 2021-04-06 重庆农村商业银行股份有限公司 一种文本知识自动抽取方法、装置、设备及存储介质
CN112632084A (zh) * 2020-12-31 2021-04-09 中国农业银行股份有限公司 一种数据处理方法和相关装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170147556A1 (en) * 2015-11-24 2017-05-25 International Business Machines Corporation Knowledge-based editor with natural language interface
CN108763368A (zh) * 2018-05-17 2018-11-06 爱因互动科技发展(北京)有限公司 抽取新知识点的方法
CN109190098A (zh) * 2018-08-15 2019-01-11 上海唯识律简信息科技有限公司 一种基于自然语言处理的文档自动生成方法和系统
CN110427623A (zh) * 2019-07-24 2019-11-08 深圳追一科技有限公司 半结构化文档知识抽取方法、装置、电子设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170147556A1 (en) * 2015-11-24 2017-05-25 International Business Machines Corporation Knowledge-based editor with natural language interface
CN108763368A (zh) * 2018-05-17 2018-11-06 爱因互动科技发展(北京)有限公司 抽取新知识点的方法
CN109190098A (zh) * 2018-08-15 2019-01-11 上海唯识律简信息科技有限公司 一种基于自然语言处理的文档自动生成方法和系统
CN110427623A (zh) * 2019-07-24 2019-11-08 深圳追一科技有限公司 半结构化文档知识抽取方法、装置、电子设备及存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112035500A (zh) * 2020-09-01 2020-12-04 中国银行股份有限公司 知识库的更新方法、装置、服务器和计算机存储介质
CN112035500B (zh) * 2020-09-01 2024-01-26 中国银行股份有限公司 知识库的更新方法、装置、服务器和计算机存储介质
CN112613315A (zh) * 2020-12-29 2021-04-06 重庆农村商业银行股份有限公司 一种文本知识自动抽取方法、装置、设备及存储介质
CN112613315B (zh) * 2020-12-29 2024-06-07 重庆农村商业银行股份有限公司 一种文本知识自动抽取方法、装置、设备及存储介质
CN112632084A (zh) * 2020-12-31 2021-04-09 中国农业银行股份有限公司 一种数据处理方法和相关装置

Also Published As

Publication number Publication date
CN111144116B (zh) 2024-02-02

Similar Documents

Publication Publication Date Title
CN107766371B (zh) 一种文本信息分类方法及其装置
CN110020424B (zh) 合同信息的提取方法、装置和文本信息的提取方法
CN111144116B (zh) 一种文档知识结构化的抽取方法及装置
EP4137961A1 (en) Method and apparatus for executing automatic machine learning process, and device
CN112612885A (zh) 一种基于bert类模型的阅读理解式新闻文本事件抽取方法
CN115858758A (zh) 一种多非结构化数据识别的智慧客服知识图谱系统
CN112507092A (zh) 基于ai文本机器人完成工单智能填写功能的实现方法
CN111460162B (zh) 一种文本分类方法、装置、终端设备及计算机可读存储介质
CN110321549B (zh) 基于序列化学习、关系挖掘、时序分析的新概念挖掘方法
CN113051914A (zh) 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
CN110929007A (zh) 一种电力营销知识体系平台及应用方法
CN110209772B (zh) 一种文本处理方法、装置、设备及可读存储介质
CN114881043A (zh) 基于深度学习模型的法律文书语义相似度评估方法及系统
CN112989031B (zh) 基于深度学习的广播电视新闻事件要素抽取方法
CN111736804B (zh) 一种基于用户评论识别App关键功能的方法及装置
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
CN111475607B (zh) 一种基于Mashup服务功能特征表示与密度峰值检测的Web数据聚类方法
CN106407271B (zh) 一种智能客服系统及其智能客服知识库的更新方法
CN115496830A (zh) 产品需求流程图的生成方法及装置
CN114419645A (zh) 一种基于ai的合同智能解析方法
CN111949781B (zh) 一种基于自然语句句法分析的智能交互方法及装置
CN115017271A (zh) 用于智能生成rpa流程组件块的方法及系统
CN112632985A (zh) 语料的处理方法、装置、存储介质及处理器
Grefenstette et al. Competing Views of Word Meaning: Word Embeddings and Word Senses
CN111078947A (zh) 基于xml的领域要素提取配置语言系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant