CN117076596A - 应用人工智能的数据存储方法、装置及服务器 - Google Patents
应用人工智能的数据存储方法、装置及服务器 Download PDFInfo
- Publication number
- CN117076596A CN117076596A CN202311330031.9A CN202311330031A CN117076596A CN 117076596 A CN117076596 A CN 117076596A CN 202311330031 A CN202311330031 A CN 202311330031A CN 117076596 A CN117076596 A CN 117076596A
- Authority
- CN
- China
- Prior art keywords
- text
- feature extraction
- knowledge
- extraction range
- carrier
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 85
- 238000013500 data storage Methods 0.000 title claims abstract description 27
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 14
- 238000000605 extraction Methods 0.000 claims abstract description 824
- 239000000969 carrier Substances 0.000 claims abstract description 109
- 230000011218 segmentation Effects 0.000 claims abstract description 60
- 238000005065 mining Methods 0.000 claims abstract description 56
- 238000012545 processing Methods 0.000 claims description 87
- 238000012549 training Methods 0.000 claims description 33
- 239000003550 marker Substances 0.000 claims description 22
- 230000008569 process Effects 0.000 claims description 8
- 238000005457 optimization Methods 0.000 claims description 6
- 230000009467 reduction Effects 0.000 description 22
- 238000010586 diagram Methods 0.000 description 11
- 238000004590 computer program Methods 0.000 description 7
- 230000008451 emotion Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 230000000739 chaotic effect Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 235000019580 granularity Nutrition 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000008719 thickening Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
- G06N5/025—Extracting rules from data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了一种应用人工智能的数据存储方法、装置及服务器,获取待处理业务文本序列,挖掘多特征提取范围的文本分类知识载体;获取从预设掩膜文本序列中挖掘的多特征提取范围的掩膜知识载体,将多特征提取范围的文本分类知识载体和待处理业务文本序列对应的文本标记指引信息作为掩膜知识载体知识特征抽取的指引信息,对针对的特征提取范围内的掩膜知识载体进行知识特征抽取和还原,如此基于知识特征抽取得到融合文本分类知识载体和文本标记指引信息指引的文本标记的文本知识载体。得到的文本中的文本标记可以准确吻合文本分类信息的目标分类信息的位置。得到文本分类信息分词标记更准确的分类标记文本序列。
Description
技术领域
本公开涉及人工智能、自然语言处理领域,具体而言,涉及一种应用人工智能的数据存储方法、装置及服务器。
背景技术
互联网业务数据中,文本数据是重要的组成部分,例如电商业务中的商品评价、政务平台中的居民问政反馈、社交网络中的舆情监测等,都涉及到文本数据。在互联网数据的应用中,数据存储备份前,为了便于后续的数据调用分析,经常会对数据进行前置处理,例如对于文本数据,在前置处理中,通常包括对文本中的关键内容进行标记,例如标记文本的分类、文本的情感极性、违规内容等,而标记的类型可以诸如不同颜色的高亮、文本删除线、文本下划线等。对于数据量庞大的场景,如面对全市人民的问卷调差、全平台电商评价、平台舆情监测等大数据场景,海量的文本数据在进行标记时,产生的工作量是不可估量的。因此,基于人工智能技术进行数据地自动识别标记是可以考虑的途径,但是如何进行文本的自动化识别标记,同时保证其准确性是需要克服的技术问题。
发明内容
本公开的目的在于提供一种应用人工智能的数据存储方法、装置及服务器,以改善上述问题。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开实施例的一个方面,提供应用人工智能的数据存储方法,其特征在于,所述方法包括:
获取待处理业务文本序列,基于所述待处理业务文本序列挖掘多特征提取范围的文本分类知识载体;
获取从预设掩膜文本序列中挖掘的所述多特征提取范围的掩膜知识载体;
获取所述待处理业务文本序列对应的文本标记指引信息;
针对所述多特征提取范围的每个特征提取范围,按照对应特征提取范围的所述文本分类知识载体和所述文本标记指引信息,对针对的特征提取范围内的掩膜知识载体进行知识特征抽取,获得多特征提取范围的文本知识载体;
对所述多特征提取范围的文本知识载体进行多特征提取范围的知识还原,获得分类标记文本序列;所述分类标记文本序列包括所述待处理业务文本序列的文本分类信息,并且包括所述文本标记指引信息指引的文本标记;
将所述分类标记文本序列进行存储。
作为一种实施方式,所述文本标记指引信息包括预设文本标记集,所述预设文本标记集用于限定所述待处理业务文本序列的文本标记;所述针对所述多特征提取范围的每个特征提取范围,按照对应特征提取范围的所述文本分类知识载体和所述文本标记指引信息,对针对的特征提取范围内的掩膜知识载体进行知识特征抽取,获得多特征提取范围的文本知识载体,包括:
对所述预设文本标记集进行知识载体挖掘,得到所述预设文本标记集对应的标记集知识载体;
针对所述多特征提取范围的每个特征提取范围,按照对应特征提取范围的所述文本分类知识载体和所述标记集知识载体,对针对的特征提取范围内的掩膜知识载体进行知识特征抽取,获得多特征提取范围的文本知识载体。
作为一种实施方式,所述预设文本标记集对应不同特征提取范围的标记集知识载体,所述不同特征提取范围的标记集知识载体对应的特征提取范围数目少于所述多特征提取范围的文本分类知识载体对应的特征提取范围数目;所述多特征提取范围的文本分类知识载体对应的特征提取范围数目与所述多特征提取范围的掩膜知识载体对应的特征提取范围数目相同;
所述针对所述多特征提取范围的每个特征提取范围,按照对应特征提取范围的所述文本分类知识载体和所述标记集知识载体,对针对的特征提取范围内的掩膜知识载体进行知识特征抽取,获得多特征提取范围的文本知识载体,包括:
针对所述多特征提取范围的每个特征提取范围,若具有针对的特征提取范围内的标记集知识载体,按照对应特征提取范围的所述文本分类知识载体和所述标记集知识载体,对针对的特征提取范围内的掩膜知识载体进行知识特征抽取,获得针对的特征提取范围内的文本知识载体;若不具有针对的特征提取范围内的标记集知识载体,按照对应特征提取范围的所述文本分类知识载体,对针对的特征提取范围内的掩膜知识载体进行知识特征抽取,获得针对的特征提取范围内的文本知识载体。
作为一种实施方式,所述预设文本标记集包括所述待处理业务文本序列对应的文本分词标记集,所述方法还包括:
获取基于文本分词组成的标记集样版,将所述待处理业务文本序列按照所述待处理业务文本序列所拆解的文本分词进行拆解,得到所述待处理业务文本序列中的各文本分词区块;
获取对所述标记集样版中的每个文本分词进行自主文本标记关联而生成的文本分词标记集;
每个所述文本分词用于限定所述待处理业务文本序列中相应文本分词区块的文本标记;其中,所述分类标记文本序列包括所述待处理业务文本序列的文本分类信息,且所述分类标记文本序列中的各文本分词区块具有所述文本分词标记集中相应的文本分词所关联的文本标记;
或者,所述预设文本标记集包括所述待处理业务文本序列对应的文本段落标记集,所述方法还包括:
对所述待处理业务文本序列进行任意标记,得到标记业务文本序列;
对所述标记业务文本序列进行文本拆分操作,得到所述待处理业务文本序列的对应的基础文本段落标记集,所述基础文本段落标记集包括所述待处理业务文本序列中各文本段落各自对应的段落标记;
基于对所述基础文本段落标记集中不少于一个所述段落标记的自主文本标记优化,获得文本段落标记集;其中,所述分类标记文本序列包括所述待处理业务文本序列的文本分类信息,且所述分类标记文本序列中的各文本段落具有所述文本段落标记集中相应的段落标记指引的文本标记。
作为一种实施方式,所述方法还包括:
确定针对所述待处理业务文本序列的业务关联信息,所述业务关联信息用于表征所述待处理业务文本序列的业务要素;
对所述业务关联信息进行知识载体挖掘,得到对应的业务关联知识载体;
所述针对所述多特征提取范围的每个特征提取范围,按照对应特征提取范围的所述文本分类知识载体和所述文本标记指引信息,对针对的特征提取范围内的掩膜知识载体进行知识特征抽取,获得多特征提取范围的文本知识载体,包括:
针对所述多特征提取范围的每个特征提取范围,按照对应特征提取范围的所述文本分类知识载体、所述文本标记指引信息和所述业务关联知识载体,对针对的特征提取范围内的掩膜知识载体进行知识特征抽取,获得多特征提取范围的文本知识载体;
所述对所述多特征提取范围的文本知识载体进行多特征提取范围的知识还原,获得分类标记文本序列,包括:针对所述多特征提取范围的知识还原中的每个特征提取范围,若针对的特征提取范围为所述多特征提取范围的知识还原中的首个特征提取范围,按照对应特征提取范围的文本知识载体,对知识特征抽取得到的最后一特征提取范围的文本知识载体进行知识还原,得到针对的特征提取范围的知识还原载体;若针对的特征提取范围并非所述多特征提取范围的知识还原中的首个特征提取范围或最后一特征提取范围,按照对应特征提取范围的文本知识载体,对针对的特征提取范围的前一特征提取范围的知识还原载体进行知识还原,得到针对的特征提取范围的知识还原载体;若针对的特征提取范围为所述最后一特征提取范围,按照对应特征提取范围的文本知识载体,对所述最后一特征提取范围的前一特征提取范围的知识还原载体进行知识还原,得到分类标记文本序列。
作为一种实施方式,所述方法通过文本标记算法执行,所述文本标记算法的训练过程包括:
获取待处理业务文本序列学习样例,基于所述待处理业务文本序列学习样例挖掘多特征提取范围的文本分类知识载体样例;
获取从掩膜文本序列学习样例中挖掘的所述多特征提取范围的掩膜知识载体样例;
获取所述待处理业务文本序列学习样例对应的文本标记指引信息样例;
针对所述多特征提取范围的每个特征提取范围,按照对应特征提取范围的所述文本分类知识载体样例和所述文本标记指引信息样例,对针对的特征提取范围内的掩膜知识载体样例进行知识特征抽取,获得多特征提取范围的文本知识载体样例;
对所述多特征提取范围的文本知识载体样例进行多特征提取范围的知识还原,得到推理分类标记文本序列;
获取所述待处理业务文本序列学习样例对应的注释分类标记文本序列,基于所述推理分类标记文本序列和所述注释分类标记文本序列对基础文本标记算法进行训练,得到文本标记算法;其中,所述注释分类标记文本序列包括所述待处理业务文本序列学习样例的文本分类信息,并且包括所述文本标记指引信息样例指引的文本标记。
作为一种实施方式,所述基础文本标记算法包括基础业务文本处理算子,所述基础业务文本处理算子用于挖掘所述多特征提取范围的文本分类知识载体样例;
所述基于所述推理分类标记文本序列和所述注释分类标记文本序列对基础文本标记算法进行训练,得到文本标记算法,包括:
确定所述推理分类标记文本序列的文本分类信息和所述注释分类标记文本序列的文本分类信息之间的分类信息代价值;
基于所述分类信息代价值对所述基础文本标记算法的基础业务文本处理算子进行优化,得到包括业务文本处理算子的文本标记算法。
作为一种实施方式,所述基础文本标记算法还包括基础文本标记处理算子,所述文本标记指引信息样例包括用于限定所述待处理业务文本序列学习样例的文本标记的文本标记集学习样例,所述基础文本标记处理算子用于挖掘所述文本标记集学习样例的标记集知识载体样例;
所述基于所述分类信息代价值对所述基础文本标记算法的基础业务文本处理算子进行优化,得到包括业务文本处理算子的文本标记算法,包括:
基于所述分类信息代价值对所述基础业务文本处理算子进行训练,得到业务文本处理算子,所述业务文本处理算子用于挖掘所述多特征提取范围的文本分类知识载体样例;
针对所述多特征提取范围的每个特征提取范围,按照对应特征提取范围的所述文本分类知识载体样例和所述标记集知识载体样例,对针对的特征提取范围内的掩膜知识载体样例进行知识特征抽取,获得多特征提取范围的文本知识载体样例;
对所述多特征提取范围的文本知识载体样例进行多特征提取范围的知识还原,得到推理分类标记文本序列;
确定所述推理分类标记文本序列和所述注释分类标记文本序列之间的文本标记代价值,基于所述分类信息代价值对所述基础文本标记处理算子进行优化,得到包括所述业务文本处理算子和文本标记处理算子的文本标记算法;
所述基于所述推理分类标记文本序列和所述注释分类标记文本序列对基础文本标记算法进行训练,得到文本标记算法,包括:
确定所述推理分类标记文本序列的文本分类信息和所述注释分类标记文本序列的文本分类信息之间的分类信息代价值;
确定所述推理分类标记文本序列的文本标记和所述注释分类标记文本序列的文本标记之间的文本标记代价值;
根据所述分类信息代价值和所述文本标记代价值对基础文本标记算法进行训练,得到文本标记算法。
根据本公开实施例的第二方面,提供一种数据存储装置,包括:
目标载体挖掘模块,用于获取待处理业务文本序列,基于所述待处理业务文本序列挖掘多特征提取范围的文本分类知识载体;
掩膜载体挖掘模块,用于获取从预设掩膜文本序列中挖掘的所述多特征提取范围的掩膜知识载体;
指引信息获取模块,用于获取所述待处理业务文本序列对应的文本标记指引信息;
知识特征抽取模块,用于针对所述多特征提取范围的每个特征提取范围,按照对应特征提取范围的所述文本分类知识载体和所述文本标记指引信息,对针对的特征提取范围内的掩膜知识载体进行知识特征抽取,获得多特征提取范围的文本知识载体;
知识还原模块,用于对所述多特征提取范围的文本知识载体进行多特征提取范围的知识还原,获得分类标记文本序列;所述分类标记文本序列包括所述待处理业务文本序列的文本分类信息,并且包括所述文本标记指引信息指引的文本标记;
数据存储模块,用于将所述分类标记文本序列进行存储。
根据本公开实施例的第三方面,提供一种数据存储服务器,包括:
处理器;
以及存储器,用于存储所述处理器的可执行指令;
其中,所述处理器被配置为经由执行所述可执行指令来执行以上所述的方法。
本公开的有益效果至少包括:本公开提供的应用人工智能的数据存储方法、装置及服务器,获取待处理业务文本序列,基于待处理业务文本序列挖掘多特征提取范围的文本分类知识载体,所挖掘的大特征提取范围的文本分类知识载体具有更多的浅层语义信息,小特征提取范围文本分类知识载体具有更多的深层语义信息;获取从预设掩膜文本序列中挖掘的多特征提取范围的掩膜知识载体,将多特征提取范围的文本分类知识载体和待处理业务文本序列对应的文本标记指引信息作为掩膜知识载体知识特征抽取的指引信息,以针对多特征提取范围的每个特征提取范围,按照对应特征提取范围的文本分类知识载体和文本标记指引信息,对针对的特征提取范围内的掩膜知识载体进行知识特征抽取,如此基于知识特征抽取得到融合文本分类知识载体和文本标记指引信息指引的文本标记的文本知识载体。进一步地,使得文本分类信息和文本标记融合,让得到的文本中的文本标记可以准确吻合文本分类信息的目标分类信息的位置。知识特征抽取是基于多特征提取范围的,能得到融合不同特征提取范围的文本分类知识载体和该文本标记的文本知识载体,以对多特征提取范围的文本知识载体进行多特征提取范围的知识还原,从而在知识还原时提取出不同层级的分类知识,可以得到文本分类信息分词标记更准确的分类标记文本序列。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本公开实施例提供的一种应用人工智能的数据存储方法的流程图。
图2是本公开实施例提供的一种文本标记算法的训练流程示意图。
图3是本公开实施例提供的数据存储装置的功能模块架构示意图。
图4是本公开实施例提供的一种数据存储服务器的组成示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
本公开提供的应用人工智能的数据存储方法应用于数据存储服务器,请参照图1,该方法包括以下步骤:
Step101,获取待处理业务文本序列,基于待处理业务文本序列挖掘多特征提取范围的文本分类知识载体。
其中,待处理业务文本序列是在目标互联网应用中获取的业务文本集合,例如电商、政府、线上办公等场景中获取到的业务反馈文本,如商品评价、政务反馈等,针对待处理业务文本序列,需要识别其中的目标文本进行标记操作,例如识别情感极性、识别目标事件、识别敏感文本,然后对识别出的情感极性文本、事件文本、敏感文本按照预设的标记方式进行标记,例如高亮、下划线、删除线等,该过程先需要对待处理业务文本序列进行文本分类,从中得到对应的识别结果,文本分类知识载体是指待处理业务文本序列中可以表征文本分类知识的载体信息,载体的形式可以为特征向量、矩阵、张量等,例如文本分类知识向量。可选的实施方式中,服务器获取待处理业务文本序列,对待处理业务文本序列进行知识载体挖掘,得到多特征提取范围的文本分类知识载体。多特征提取范围表示对数据进行提取的不同的尺度,本公开在文本的不同层级上构建多尺度的特征表示,可以捕捉到不同粒度的语义信息,从而提高文本分类、情感分析、敏感文本识别等任务的性能。
本公开可以基于文本标记算法对待处理业务文本序列进行知识载体挖掘,得到多特征提取范围的文本分类知识载体。其中,文本标记算法包括业务文本处理算子和文本标记处理算子。服务器将待处理业务文本序列输入业务文本处理算子,通过业务文本处理算子对待处理业务文本序列进行知识载体挖掘,得到多特征提取范围的文本分类知识载体。
Step102,获取从预设掩膜文本序列中挖掘的多特征提取范围的掩膜知识载体。
其中,预设掩膜文本序列是作为模板存在的文本,作用是在预设掩膜文本序列中生成包括期望得到的文本分类信息和自主文本标记的文本。可选的实施方式中,服务器获取预设掩膜文本序列,对预设掩膜文本序列进行知识载体挖掘,得到对应的掩膜知识载体。进一步地,可依据知识载体挖掘得到多特征提取范围的掩膜知识载体。其中,预设掩膜文本序列为存储于文本标记算法中的预先配置的掩膜文本序列,通过文本标记算法对预设掩膜文本序列进行知识载体挖掘,得到多特征提取范围的掩膜知识载体,该多特征提取范围的文本分类知识载体对应的特征提取范围数目与多特征提取范围的掩膜知识载体对应的特征提取范围数目相同。
作为一种实施方式,服务器获取从预设掩膜文本序列中挖掘的掩膜知识载体;针对多特征提取范围的每个特征提取范围,按照对应特征提取范围的文本分类知识载体和文本标记指引信息,对掩膜知识载体进行针对的特征提取范围内的知识特征抽取,获得多特征提取范围的文本知识载体。获取从预设掩膜文本序列中挖掘的掩膜知识载体,包括:获取从预设掩膜文本序列中挖掘的多特征提取范围的掩膜知识载体;针对多特征提取范围的每个特征提取范围,按照对应特征提取范围的文本分类知识载体和文本标记指引信息,对掩膜知识载体进行针对的特征提取范围内的知识特征抽取,获得多特征提取范围的文本知识载体,包括:针对多特征提取范围的每个特征提取范围,按照对应特征提取范围的文本分类知识载体和文本标记指引信息,对针对的特征提取范围内的掩膜知识载体进行知识特征抽取,获得多特征提取范围的文本知识载体。知识特征抽取的过程是完成特征编码的过程,用于提取数据中的重要特征,例如基于PCA进行矩阵分解,分解得到的小矩阵中保留了核心信息,同时可以将抽取的特征信息进行组合,生成新的原始样例中没有的样例,同时,数据量得到了极大的减少,对应于知识特征抽取,后续会将对应的数据进行知识还原,即解码。
Step103,获取待处理业务文本序列对应的文本标记指引信息。
其中,文本标记指引信息为用于指引待处理业务文本序列进行文本标记的信息,文本标记指引信息用于限定待处理业务文本序列的文本标记,其可以为对待处理业务文本序列自行确定的文本标记信息。使用者对待处理业务文本序列自行确定的文本标记信息,可以是对待处理业务文本序列中的不少于一个区域自行确定的文本标记,使用者对待处理业务文本序列自行确定的文本标记信息,可依据自主文本标记关联(即自行定义的各种文本标记类型,关联到对应的分类文本上,如高亮、加粗、下划线、删除线等)形成的预设文本标记集表征。可选的实施方式中,服务器获取使用者对待处理业务文本序列自行确定的文本标记指引信息,或者,在事先部署的多个混沌文本标记(表示具有随机性的文本标记)中任意获得一个混沌文本标记作为文本标记指引信息,该混沌文本标记可包含至少一种文本标记,该混沌文本标记中还可以配置不同分类文本对应的文本标记,譬如,敏感文本配置删除线、积极情感文本配置红色高亮、中立情感文本配置灰色高亮、消极情感文本配置黄色高亮等。
其中,服务器可获取文本标记注释作为文本标记指引信息,文本标记注释用于表明待处理业务文本序列的文本标记类型,例如描述待处理业务文本序列中的文本的文本标记。文本标记注释可以是使用者对待处理业务文本序列的文本标记自行确定的注释信息。例如,待处理业务文本序列中记录了“意见或建议”,文本标记注释中注释了该内容的文本标记为红色高亮。其中,服务器可获取待处理业务文本序列对应的预设文本标记集作为文本标记指引信息,该预设文本标记集是使用者对待处理业务文本序列的文本标记进行自行确定获得的文本。
Step104,针对多特征提取范围的每个特征提取范围,按照对应特征提取范围的文本分类知识载体和文本标记指引信息,对针对的特征提取范围内的掩膜知识载体进行知识特征抽取,获得多特征提取范围的文本知识载体。
其中,文本知识载体为融合文本分类知识载体和文本标记指引信息指示的文本标记而生成的特征信息,多特征提取范围的文本知识载体中每个特征提取范围的文本知识载体融合前一特征提取范围的文本知识载体。可选的实施方式中,服务器确定文本标记指引信息指引的文本标记。针对多特征提取范围的每个特征提取范围,服务器按照对应特征提取范围的文本分类知识载体和文本标记指引信息指引的文本标记,对针对的特征提取范围内的掩膜知识载体进行知识特征抽取,获得多特征提取范围的文本知识载体。
针对多特征提取范围的每个特征提取范围,按照对应特征提取范围的文本分类知识载体和文本标记指引信息,对针对的特征提取范围内的掩膜知识载体进行知识特征抽取,获得多特征提取范围的文本知识载体,包括:针对多特征提取范围的每个特征提取范围,若针对的特征提取范围为多个特征提取范围中的首个特征提取范围,按照对应特征提取范围的文本分类知识载体和文本标记指引信息,对针对的特征提取范围内的掩膜知识载体进行知识特征抽取,得到针对的特征提取范围的文本知识载体;若针对的特征提取范围并非多个特征提取范围中的首个特征提取范围,按照对应特征提取范围的文本分类知识载体、文本标记指引信息和针对的特征提取范围的前一特征提取范围的文本知识载体,对针对的特征提取范围内的掩膜知识载体进行知识特征抽取,得到针对的特征提取范围的文本知识载体。其中,针对多特征提取范围的每个特征提取范围,若针对的特征提取范围为多个特征提取范围中的首个特征提取范围,将针对的特征提取范围的文本分类知识载体、文本标记指引信息的文本标记知识载体和针对的特征提取范围内的掩膜知识载体进行融合,得到针对的特征提取范围的文本知识载体;若针对的特征提取范围并非多个特征提取范围中的首个特征提取范围,将针对的特征提取范围的文本分类知识载体、文本标记指引信息的文本标记知识载体、针对的特征提取范围的前一特征提取范围的文本知识载体和针对的特征提取范围内的掩膜知识载体进行融合,得到针对的特征提取范围的文本知识载体。
其中,针对多特征提取范围的每个特征提取范围,按照对应特征提取范围的文本分类知识载体和文本标记指引信息,对针对的特征提取范围内的掩膜知识载体进行知识特征抽取,获得多特征提取范围的文本知识载体,包括:对文本标记指引信息进行知识载体挖掘,得到对应的文本标记知识载体;针对多特征提取范围的每个特征提取范围,将文本标记知识载体、针对的特征提取范围的文本分类知识载体和针对的特征提取范围内的掩膜知识载体进行融合,得到针对的特征提取范围的文本知识载体,从而获得多特征提取范围的文本知识载体。
Step105,对多特征提取范围的文本知识载体进行多特征提取范围的知识还原,获得分类标记文本序列;分类标记文本序列包括待处理业务文本序列的文本分类信息,并且包括文本标记指引信息指引的文本标记。
可选的实施方式中,服务器对多特征提取范围的文本知识载体进行多特征提取范围的知识还原,进行最后一特征提取范围的知识还原后,得到分类标记文本序列。知识还原对应特征抽取,该分类标记文本序列包括待处理业务文本序列的文本分类信息,并且包括文本标记指引信息指引的文本标记。其中,针对多特征提取范围的知识还原中的每个特征提取范围,按照对应特征提取范围的文本知识载体,对针对的特征提取范围的前一特征提取范围的知识还原载体进行知识还原,得到针对的特征提取范围的知识还原载体,开始下一特征提取范围的知识还原,将得到的针对的特征提取范围的知识还原载体作为下一特征提取范围的知识还原中的前一特征提取范围的知识还原载体,然后返回对针对的特征提取范围的前一特征提取范围的知识还原载体进行知识还原的步骤,然后进行循环直到进行最后一特征提取范围的知识还原后,得到分类标记文本序列。其中,在知识特征抽取中的多个特征提取范围的知识特征抽取顺序与在知识还原中的多个特征提取范围的知识还原的顺序是反着的。其中,获取待处理业务文本序列,基于待处理业务文本序列挖掘多特征提取范围的文本分类知识载体,所挖掘的大特征提取范围的文本分类知识载体具有更多的浅层语义信息,小特征提取范围文本分类知识载体具有更多的深层语义信息。获取从预设掩膜文本序列中挖掘的多特征提取范围的掩膜知识载体,将多特征提取范围的文本分类知识载体和待处理业务文本序列对应的文本标记指引信息作为掩膜知识载体知识特征抽取的指引信息,以针对多特征提取范围的每个特征提取范围,按照对应特征提取范围的文本分类知识载体和文本标记指引信息,对针对的特征提取范围内的掩膜知识载体进行知识特征抽取,如此基于知识特征抽取得到融合文本分类知识载体和文本标记指引信息指引的文本标记的文本知识载体。进一步地,文本分类信息和文本标记融合,使得到的文本中的文本标记可以准确吻合文本分类信息的目标分类信息的位置。
因为知识特征抽取是多特征提取范围的,能得到融合不同特征提取范围的文本分类知识载体和文本标记的文本知识载体,以对多特征提取范围的文本知识载体进行多特征提取范围的知识还原,从而在知识还原时提取出不同层级的分类知识,可以得到文本分类信息分词标记更准确的分类标记文本序列。
可选的实施方式中,文本标记指引信息包括预设文本标记集,预设文本标记集用于限定待处理业务文本序列的文本标记。针对多特征提取范围的每个特征提取范围,按照对应特征提取范围的文本分类知识载体和文本标记指引信息,对针对的特征提取范围内的掩膜知识载体进行知识特征抽取,获得多特征提取范围的文本知识载体,可以包括:对预设文本标记集进行知识载体挖掘,得到预设文本标记集对应的标记集知识载体;针对多特征提取范围的每个特征提取范围,按照对应特征提取范围的文本分类知识载体和标记集知识载体,对针对的特征提取范围内的掩膜知识载体进行知识特征抽取,获得多特征提取范围的文本知识载体。其中,预设文本标记集是使用者针对待处理业务文本序列进行文本标记自行确定形成的文本标记集,该预设文本标记集用于使用者自行确定待处理业务文本序列的文本标记。
可选的实施方式中,使用者可针对待处理业务文本序列进行文本标记自行确定,得到待处理业务文本序列对应的预设文本标记集。服务器对预设文本标记集进行知识载体挖掘,得到预设文本标记集对应的标记集知识载体。针对多特征提取范围的每个特征提取范围,服务器将针对的特征提取范围的文本分类知识载体和标记集知识载体,以及针对的特征提取范围内的掩膜知识载体进行融合,得到针对的特征提取范围的文本知识载体,同理,可得到多特征提取范围的文本知识载体。其中,针对多特征提取范围的每个特征提取范围,若针对的特征提取范围为多个特征提取范围中的首个特征提取范围,将针对的特征提取范围的文本分类知识载体和标记集知识载体,以及针对的特征提取范围内的掩膜知识载体进行融合,得到针对的特征提取范围的文本知识载体;若针对的特征提取范围并非多个特征提取范围中的首个特征提取范围,将针对的特征提取范围的文本分类知识载体、标记集知识载体、针对的特征提取范围的前一特征提取范围的文本知识载体、以及针对的特征提取范围内的掩膜知识载体进行融合,得到针对的特征提取范围的文本知识载体,以获得多特征提取范围的文本知识载体。其中,预设文本标记集是使用者自行确定待处理业务文本序列的文本标记的文本标记集,通过对使用者自行确定的文本标记集进行知识载体挖掘,得到预设文本标记集对应的标记集知识载体,针对多特征提取范围的每个特征提取范围,按照对应特征提取范围的文本分类知识载体和标记集知识载体,对针对的特征提取范围内的掩膜知识载体进行知识特征抽取,能将掩膜知识载体知识特征抽取为融合文本分类知识载体与标记集知识载体的文本知识载体,如此可以将待处理业务文本序列和相应的文本标记信息作为指引信息,让在预设掩膜文本序列中生成包括需要的文本分类信息和自主文本标记的文本。进一步地,执行多个特征提取范围的知识特征抽取得到的多特征提取范围的文本知识载体包含文本分类信息和文本标记的不同层级的语义,知识还原后的文本分类信息更加突出,文本标记的匹配更准确。
作为一种实施方式,预设文本标记集对应不同特征提取范围的标记集知识载体,不同特征提取范围的标记集知识载体对应的特征提取范围数目少于多特征提取范围的文本分类知识载体对应的特征提取范围数目,多特征提取范围的文本分类知识载体对应的特征提取范围数目与多特征提取范围的掩膜知识载体对应的特征提取范围数目相同。那么,针对多特征提取范围的每个特征提取范围,按照对应特征提取范围的文本分类知识载体和标记集知识载体,对针对的特征提取范围内的掩膜知识载体进行知识特征抽取,获得多特征提取范围的文本知识载体,可以包括:针对多特征提取范围的每个特征提取范围,若具有针对的特征提取范围内的标记集知识载体,按照对应特征提取范围的文本分类知识载体和标记集知识载体,对针对的特征提取范围内的掩膜知识载体进行知识特征抽取,获得针对的特征提取范围内的文本知识载体,若不具有针对的特征提取范围内的标记集知识载体,按照对应特征提取范围的文本分类知识载体,对针对的特征提取范围内的掩膜知识载体进行知识特征抽取,获得针对的特征提取范围内的文本知识载体。
其中,预设文本标记集对应不同特征提取范围的标记集知识载体,不同特征提取范围的标记集知识载体对应的特征提取范围数目少于多特征提取范围的文本分类知识载体对应的特征提取范围数目。比如不同特征提取范围的标记集知识载体对应四个特征提取范围,多特征提取范围的文本分类知识载体对应三个特征提取范围,多特征提取范围的文本分类知识载体对应的特征提取范围数目与多特征提取范围的掩膜知识载体对应的特征提取范围数目相同。
可选的实施方式中,服务器对预设文本标记集进行知识载体挖掘,得到预设文本标记集对应的不同特征提取范围的标记集知识载体,服务器对预设文本标记集进行首个特征提取范围的知识载体挖掘,得到首个特征提取范围的标记集知识载体,对首个特征提取范围的标记集知识载体进行下一特征提取范围的知识载体处理,得到下一特征提取范围的知识载体处理结果,同理得到不同特征提取范围的标记集知识载体。对于多个特征提取范围的文本知识载体、多个特征提取范围的掩膜知识载体,以及不同特征提取范围的标记集知识载体,针对多个特征提取范围的每个特征提取范围,服务器确定是否具有针对的特征提取范围的标记集知识载体,若具有针对的特征提取范围内的标记集知识载体,按照对应特征提取范围的文本分类知识载体和标记集知识载体,对针对的特征提取范围内的掩膜知识载体进行知识特征抽取,获得针对的特征提取范围内的文本知识载体,以获得融合标记集知识载体和文本分类知识载体的文本知识载体。若不具有针对的特征提取范围内的标记集知识载体,按照对应特征提取范围的文本分类知识载体,对针对的特征提取范围内的掩膜知识载体进行知识特征抽取,获得针对的特征提取范围内的文本知识载体,以获得融合文本分类知识载体的文本知识载体。
其中,文本标记和文本分类信息为对应不同深度的语义信息,文本标记的语义相对较低,则对文本标记挖掘更少特征提取范围的信息,对待处理业务文本序列的文本分类信息挖掘更多特征提取范围的信息,针对多特征提取范围的每个特征提取范围,若具有针对的特征提取范围内的标记集知识载体,按照对应特征提取范围的文本分类知识载体和标记集知识载体,对针对的特征提取范围内的掩膜知识载体进行知识特征抽取,这样可将文本分类知识载体和标记集知识载体作为指引信息,指引依据掩膜知识载体在知识特征抽取中融合文本分类知识载体和标记集知识载体,从而获得针对的特征提取范围内的融合相应特征提取范围的文本分类知识载体和标记集知识载体的文本知识载体。若不具有针对的特征提取范围内的标记集知识载体,按照对应特征提取范围的文本分类知识载体,对针对的特征提取范围内的掩膜知识载体进行知识特征抽取,以将文本分类知识载体作为指引信息,指引依据掩膜知识载体在知识特征抽取中融合文本分类知识载体,从而得到针对的特征提取范围内的融合相应特征提取范围的文本分类知识载体的文本知识载体。
作为一种实施方式,本公开中的应用人工智能的数据存储方法通过文本标记算法进行执行,可选地,文本标记算法包括业务文本处理算子、文本标记处理算子和文本建立算子。基于业务文本处理算子对待处理业务文本序列挖掘多特征提取范围的文本分类知识载体,基于文本标记处理算子对预设文本标记集挖掘不同特征提取范围的标记集知识载体,基于文本建立算子挖掘预设掩膜文本序列的多特征提取范围的掩膜知识载体,将多特征提取范围的文本分类知识载体和不同特征提取范围的标记集知识载体输入文本建立算子,与相应特征提取范围的掩膜知识载体进行知识特征抽取,获得多特征提取范围的文本知识载体。在文本建立算子中对多特征提取范围的文本知识载体进行知识还原,得到分类标记文本序列。
可选地,文本标记处理算子包括多个跨层恒等映射单元(基于梯度优化构建的单元,即残差单元),通过多个跨层恒等映射单元挖掘预设文本标记集不同特征提取范围的标记集知识载体。
作为一种实施方式,预设文本标记集包括待处理业务文本序列对应的文本分词标记集,本公开提供的方法还包括:获取基于文本分词组成的标记集样版,将待处理业务文本序列按照待处理业务文本序列所拆解的文本分词进行拆解,得到待处理业务文本序列中的各文本分词区块,然后获取对标记集样版中的每个文本分词进行自主文本标记关联而生成的文本分词标记集,其中,每个文本分词用于限定待处理业务文本序列中相应文本分词区块的文本标记,一个文本分词代表一个或多个词元的词组,分类标记文本序列包括待处理业务文本序列的文本分类信息,且分类标记文本序列中的各文本分词区块具有文本分词标记集中相应的文本分词所关联的文本标记。
可选的实施方式中,服务器获取标记集样版,该标记集是基于文本分词组成的,标记集样版的尺寸等于待处理业务文本序列的尺寸,服务器将待处理业务文本序列依照待处理业务文本序列所拆解的文本分词进行拆解,得到待处理业务文本序列中的各文本分词区块,让每个文本分词区块代表待处理业务文本序列中的一个文本内容,令每个文本分词对应待处理业务文本序列中的一个文本分词区块。使用者可在标记集样版的每个文本分词中关联文本标记,以自行确定文本分词对应的文本分词区块的文本标记,令得到的分类标记文本序列中文本分词区块指示的文本内容可以被标记上在文本分词中关联的文本标记。使用者对标记集样版中的每个文本分词进行自主文本标记关联,形成文本分词标记集,服务器获取文本分词标记集,对文本分词标记集进行知识载体挖掘,得到文本分词标记集对应的文本分词特征,该文本分词特征为标记集知识载体。针对多特征提取范围的每个特征提取范围,按照对应特征提取范围的文本分类知识载体和标记集知识载体,对针对的特征提取范围内的掩膜知识载体进行知识特征抽取,获得多特征提取范围的文本知识载体。服务器对多特征提取范围的文本知识载体进行多特征提取范围的知识还原,获得分类标记文本序列,分类标记文本序列包括待处理业务文本序列的文本分类信息,且分类标记文本序列中的各文本分词区块具有文本分词标记集中相应的文本分词所关联的文本标记。其中,当待处理业务文本序列的尺寸不同于标记集样版时,将待处理业务文本序列和标记集样版进行统一,当相同时下,将待处理业务文本序列按照待处理业务文本序列所拆解的文本分词进行拆解,得到待处理业务文本序列中的各文本分词区块。
其中,获取基于文本分词组成的标记集样版,将待处理业务文本序列依照待处理业务文本序列所拆解的文本分词进行拆解,得到待处理业务文本序列中表征文本段落的各文本分词区块,让待处理业务文本序列的各文本分词区块与标记集样版的各文本分词对应,可依据在文本分词中关联文本标记来确定待处理业务文本序列中每个文本段落的文本标记,实现对待处理业务文本序列的文本标记自行确定。进一步地,将使用者自行确定的文本标记作为知识特征抽取和知识还原中的指引信息,让得到的分类标记文本序列不仅包括待处理业务文本序列的文本分类信息,分类标记文本序列中的各文本分词区块还包括使用者在相应文本分词所关联的文本标记,生成自主文本标记的待处理业务文本序列。
Step106,将分类标记文本序列进行存储。
本公开对存储的途径和位置不做限定。
作为一种实施方式,预设文本标记集包括待处理业务文本序列对应的文本段落标记集,本公开提供的方法还包括:
Step201,对待处理业务文本序列进行任意标记,得到标记业务文本序列。
可选的实施方式中,服务器自行对待处理业务文本序列进行任意标记,得到标记业务文本序列。
Step202,对标记业务文本序列进行文本拆分操作,得到待处理业务文本序列的对应的基础文本段落标记集。
基础文本段落标记集包括待处理业务文本序列中各文本段落各自对应的段落标记。可选的实施方式中,服务器对标记业务文本序列进行文本拆分操作,得到标记业务文本序列对应的基础文本段落标记集,基础文本段落标记集表征标记业务文本序列中各文本段落的文本标记。基础文本段落标记集包括待处理业务文本序列中各文本段落各自对应的段落标记,段落标记代表相应文本段落的文本标记。标记业务文本序列对应的基础文本段落标记集为待处理业务文本序列对应的基础文本段落标记集,基础文本段落标记集代表标记业务文本序列中各文本段落的文本标记,也就是说,基础文本段落标记集包括待处理业务文本序列中各文本段落各自对应的段落标记。
Step203,基于对基础文本段落标记集中不少于一个段落标记的自主文本标记优化,获得文本段落标记集。
分类标记文本序列包括待处理业务文本序列的文本分类信息,且分类标记文本序列中的各文本段落具有文本段落标记集中相应的段落标记指引的文本标记。可选的实施方式中,使用者可对基础文本段落标记集中的各段落标记的文本标记进行优化,得到预期的文本标记,服务器基于使用者的自主文本标记优化,获得优化后的文本段落标记集。服务器对文本段落标记集进行知识载体挖掘,得到对应的段落标记知识载体,该段落标记知识载体为标记集知识载体,针对多特征提取范围的每个特征提取范围,按照对应特征提取范围的文本分类知识载体和标记集知识载体,对针对的特征提取范围内的掩膜知识载体进行知识特征抽取,获得多特征提取范围的文本知识载体。其中,对待处理业务文本序列进行任意标记,得到标记业务文本序列,这样可对标记业务文本序列进行文本拆分操作,准确得到标记业务文本序列中的各段落标记,各段落标记形成标记业务文本序列对应的基础文本段落标记集,基础文本段落标记集包括待处理业务文本序列中各文本段落各自对应的段落标记,使用者可以对各段落标记进行文本标记优化,重新设置预期的文本标记,以获得使用者自行确定的文本段落标记集。进一步地,将使用者自行确定的文本标记作为知识特征抽取和知识还原中的指引信息,让得到的分类标记文本序列不仅包括待处理业务文本序列的文本分类信息,分类标记文本序列中的各文本段落还包括使用者在相应段落标记所关联的文本标记,生成自主文本标记的待处理业务文本序列。
作为一种实施方式,本公开提供的方法还包括:确定针对待处理业务文本序列的业务关联信息,其中,业务关联信息用于表征待处理业务文本序列的业务要素,业务关联信息可以通过文本进行表示,也可以通过标签进行表示,业务要素是待处理业务文本序列的特征,之后,对业务关联信息进行知识载体挖掘,得到对应的业务关联知识载体。针对多特征提取范围的每个特征提取范围,按照对应特征提取范围的文本分类知识载体和文本标记指引信息,对针对的特征提取范围内的掩膜知识载体进行知识特征抽取,获得多特征提取范围的文本知识载体,可以包括:针对多特征提取范围的每个特征提取范围,按照对应特征提取范围的文本分类知识载体、文本标记指引信息和业务关联知识载体,对针对的特征提取范围内的掩膜知识载体进行知识特征抽取,获得多特征提取范围的文本知识载体。例如,业务关联信息可以对业务文本的业务类型、产生业务文本的对象、业务文本的重点文本段落等进行描述。
可选的实施方式中,服务器确定针对待处理业务文本序列的业务关联信息,对业务关联信息进行知识载体挖掘,得到业务关联信息对应的业务关联知识载体。针对多特征提取范围的每个特征提取范围,服务器按照对应特征提取范围的文本分类知识载体、文本标记指引信息和业务关联知识载体,对针对的特征提取范围内的掩膜知识载体进行知识特征抽取,完成文本分类知识载体、文本标记指引信息指引的文本标记和业务关联知识载体的融合,得到融合后的文本知识载体,从而获得多特征提取范围的文本知识载体。其中,确定针对待处理业务文本序列的业务关联信息,以依据业务关联信息描述待处理业务文本序列的业务要素,作为待处理业务文本序列的完善内容。对业务关联信息进行知识载体挖掘,得到对应的业务关联知识载体,针对多特征提取范围的每个特征提取范围,按照对应特征提取范围的文本分类知识载体、文本标记指引信息和业务关联知识载体,对针对的特征提取范围内的掩膜知识载体进行知识特征抽取,让知识特征抽取得到的文本知识载体融合相应特征提取范围的文本分类信息、文本分类知识载体指引的文本标记,并且知识特征抽取得到的文本知识载体还包括业务关联知识载体对应的特征,在知识特征抽取中获得待处理业务文本序列中没有的文本内容,结合业务关联知识载体将待处理业务文本序列中模糊或者重点缺失等情况的内容进行明了,并且,多个特征提取范围的知识特征抽取可获得多特征提取范围的文本知识载体,如此可以得到不同层级的文本语义。
作为一种实施方式,对多特征提取范围的文本知识载体进行多特征提取范围的知识还原,获得分类标记文本序列,可以包括:针对多特征提取范围的知识还原中的每一特征提取范围,若针对的特征提取范围为多特征提取范围的知识还原中的首个特征提取范围,按照对应特征提取范围的文本知识载体,对知识特征抽取得到的最后一特征提取范围的文本知识载体进行知识还原,得到针对的特征提取范围的知识还原载体。若针对的特征提取范围并非多特征提取范围的知识还原中的首个特征提取范围或最后一特征提取范围,按照对应特征提取范围的文本知识载体,对针对的特征提取范围的前一特征提取范围的知识还原载体进行知识还原,得到针对的特征提取范围的知识还原载体。若针对的特征提取范围为最后一特征提取范围,按照对应特征提取范围的文本知识载体,对最后一特征提取范围的前一特征提取范围的知识还原载体进行知识还原,得到分类标记文本序列。
可选的实施方式中,针对多特征提取范围的知识还原中的每个特征提取范围,若针对的特征提取范围为多特征提取范围的知识还原中的首个特征提取范围,服务器按照对应特征提取范围的文本知识载体,对知识特征抽取得到的最后一特征提取范围的文本知识载体进行知识还原,得到针对的特征提取范围的知识还原载体。若针对的特征提取范围并非多特征提取范围的知识还原中的首个特征提取范围或最后一特征提取范围,服务器按照对应特征提取范围的文本知识载体,对针对的特征提取范围的前一特征提取范围的知识还原载体进行知识还原,得到针对的特征提取范围的知识还原载体。若针对的特征提取范围为最后一特征提取范围,服务器按照对应特征提取范围的文本知识载体,对最后一特征提取范围的前一特征提取范围的知识还原载体进行知识还原,得到分类标记文本序列。其中,针对多特征提取范围的知识还原,在每个特征提取范围的知识还原中,将相应特征提取范围的文本知识载体作为进行特征提取范围的知识还原时的参照信息,这样可以提高知识还原的准确度,进一步地,不同特征提取范围的知识还原中,每个特征提取范围知识还原的特征都是上一特征提取范围知识还原得到的,如此可以对知识还原载体进行按序知识还原,构建文本的文本分类信息和文本标记信息,得到具有文本分类信息和文本标记的分类标记文本序列。
作为一种实施方式,本公开提供的方法还包括:获取待处理业务文本序列学习样例,基于待处理业务文本序列学习样例挖掘多特征提取范围的文本分类知识载体样例,接着获取从掩膜文本序列学习样例中挖掘的多特征提取范围的掩膜知识载体样例,再获取待处理业务文本序列学习样例对应的文本标记指引信息样例,针对多特征提取范围的每个特征提取范围,按照对应特征提取范围的文本分类知识载体样例和文本标记指引信息样例,对针对的特征提取范围内的掩膜知识载体样例进行知识特征抽取,获得多特征提取范围的文本知识载体样例,然后对多特征提取范围的文本知识载体样例进行多特征提取范围的知识还原,得到推理分类标记文本序列,最后获取待处理业务文本序列学习样例对应的注释分类标记文本序列,基于推理分类标记文本序列和注释分类标记文本序列对基础文本标记算法进行训练,得到文本标记算法,其中,注释分类标记文本序列包括待处理业务文本序列学习样例的文本分类信息,并且包括文本标记指引信息样例指引的文本标记。
请参照图2,本公开还提供文本标记算法在训练过程涉及的内容,具体地,包括以下训练步骤:
Training S301,获取待处理业务文本序列学习样例,基于待处理业务文本序列学习样例挖掘多特征提取范围的文本分类知识载体样例。
Training S302,获取从掩膜文本序列学习样例中挖掘的多特征提取范围的掩膜知识载体样例。
可选的实施方式中,服务器获取掩膜文本序列学习样例,对掩膜文本序列学习样例进行知识载体挖掘,得到对应的掩膜知识载体样例,可依据知识载体挖掘得到多特征提取范围的掩膜知识载体样例。其中,掩膜文本序列学习样例为存储于基础文本标记算法中的事先设置的掩膜文本序列,通过文本标记算法对掩膜文本序列学习样例进行知识载体挖掘,得到多特征提取范围的掩膜知识载体样例。该多特征提取范围的文本分类知识载体样例对应的特征提取范围数目与多特征提取范围的掩膜知识载体样例对应的特征提取范围数目相同。
作为一种实施方式,服务器获取从掩膜文本序列学习样例中挖掘的掩膜知识载体样例,针对多特征提取范围的每个特征提取范围,按照对应特征提取范围的文本分类知识载体样例和文本标记指引信息样例,对掩膜知识载体样例进行针对的特征提取范围内的知识特征抽取,获得多特征提取范围的文本知识载体样例。
其中,获取从掩膜文本序列学习样例中挖掘的掩膜知识载体样例,可以包括:获取从掩膜文本序列学习样例中挖掘的多特征提取范围的掩膜知识载体样例。针对多特征提取范围的每个特征提取范围,按照对应特征提取范围的文本分类知识载体样例和文本标记指引信息样例,对掩膜知识载体样例进行针对的特征提取范围内的知识特征抽取,获得多特征提取范围的文本知识载体样例,包括:针对多特征提取范围的每个特征提取范围,按照对应特征提取范围的文本分类知识载体样例和文本标记指引信息样例,对针对的特征提取范围内的掩膜知识载体样例进行知识特征抽取,获得多特征提取范围的文本知识载体样例。
Training S303,获取待处理业务文本序列学习样例对应的文本标记指引信息样例。
文本标记指引信息样例用于指引待处理业务文本序列学习样例进行文本标记,文本标记指引信息样例用于限定待处理业务文本序列学习样例的文本标记,例如使用者对待处理业务文本序列学习样例自行确定的文本标记信息,使用者对待处理业务文本序列学习样例自行确定的文本标记信息可以是对待处理业务文本序列学习样例中的不少于一个文本区域自行确定的文本标记。使用者对待处理业务文本序列学习样例自行确定的文本标记信息,可依据自主文本标记关联形成的预设文本标记集样例进行表征。
其中,服务器可获取文本样例标记注释作为文本标记指引信息样例,文本样例标记注释用于表征待处理业务文本序列的文本标记,具体可以是描述待处理业务文本序列学习样例中内容的文本标记。其中,服务器可获取待处理业务文本序列学习样例对应的预设文本标记集样例作为文本标记指引信息样例,该预设文本标记集样例是使用者对待处理业务文本序列学习样例的文本标记进行自行确定获得的文本。
Training S304,针对多特征提取范围的每个特征提取范围,按照对应特征提取范围的文本分类知识载体样例和文本标记指引信息样例,对针对的特征提取范围内的掩膜知识载体样例进行知识特征抽取,获得多特征提取范围的文本知识载体样例。
其中,文本知识载体样例是融合了文本分类知识载体样例和文本标记指引信息样例指引的文本标记而生成的特征,多特征提取范围的文本知识载体样例中每个特征提取范围的文本知识载体样例融合前一特征提取范围的文本知识载体样例。可选的实施方式中,服务器确定文本标记指引信息样例指引的文本标记,针对多特征提取范围的每个特征提取范围,服务器按照对应特征提取范围的文本分类知识载体样例和文本标记指引信息样例指引的文本标记,对针对的特征提取范围内的掩膜知识载体样例进行知识特征抽取,获得多特征提取范围的文本知识载体样例。其中,文本标记指引信息样例包括预设文本标记集样例,预设文本标记集样例用于限定待处理业务文本序列学习样例的文本标记,针对多特征提取范围的每个特征提取范围,按照对应特征提取范围的文本分类知识载体样例和文本标记指引信息样例,对针对的特征提取范围内的掩膜知识载体样例进行知识特征抽取,获得多特征提取范围的文本知识载体样例,可以包括:对预设文本标记集样例进行知识载体挖掘,得到预设文本标记集样例对应的标记集知识载体样例,再针对多特征提取范围的每个特征提取范围,按照对应特征提取范围的文本分类知识载体样例和标记集知识载体样例,对针对的特征提取范围内的掩膜知识载体样例进行知识特征抽取,获得多特征提取范围的文本知识载体样例。
其中,预设文本标记集样例对应不同特征提取范围的标记集知识载体样例,不同特征提取范围的标记集知识载体样例对应的特征提取范围数目少于多特征提取范围的文本分类知识载体样例对应的特征提取范围数目;多特征提取范围的文本分类知识载体样例对应的特征提取范围数目与多特征提取范围的掩膜知识载体样例对应的特征提取范围数目相同,针对多特征提取范围的每个特征提取范围,按照对应特征提取范围的文本分类知识载体样例和标记集知识载体样例,对针对的特征提取范围内的掩膜知识载体样例进行知识特征抽取,获得多特征提取范围的文本知识载体样例,包括:针对多特征提取范围的每个特征提取范围,若具有针对的特征提取范围内的标记集知识载体样例,按照对应特征提取范围的文本分类知识载体样例和标记集知识载体样例,对针对的特征提取范围内的掩膜知识载体样例进行知识特征抽取,获得针对的特征提取范围内的文本知识载体样例;若不具有针对的特征提取范围内的标记集知识载体样例,按照对应特征提取范围的文本分类知识载体样例,对针对的特征提取范围内的掩膜知识载体样例进行知识特征抽取,获得针对的特征提取范围内的文本知识载体样例。
或者,预设文本标记集样例包括待处理业务文本序列学习样例对应的文本分词标记集样例,本公开提供的方法还包括:确定依据样例文本分词拆解的样例标记集样版,将待处理业务文本序列按照待处理业务文本序列所拆解的文本分词进行拆解,得到待处理业务文本序列学习样例中的各样例文本分词区块,然后获取对样例标记集样版中的每个样例文本分词进行自主文本标记关联而生成的文本分词标记集样例,每个样例文本分词用于限定待处理业务文本序列学习样例中相应样例文本分词区块的文本标记。其中,注释分类标记文本序列包括待处理业务文本序列学习样例的文本分类信息,且注释分类标记文本序列中的各文本分词区块具有文本分词标记集样例中相应的样例文本分词所关联的文本标记。
其中,预设文本标记集样例包括待处理业务文本序列学习样例对应的样例文本段落标记集,本公开提供的方法还包括:对待处理业务文本序列学习样例进行任意标记,得到样例标记业务文本序列,对样例标记业务文本序列进行文本拆分操作,得到待处理业务文本序列学习样例的对应的样例基础文本段落标记集,其中,样例基础文本段落标记集包括待处理业务文本序列学习样例中各样例文本段落各自对应的样例段落标记,接着,基于对样例基础文本段落标记集中不少于一个样例段落标记的自主文本标记优化,获得样例文本段落标记集。其中,注释分类标记文本序列包括待处理业务文本序列学习样例的文本分类信息,且注释分类标记文本序列中的各文本段落具有样例文本段落标记集中相应的样例段落标记指引的文本标记。
Training S305,对多特征提取范围的文本知识载体样例进行多特征提取范围的知识还原,得到推理分类标记文本序列。
可选的实施方式中,服务器对多特征提取范围的文本知识载体样例进行多特征提取范围的知识还原,完成最后一特征提取范围的知识还原后,获得推理分类标记文本序列,推理分类标记文本序列可能包括待处理业务文本序列学习样例的文本分类信息,以及可能包含文本标记指引信息样例指引的文本标记。其中,针对多特征提取范围的知识还原中的每个特征提取范围,按照对应特征提取范围的文本知识载体样例,对针对的特征提取范围的前一特征提取范围的样例知识还原载体进行知识还原,得到针对的特征提取范围的样例知识还原载体。进入下一特征提取范围的知识还原,将得到的针对的特征提取范围的样例知识还原载体确定为下一特征提取范围的知识还原中的前一特征提取范围的样例知识还原载体,返回对针对的特征提取范围的前一特征提取范围的样例知识还原载体进行知识还原的步骤,然后进行循环直到进行最后一特征提取范围的知识还原后,得到推理分类标记文本序列。其中,在知识特征抽取中的多个特征提取范围的知识特征抽取顺序与在知识还原中的多个特征提取范围的知识还原的顺序是反着的。
其中,对多特征提取范围的文本知识载体样例进行多特征提取范围的知识还原,得到推理分类标记文本序列,可以包括:针对多特征提取范围的知识还原中的每个特征提取范围,若针对的特征提取范围为多特征提取范围的知识还原中的首个特征提取范围,按照对应特征提取范围的文本知识载体样例,对知识特征抽取得到的最后一特征提取范围的文本知识载体样例进行知识还原,得到针对的特征提取范围的样例知识还原载体。若针对的特征提取范围并非多特征提取范围的知识还原中的第一个特征提取范围或最后一特征提取范围,按照对应特征提取范围的文本知识载体样例,对针对的特征提取范围的前一特征提取范围的样例知识还原载体进行知识还原,得到针对的特征提取范围的样例知识还原载体;若针对的特征提取范围为最后一特征提取范围,按照对应特征提取范围的文本知识载体样例,对最后一特征提取范围的前一特征提取范围的样例知识还原载体进行知识还原,得到推理分类标记文本序列。
Training S306,获取待处理业务文本序列学习样例对应的注释分类标记文本序列,基于推理分类标记文本序列和注释分类标记文本序列对基础文本标记算法进行训练,得到文本标记算法。
注释分类标记文本序列包括待处理业务文本序列学习样例的文本分类信息,并且包括文本标记指引信息样例指引的文本标记。也就是说,注释分类标记文本序列为算法训练的标签信息,注释分类标记文本序列包括待处理业务文本序列学习样例的文本分类信息,并且包括文本标记指引信息样例指引的文本标记。
其中,基于推理分类标记文本序列和注释分类标记文本序列对基础文本标记算法进行训练,得到文本标记算法,具体包括:确定推理分类标记文本序列和注释分类标记文本序列之间的分类信息代价值和文本标记代价值中的一个或两个,基于分类信息代价值和文本标记代价值中的一个或两个对基础文本标记算法进行训练,得到文本标记算法。
其中,获取待处理业务文本序列学习样例,基于待处理业务文本序列学习样例挖掘多特征提取范围的文本分类知识载体样例,大特征提取范围的文本分类知识载体样例具有更多的浅层语义信息,小特征提取范围文本分类知识载体样例具有更多的深层语义信息,确定从掩膜文本序列学习样例中挖掘的多特征提取范围的掩膜知识载体样例,将多特征提取范围的文本分类知识载体样例和待处理业务文本序列学习样例对应的文本标记指引信息样例作为掩膜知识载体样例知识特征抽取的指引信息,从而针对多特征提取范围的每个特征提取范围,按照对应特征提取范围的文本分类知识载体样例和文本标记指引信息样例,对针对的特征提取范围内的掩膜知识载体样例进行知识特征抽取,如此基于知识特征抽取得到融合文本分类知识载体样例和文本标记指引信息样例指引的文本标记的文本知识载体样例。进一步地,让样例文本分类信息和文本标记融合,使得到的文本中的文本标记可以准确吻合文本分类信息的目标分类信息的位置。知识特征抽取是多特征提取范围的,能得到融合不同特征提取范围的文本分类知识载体样例和该文本标记的文本知识载体样例,以对多特征提取范围的文本知识载体样例进行多特征提取范围的知识还原,得到推理分类标记文本序列,获取待处理业务文本序列学习样例对应的注释分类标记文本序列,以基于推理分类标记文本序列和注释分类标记文本序列之间的代价对基础文本标记算法进行训练,以优化算法的配置变量(权重、偏置、学习率、超参等),训练得到的文本标记算法生成的推理分类标记文本序列包括待处理业务文本序列学习样例的文本分类信息,并且包括文本标记指引信息样例指引的文本标记。
作为一种实施方式,本公开提供的方法还包括:确定针对待处理业务文本序列学习样例的样例业务关联信息,样例业务关联信息用于表征待处理业务文本序列学习样例的业务要素,然后对样例业务关联信息进行知识载体挖掘,得到对应的样例业务关联知识载体。针对多特征提取范围的每个特征提取范围,按照对应特征提取范围的文本分类知识载体样例和文本标记指引信息样例,对针对的特征提取范围内的掩膜知识载体样例进行知识特征抽取,获得多特征提取范围的文本知识载体样例,具体包括:针对多特征提取范围的每个特征提取范围,按照对应特征提取范围的文本分类知识载体样例、文本标记指引信息样例和样例业务关联知识载体,对针对的特征提取范围内的掩膜知识载体样例进行知识特征抽取,获得多特征提取范围的文本知识载体样例。
作为一种实施方式,该基础文本标记算法包括基础业务文本处理算子,基础业务文本处理算子用于挖掘多特征提取范围的文本分类知识载体样例,那么,基于推理分类标记文本序列和注释分类标记文本序列对基础文本标记算法进行训练,得到文本标记算法,具体包括:确定推理分类标记文本序列的文本分类信息和注释分类标记文本序列的文本分类信息之间的分类信息代价值,再基于分类信息代价值对基础文本标记算法的基础业务文本处理算子进行优化,得到包括业务文本处理算子的文本标记算法。其中,分类信息代价值表征推理分类标记文本序列的文本分类信息和注释分类标记文本序列的文本分类信息之间的代价,也就是算法生成的分类标记文本序列和真实分类标记文本序列在文本分类信息上的代价。
可选的实施方式中,基础文本标记算法包括基础业务文本处理算子,服务器将待处理业务文本序列学习样例输入基础文本标记算法,通过基础业务文本处理算子对待处理业务文本序列学习样例挖掘多特征提取范围的文本分类知识载体样例。服务器获取掩膜文本序列学习样例,通过基础文本标记算法从掩膜文本序列学习样例中挖掘的多特征提取范围的掩膜知识载体样例。
获取待处理业务文本序列学习样例对应的文本标记指引信息样例输入基础文本标记算法,基础文本标记算法针对多特征提取范围的每个特征提取范围,按照对应特征提取范围的文本分类知识载体样例和文本标记指引信息样例,对针对的特征提取范围内的掩膜知识载体样例进行知识特征抽取,获得多特征提取范围的文本知识载体样例,通过基础文本标记算法对多特征提取范围的文本知识载体样例进行多特征提取范围的知识还原,获得基础文本标记算法生成的推理分类标记文本序列。服务器计算推理分类标记文本序列的文本分类信息和注释分类标记文本序列的文本分类信息之间的分类信息代价值,通过分类信息代价值优化该基础业务文本处理算子的配置变量,持续训练直到算法收敛,得到包括业务文本处理算子的文本标记算法。
其中,基础文本标记算法包括基础业务文本处理算子和基础文本建立算子,服务器将待处理业务文本序列学习样例输入基础业务文本处理算子,将文本标记指引信息样例和掩膜文本序列学习样例输入基础文本建立算子,通过基础业务文本处理算子基于待处理业务文本序列学习样例挖掘多特征提取范围的文本分类知识载体样例。依据基础文本建立算子获取从掩膜文本序列学习样例中挖掘的多特征提取范围的掩膜知识载体样例,将多特征提取范围的文本分类知识载体样例输入基础文本建立算子。针对多特征提取范围的每个特征提取范围,基础文本建立算子按照对应特征提取范围的文本分类知识载体样例和文本标记指引信息样例,对针对的特征提取范围内的掩膜知识载体样例进行知识特征抽取,获得多特征提取范围的文本知识载体样例;基础文本建立算子对多特征提取范围的文本知识载体样例进行多特征提取范围的知识还原,得到推理分类标记文本序列。基于分类信息代价值对基础业务文本处理算子和基础文本建立算子进行优化,得到包括业务文本处理算子和文本建立算子的文本标记算法。
基础文本建立算子包括知识特征抽取单元和知识还原单元,分别对应编码器和解码器,采用知识特征抽取单元进行知识特征抽取,获得多特征提取范围的文本知识载体样例,通过知识还原单元进行多特征提取范围的知识还原,得到推理分类标记文本序列。其中,基础文本标记算法包括基础业务文本处理算子,以基于基础业务文本处理算子挖掘多特征提取范围的文本分类知识载体样例,基于分类信息代价值对基础文本标记算法的基础业务文本处理算子进行训练,如此可以独立地对进行文本分类信息生成的模块进行训练,增加业务文本处理算子生成文本分类信息的准确度,得到的分类标记文本序列的文本分类信息更精准。
作为一种实施方式,基础文本标记算法还包括基础文本标记处理算子,文本标记指引信息样例包括用于限定待处理业务文本序列学习样例的文本标记的文本标记集学习样例,基础文本标记处理算子用于挖掘文本标记集学习样例的标记集知识载体样例。基于分类信息代价值对基础文本标记算法的基础业务文本处理算子进行优化,得到包括业务文本处理算子的文本标记算法,具体包括:通过分类信息代价值对基础业务文本处理算子进行训练,得到业务文本处理算子,业务文本处理算子用于挖掘多特征提取范围的文本分类知识载体样例,接着针对多特征提取范围的每个特征提取范围,按照对应特征提取范围的文本分类知识载体样例和标记集知识载体样例,对针对的特征提取范围内的掩膜知识载体样例进行知识特征抽取,获得多特征提取范围的文本知识载体样例;对多特征提取范围的文本知识载体样例进行多特征提取范围的知识还原,得到推理分类标记文本序列,然后确定推理分类标记文本序列和注释分类标记文本序列之间的文本标记代价值,依据分类信息代价值对基础文本标记处理算子进行优化,得到包括业务文本处理算子和文本标记处理算子的文本标记算法。
可选的实施方式中,基础文本标记算法包括基础业务文本处理算子和基础文本标记处理算子。服务器基于分类信息代价值对基础业务文本处理算子进行训练,得到训练后的业务文本处理算子,接着,通过业务文本处理算子挖掘待处理业务文本序列学习样例的多特征提取范围的文本分类知识载体样例,以及通过基础文本标记处理算子挖掘文本标记集学习样例的标记集知识载体样例。针对多特征提取范围的每个特征提取范围,按照对应特征提取范围的文本分类知识载体样例和标记集知识载体样例,对针对的特征提取范围内的掩膜知识载体样例进行知识特征抽取,获得多特征提取范围的文本知识载体样例,对多特征提取范围的文本知识载体样例进行多特征提取范围的知识还原,得到推理分类标记文本序列,确定推理分类标记文本序列和注释分类标记文本序列之间的文本标记代价值,基于分类信息代价值对基础文本标记处理算子进行优化,得到包括业务文本处理算子和文本标记处理算子的文本标记算法。
其中,依据分类信息代价值对基础业务文本处理算子进行训练,得到业务文本处理算子,这样在训练获得业务文本处理算子后,训练基础文本标记处理算子,两个算子互不影响。依据业务文本处理算子挖掘多特征提取范围的文本分类知识载体样例,针对多特征提取范围的每个特征提取范围,按照对应特征提取范围的文本分类知识载体样例和标记集知识载体样例,对针对的特征提取范围内的掩膜知识载体样例进行知识特征抽取,获得多特征提取范围的文本知识载体样例,对多特征提取范围的文本知识载体样例进行多特征提取范围的知识还原,得到推理分类标记文本序列,确定推理分类标记文本序列和注释分类标记文本序列之间的文本标记代价值,基于分类信息代价值对基础文本标记处理算子进行优化,得到包括业务文本处理算子和文本标记处理算子的文本标记算法,训练后的业务文本处理算子和文本标记处理算子互不影响,文本标记算法可以应用在多场景中。
作为一种实施方式,基于推理分类标记文本序列和注释分类标记文本序列对基础文本标记算法进行训练,得到文本标记算法,具体包括:确定推理分类标记文本序列的文本分类信息和注释分类标记文本序列的文本分类信息之间的分类信息代价值,再确定推理分类标记文本序列的文本标记和注释分类标记文本序列的文本标记之间的文本标记代价值,最后依据分类信息代价值和文本标记代价值对基础文本标记算法进行训练,得到文本标记算法。
可选的实施方式中,服务器确定推理分类标记文本序列的文本分类信息和注释分类标记文本序列的文本分类信息之间的分类信息代价值,服务器可计算推理分类标记文本序列的文本标记和注释分类标记文本序列的文本标记之间的文本标记代价值,基于分类信息代价值和文本标记代价值计算总代价,通过总代价优化基础文本标记算法的算法配置变量,迭代之下直到算法收敛,得到文本标记算法。
应当注意,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
以下介绍本公开的装置实施例,可以用于执行本公开上述实施例中的应用人工智能的数据存储方法。图3示意性地示出了本公开实施例提供的数据存储装置的结构框图。如图3所示,数据存储装置200包括:
目标载体挖掘模块210,用于获取待处理业务文本序列,基于所述待处理业务文本序列挖掘多特征提取范围的文本分类知识载体;
掩膜载体挖掘模块220,用于获取从预设掩膜文本序列中挖掘的所述多特征提取范围的掩膜知识载体;
指引信息获取模块230,用于获取所述待处理业务文本序列对应的文本标记指引信息;
知识特征抽取模块240,用于针对所述多特征提取范围的每个特征提取范围,按照对应特征提取范围的所述文本分类知识载体和所述文本标记指引信息,对针对的特征提取范围内的掩膜知识载体进行知识特征抽取,获得多特征提取范围的文本知识载体;
知识还原模块250,用于对所述多特征提取范围的文本知识载体进行多特征提取范围的知识还原,获得分类标记文本序列;所述分类标记文本序列包括所述待处理业务文本序列的文本分类信息,并且包括所述文本标记指引信息指引的文本标记;
数据存储模块260,用于将所述分类标记文本序列进行存储。
本公开各实施例中提供的数据存储装置的具体细节已经在对应的方法实施例中进行了详细的描述,此处不再赘述。
图4示意性地示出了用于实现本公开实施例的数据存储服务器的计算机系统结构框图。
需要说明的是,图4示出的数据存储服务器的计算机系统300仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图4所示,计算机系统300包括中央处理器301(Central Processing Unit,CPU),其可以根据存储在只读存储器302(Read-Only Memory,ROM)中的程序或者从存储部分308加载到随机访问存储器303(Random Access Memory,RAM)中的程序而执行各种适当的动作和处理。在随机访问存储器303中,还存储有系统操作所需的各种程序和数据。中央处理器301、在只读存储器302以及随机访问存储器303通过总线304彼此相连。输入/输出接口305(Input/Output接口,即I/O接口)也连接至总线304。
以下部件连接至输入/输出接口305:包括键盘、鼠标等的输入部分306;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分307;包括硬盘等的存储部分308;以及包括诸如局域网卡、调制解调器等的网络接口卡的通信部分309。通信部分309经由诸如因特网的网络执行通信处理。驱动器310也根据需要连接至输入/输出接口305。存储介质311,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器310上,以便于从其上读出的计算机程序根据需要被安装入存储部分308。
特别地,根据本公开的实施例,各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分309从网络上被下载和安装,和/或从存储介质311被安装。在该计算机程序被中央处理器301执行时,执行本公开的系统中限定的各种功能。
需要说明的是,本公开实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本公开实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (10)
1.一种应用人工智能的数据存储方法,其特征在于,所述方法包括:
获取待处理业务文本序列,基于所述待处理业务文本序列挖掘多特征提取范围的文本分类知识载体;
获取从预设掩膜文本序列中挖掘的所述多特征提取范围的掩膜知识载体;
获取所述待处理业务文本序列对应的文本标记指引信息;
针对所述多特征提取范围的每个特征提取范围,按照对应特征提取范围的所述文本分类知识载体和所述文本标记指引信息,对针对的特征提取范围内的掩膜知识载体进行知识特征抽取,获得多特征提取范围的文本知识载体;
对所述多特征提取范围的文本知识载体进行多特征提取范围的知识还原,获得分类标记文本序列;所述分类标记文本序列包括所述待处理业务文本序列的文本分类信息,并且包括所述文本标记指引信息指引的文本标记;
将所述分类标记文本序列进行存储。
2.根据权利要求1所述的方法,其特征在于,所述文本标记指引信息包括预设文本标记集,所述预设文本标记集用于限定所述待处理业务文本序列的文本标记;所述针对所述多特征提取范围的每个特征提取范围,按照对应特征提取范围的所述文本分类知识载体和所述文本标记指引信息,对针对的特征提取范围内的掩膜知识载体进行知识特征抽取,获得多特征提取范围的文本知识载体,包括:
对所述预设文本标记集进行知识载体挖掘,得到所述预设文本标记集对应的标记集知识载体;
针对所述多特征提取范围的每个特征提取范围,按照对应特征提取范围的所述文本分类知识载体和所述标记集知识载体,对针对的特征提取范围内的掩膜知识载体进行知识特征抽取,获得多特征提取范围的文本知识载体。
3.根据权利要求2所述的方法,其特征在于,所述预设文本标记集对应不同特征提取范围的标记集知识载体,所述不同特征提取范围的标记集知识载体对应的特征提取范围数目少于所述多特征提取范围的文本分类知识载体对应的特征提取范围数目;所述多特征提取范围的文本分类知识载体对应的特征提取范围数目与所述多特征提取范围的掩膜知识载体对应的特征提取范围数目相同;
所述针对所述多特征提取范围的每个特征提取范围,按照对应特征提取范围的所述文本分类知识载体和所述标记集知识载体,对针对的特征提取范围内的掩膜知识载体进行知识特征抽取,获得多特征提取范围的文本知识载体,包括:
针对所述多特征提取范围的每个特征提取范围,若具有针对的特征提取范围内的标记集知识载体,按照对应特征提取范围的所述文本分类知识载体和所述标记集知识载体,对针对的特征提取范围内的掩膜知识载体进行知识特征抽取,获得针对的特征提取范围内的文本知识载体;若不具有针对的特征提取范围内的标记集知识载体,按照对应特征提取范围的所述文本分类知识载体,对针对的特征提取范围内的掩膜知识载体进行知识特征抽取,获得针对的特征提取范围内的文本知识载体。
4.根据权利要求2所述的方法,其特征在于,所述预设文本标记集包括所述待处理业务文本序列对应的文本分词标记集,所述方法还包括:
获取基于文本分词组成的标记集样版,将所述待处理业务文本序列按照所述待处理业务文本序列所拆解的文本分词进行拆解,得到所述待处理业务文本序列中的各文本分词区块;
获取对所述标记集样版中的每个文本分词进行自主文本标记关联而生成的文本分词标记集;
每个所述文本分词用于限定所述待处理业务文本序列中相应文本分词区块的文本标记;其中,所述分类标记文本序列包括所述待处理业务文本序列的文本分类信息,且所述分类标记文本序列中的各文本分词区块具有所述文本分词标记集中相应的文本分词所关联的文本标记;
或者,所述预设文本标记集包括所述待处理业务文本序列对应的文本段落标记集,所述方法还包括:
对所述待处理业务文本序列进行任意标记,得到标记业务文本序列;
对所述标记业务文本序列进行文本拆分操作,得到所述待处理业务文本序列的对应的基础文本段落标记集,所述基础文本段落标记集包括所述待处理业务文本序列中各文本段落各自对应的段落标记;
基于对所述基础文本段落标记集中不少于一个所述段落标记的自主文本标记优化,获得文本段落标记集;其中,所述分类标记文本序列包括所述待处理业务文本序列的文本分类信息,且所述分类标记文本序列中的各文本段落具有所述文本段落标记集中相应的段落标记指引的文本标记。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定针对所述待处理业务文本序列的业务关联信息,所述业务关联信息用于表征所述待处理业务文本序列的业务要素;
对所述业务关联信息进行知识载体挖掘,得到对应的业务关联知识载体;
所述针对所述多特征提取范围的每个特征提取范围,按照对应特征提取范围的所述文本分类知识载体和所述文本标记指引信息,对针对的特征提取范围内的掩膜知识载体进行知识特征抽取,获得多特征提取范围的文本知识载体,包括:
针对所述多特征提取范围的每个特征提取范围,按照对应特征提取范围的所述文本分类知识载体、所述文本标记指引信息和所述业务关联知识载体,对针对的特征提取范围内的掩膜知识载体进行知识特征抽取,获得多特征提取范围的文本知识载体;
所述对所述多特征提取范围的文本知识载体进行多特征提取范围的知识还原,获得分类标记文本序列,包括:针对所述多特征提取范围的知识还原中的每个特征提取范围,若针对的特征提取范围为所述多特征提取范围的知识还原中的首个特征提取范围,按照对应特征提取范围的文本知识载体,对知识特征抽取得到的最后一特征提取范围的文本知识载体进行知识还原,得到针对的特征提取范围的知识还原载体;若针对的特征提取范围并非所述多特征提取范围的知识还原中的首个特征提取范围或最后一特征提取范围,按照对应特征提取范围的文本知识载体,对针对的特征提取范围的前一特征提取范围的知识还原载体进行知识还原,得到针对的特征提取范围的知识还原载体;若针对的特征提取范围为所述最后一特征提取范围,按照对应特征提取范围的文本知识载体,对所述最后一特征提取范围的前一特征提取范围的知识还原载体进行知识还原,得到分类标记文本序列。
6.根据权利要求1~5任一项所述的方法,其特征在于,所述方法通过文本标记算法执行,所述文本标记算法的训练过程包括:
获取待处理业务文本序列学习样例,基于所述待处理业务文本序列学习样例挖掘多特征提取范围的文本分类知识载体样例;
获取从掩膜文本序列学习样例中挖掘的所述多特征提取范围的掩膜知识载体样例;
获取所述待处理业务文本序列学习样例对应的文本标记指引信息样例;
针对所述多特征提取范围的每个特征提取范围,按照对应特征提取范围的所述文本分类知识载体样例和所述文本标记指引信息样例,对针对的特征提取范围内的掩膜知识载体样例进行知识特征抽取,获得多特征提取范围的文本知识载体样例;
对所述多特征提取范围的文本知识载体样例进行多特征提取范围的知识还原,得到推理分类标记文本序列;
获取所述待处理业务文本序列学习样例对应的注释分类标记文本序列,基于所述推理分类标记文本序列和所述注释分类标记文本序列对基础文本标记算法进行训练,得到文本标记算法;其中,所述注释分类标记文本序列包括所述待处理业务文本序列学习样例的文本分类信息,并且包括所述文本标记指引信息样例指引的文本标记。
7.根据权利要求6所述的方法,其特征在于,所述基础文本标记算法包括基础业务文本处理算子,所述基础业务文本处理算子用于挖掘所述多特征提取范围的文本分类知识载体样例;
所述基于所述推理分类标记文本序列和所述注释分类标记文本序列对基础文本标记算法进行训练,得到文本标记算法,包括:
确定所述推理分类标记文本序列的文本分类信息和所述注释分类标记文本序列的文本分类信息之间的分类信息代价值;
基于所述分类信息代价值对所述基础文本标记算法的基础业务文本处理算子进行优化,得到包括业务文本处理算子的文本标记算法。
8.根据权利要求7所述的方法,其特征在于,所述基础文本标记算法还包括基础文本标记处理算子,所述文本标记指引信息样例包括用于限定所述待处理业务文本序列学习样例的文本标记的文本标记集学习样例,所述基础文本标记处理算子用于挖掘所述文本标记集学习样例的标记集知识载体样例;
所述基于所述分类信息代价值对所述基础文本标记算法的基础业务文本处理算子进行优化,得到包括业务文本处理算子的文本标记算法,包括:
基于所述分类信息代价值对所述基础业务文本处理算子进行训练,得到业务文本处理算子,所述业务文本处理算子用于挖掘所述多特征提取范围的文本分类知识载体样例;
针对所述多特征提取范围的每个特征提取范围,按照对应特征提取范围的所述文本分类知识载体样例和所述标记集知识载体样例,对针对的特征提取范围内的掩膜知识载体样例进行知识特征抽取,获得多特征提取范围的文本知识载体样例;
对所述多特征提取范围的文本知识载体样例进行多特征提取范围的知识还原,得到推理分类标记文本序列;
确定所述推理分类标记文本序列和所述注释分类标记文本序列之间的文本标记代价值,基于所述分类信息代价值对所述基础文本标记处理算子进行优化,得到包括所述业务文本处理算子和文本标记处理算子的文本标记算法;
所述基于所述推理分类标记文本序列和所述注释分类标记文本序列对基础文本标记算法进行训练,得到文本标记算法,包括:
确定所述推理分类标记文本序列的文本分类信息和所述注释分类标记文本序列的文本分类信息之间的分类信息代价值;
确定所述推理分类标记文本序列的文本标记和所述注释分类标记文本序列的文本标记之间的文本标记代价值;
根据所述分类信息代价值和所述文本标记代价值对基础文本标记算法进行训练,得到文本标记算法。
9.一种数据存储装置,其特征在于,包括:
目标载体挖掘模块,用于获取待处理业务文本序列,基于所述待处理业务文本序列挖掘多特征提取范围的文本分类知识载体;
掩膜载体挖掘模块,用于获取从预设掩膜文本序列中挖掘的所述多特征提取范围的掩膜知识载体;
指引信息获取模块,用于获取所述待处理业务文本序列对应的文本标记指引信息;
知识特征抽取模块,用于针对所述多特征提取范围的每个特征提取范围,按照对应特征提取范围的所述文本分类知识载体和所述文本标记指引信息,对针对的特征提取范围内的掩膜知识载体进行知识特征抽取,获得多特征提取范围的文本知识载体;
知识还原模块,用于对所述多特征提取范围的文本知识载体进行多特征提取范围的知识还原,获得分类标记文本序列;所述分类标记文本序列包括所述待处理业务文本序列的文本分类信息,并且包括所述文本标记指引信息指引的文本标记;
数据存储模块,用于将所述分类标记文本序列进行存储。
10.一种数据存储服务器,其特征在于,包括:
处理器;
以及存储器,用于存储所述处理器的可执行指令;
其中,所述处理器被配置为经由执行所述可执行指令来执行权利要求1至8中任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311330031.9A CN117076596B (zh) | 2023-10-16 | 2023-10-16 | 应用人工智能的数据存储方法、装置及服务器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311330031.9A CN117076596B (zh) | 2023-10-16 | 2023-10-16 | 应用人工智能的数据存储方法、装置及服务器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117076596A true CN117076596A (zh) | 2023-11-17 |
CN117076596B CN117076596B (zh) | 2023-12-26 |
Family
ID=88713723
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311330031.9A Active CN117076596B (zh) | 2023-10-16 | 2023-10-16 | 应用人工智能的数据存储方法、装置及服务器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117076596B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200364409A1 (en) * | 2019-05-17 | 2020-11-19 | Naver Corporation | Implicit discourse relation classification with contextualized word representation |
CN112487306A (zh) * | 2020-12-07 | 2021-03-12 | 华东师范大学 | 基于知识图谱的自动化事件标记与分类方法 |
CN113919344A (zh) * | 2021-09-26 | 2022-01-11 | 腾讯科技(深圳)有限公司 | 文本处理方法和装置 |
CN114297987A (zh) * | 2022-03-09 | 2022-04-08 | 杭州实在智能科技有限公司 | 基于文本分类和阅读理解的文档信息抽取方法及系统 |
CN114330312A (zh) * | 2021-11-03 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 标题文本处理方法、装置、存储介质和程序 |
CN114818708A (zh) * | 2022-04-20 | 2022-07-29 | 北京百度网讯科技有限公司 | 关键信息抽取方法、模型训练方法、相关装置及电子设备 |
CN114969601A (zh) * | 2022-05-19 | 2022-08-30 | 北京智谱华章科技有限公司 | 一种基于深度学习的个人主页信息提取方法及装置 |
CN115374782A (zh) * | 2022-09-02 | 2022-11-22 | 中国电信股份有限公司 | 文本处理方法、装置、存储介质及电子设备 |
CN115640394A (zh) * | 2022-09-09 | 2023-01-24 | 平安科技(深圳)有限公司 | 文本分类方法、文本分类装置、计算机设备及存储介质 |
CN115994220A (zh) * | 2022-12-13 | 2023-04-21 | 中铁二院工程集团有限责任公司 | 一种基于语义挖掘的接触网文本数据缺陷识别方法及设备 |
CN116501898A (zh) * | 2023-06-29 | 2023-07-28 | 之江实验室 | 适用于少样本和有偏数据的金融文本事件抽取方法和装置 |
-
2023
- 2023-10-16 CN CN202311330031.9A patent/CN117076596B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200364409A1 (en) * | 2019-05-17 | 2020-11-19 | Naver Corporation | Implicit discourse relation classification with contextualized word representation |
CN112487306A (zh) * | 2020-12-07 | 2021-03-12 | 华东师范大学 | 基于知识图谱的自动化事件标记与分类方法 |
CN113919344A (zh) * | 2021-09-26 | 2022-01-11 | 腾讯科技(深圳)有限公司 | 文本处理方法和装置 |
CN114330312A (zh) * | 2021-11-03 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 标题文本处理方法、装置、存储介质和程序 |
CN114297987A (zh) * | 2022-03-09 | 2022-04-08 | 杭州实在智能科技有限公司 | 基于文本分类和阅读理解的文档信息抽取方法及系统 |
CN114818708A (zh) * | 2022-04-20 | 2022-07-29 | 北京百度网讯科技有限公司 | 关键信息抽取方法、模型训练方法、相关装置及电子设备 |
CN114969601A (zh) * | 2022-05-19 | 2022-08-30 | 北京智谱华章科技有限公司 | 一种基于深度学习的个人主页信息提取方法及装置 |
CN115374782A (zh) * | 2022-09-02 | 2022-11-22 | 中国电信股份有限公司 | 文本处理方法、装置、存储介质及电子设备 |
CN115640394A (zh) * | 2022-09-09 | 2023-01-24 | 平安科技(深圳)有限公司 | 文本分类方法、文本分类装置、计算机设备及存储介质 |
CN115994220A (zh) * | 2022-12-13 | 2023-04-21 | 中铁二院工程集团有限责任公司 | 一种基于语义挖掘的接触网文本数据缺陷识别方法及设备 |
CN116501898A (zh) * | 2023-06-29 | 2023-07-28 | 之江实验室 | 适用于少样本和有偏数据的金融文本事件抽取方法和装置 |
Non-Patent Citations (2)
Title |
---|
TONG HE ET AL.: "Text-Attentional Convolutional Neural Network for Scene Text Detection", 《IEEE TRANSACTIONS ON IMAGE PROCESSING》, pages 2529 - 2541 * |
何东彬 等: "主题模型自动标记方法研究综述", 《计算机科学与探索》, pages 1 - 22 * |
Also Published As
Publication number | Publication date |
---|---|
CN117076596B (zh) | 2023-12-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107679039B (zh) | 用于确定语句意图的方法和装置 | |
CN111222317B (zh) | 序列标注方法、系统和计算机设备 | |
CN110704633A (zh) | 命名实体识别方法、装置、计算机设备及存储介质 | |
CN106844413B (zh) | 实体关系抽取的方法及装置 | |
CN111737989A (zh) | 一种意图识别方法、装置、设备及存储介质 | |
CN110427612B (zh) | 基于多语言的实体消歧方法、装置、设备和存储介质 | |
CN111309910A (zh) | 文本信息挖掘方法及装置 | |
CN111160004B (zh) | 一种断句模型的建立方法及装置 | |
US20190088256A1 (en) | Human-machine interaction method and apparatus based on artificial intelligence | |
CN108229481B (zh) | 屏幕内容分析方法、装置、计算设备及存储介质 | |
CN110781284A (zh) | 基于知识图谱的问答方法、装置和存储介质 | |
CN116108857B (zh) | 信息抽取方法、装置、电子设备以及存储介质 | |
CN110633475A (zh) | 基于计算机场景的自然语言理解方法、装置、系统和存储介质 | |
CN111325031B (zh) | 简历解析方法及装置 | |
CN110851597A (zh) | 一种基于同类实体替换的语句标注的方法及装置 | |
CN113705207A (zh) | 语法错误识别方法及装置 | |
CN114842982B (zh) | 一种面向医疗信息系统的知识表达方法、装置及系统 | |
CN112084788A (zh) | 一种影像字幕隐式情感倾向自动标注方法及系统 | |
CN112783880A (zh) | 基于人工智能和大数据的数据解析方法及区块链服务平台 | |
CN117076596B (zh) | 应用人工智能的数据存储方法、装置及服务器 | |
CN113705559B (zh) | 基于人工智能的文字识别方法及装置、电子设备 | |
CN112528674B (zh) | 文本处理方法、模型的训练方法、装置、设备及存储介质 | |
CN114781386A (zh) | 文本纠错训练语料的获取方法、装置及电子设备 | |
CN114298032A (zh) | 文本标点检测方法、计算机设备及存储介质 | |
CN114647733B (zh) | 一种问答语料评估方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |