CN117473995A - 文本处理方法、装置、产品、设备和介质 - Google Patents

文本处理方法、装置、产品、设备和介质 Download PDF

Info

Publication number
CN117473995A
CN117473995A CN202311381730.6A CN202311381730A CN117473995A CN 117473995 A CN117473995 A CN 117473995A CN 202311381730 A CN202311381730 A CN 202311381730A CN 117473995 A CN117473995 A CN 117473995A
Authority
CN
China
Prior art keywords
entity
key
text
target
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311381730.6A
Other languages
English (en)
Inventor
刘海峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202311381730.6A priority Critical patent/CN117473995A/zh
Publication of CN117473995A publication Critical patent/CN117473995A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种文本处理方法、装置、产品、设备和介质,该方法包括:获取目标领域的目标文本及目标文本中的关键描述信息;关键描述信息用于描述目标文本中的关键内容;从目标文本中提取与目标领域相关的N个实体字段;将关键描述信息与N个实体字段中的各个实体字段进行组合处理,生成N个组合文本;基于N个组合文本预测N个实体字段的预测结果;该预测结果用于指示所属实体字段在目标文本中的关键度;基于N个实体字段的预测结果选取目标文本中的M个关键实体字段;M个关键实体字段反映目标文本在目标领域下表达的关键内容。采用本申请,可提升所获取的用于反映目标文本在目标领域下所表达的关键内容的关键实体字段的准确性。

Description

文本处理方法、装置、产品、设备和介质
技术领域
本申请涉及文本处理的技术领域,尤其涉及一种文本处理方法、装置、产品、设备和介质。
背景技术
在对目标领域的文章进行关键实体字段提取的场景下,会涉及到在文章中提取该文章在该目标领域下所描述的关键实体字段的操作。
现有应用中,可以人为定义在目标领域下的关键实体字段的筛选规则,进而,可以通过该筛选规则对文章中出现的实体字段进行筛选,从而筛选出文章在该目标领域下所描述的关键实体字段。
而由于目标领域下的文章千千万,因此,此种方式需要耗费大量人力来制定在目标领域下的关键实体字段的筛选规则,且该筛选规则带有人为的主观因素,从而还会导致所筛选出的关键实体字段并不准确的问题。
发明内容
本申请提供了一种文本处理方法、装置、产品、设备和介质,可提升所获取的用于反映目标文本在目标领域下所表达的关键内容的关键实体字段的准确性。
本申请一方面提供了一种文本处理方法,该方法包括:
获取目标领域的目标文本,并提取目标文本中的关键描述信息;关键描述信息是用于描述目标文本中的关键内容的信息;
从目标文本中提取与目标领域相关的N个实体字段;N为正整数;
将关键描述信息分别与N个实体字段中的各个实体字段进行组合处理,生成N个组合文本;
基于N个组合文本对N个实体字段进行关键性预测,得到各个实体字段的预测结果;任一实体字段的预测结果用于指示任一实体字段在目标文本中的关键度;
基于N个实体字段的预测结果,选取目标文本中的M个关键实体字段;M为正整数,M个关键实体字段用于反映目标文本在目标领域下所表达的关键内容。
本申请一方面提供了一种文本处理装置,该装置包括:
获取模块,用于获取目标领域的目标文本,并提取目标文本中的关键描述信息;关键描述信息是用于描述目标文本中的关键内容的信息;
提取模块,用于从目标文本中提取与目标领域相关的N个实体字段;N为正整数;
组合模块,用于将关键描述信息分别与N个实体字段中的各个实体字段进行组合处理,生成N个组合文本;
预测模块,用于基于N个组合文本对N个实体字段进行关键性预测,得到各个实体字段的预测结果;任一实体字段的预测结果用于指示任一实体字段在目标文本中的关键度;
选取模块,用于基于N个实体字段的预测结果,选取目标文本中的M个关键实体字段;M为正整数,M个关键实体字段用于反映目标文本在目标领域下所表达的关键内容。
可选的,预测模块基于N个组合文本对N个实体字段进行关键性预测,得到各个实体字段的预测结果的方式,包括:
获取各个实体字段分别在目标文本中的出现频次;
在各个组合文本中分别对各个组合文本所包含的实体字段在目标文本中的出现频次进行组合处理,生成N个目标组合文本;
基于N个目标组合文本对N个实体字段进行关键性预测,得到各个实体字段的预测结果。
可选的,预测模块基于N个目标组合文本对N个实体字段进行关键性预测,得到各个实体字段的预测结果的方式,包括:
调用关键实体识别网络基于各个目标组合文本,分别对各个实体字段进行关键性预测,生成各个实体字段的关键预测指数;任一实体字段的关键预测指数为任一实体字段的预测结果;
选取模块基于N个实体字段的预测结果,选取目标文本中的M个关键实体字段的方式,包括:
基于各个实体字段的关键预测指数,选取目标文本中的M个关键实体字段。
可选的,选取模块基于各个实体字段的关键预测指数,选取目标文本中的M个关键实体字段的方式,包括:
获取参考指数阈值;
将N个实体字段中关键预测指数大于或等于参考指数阈值的实体字段,确定为M个关键实体字段。
可选的,选取模块基于各个实体字段的关键预测指数,选取目标文本中的M个关键实体字段的方式,包括:
按照各个实体字段的关键预测指数的从大到小的顺序,对N个实体字段进行排序处理,得到排序后的实体字段;
将排序后的实体字段中的前M个实体字段,确定为M个关键实体字段。
可选的,上述装置还用于:
获取需训练的关键实体识别网络和样本集;样本集包含正样本和负样本;正样本是对样本文本的样本关键描述信息、样本文本中的样本关键实体字段、及样本关键实体字段在样本文本中的出现频次进行组合处理后得到的;负样本是对样本关键描述信息、样本文本中的非关键实体字段、及非关键实体字段在样本文本中的出现频次进行组合处理后得到的;
调用需训练的关键实体识别网络基于正样本对样本关键实体字段进行关键性预测,生成样本关键实体字段的第一关键预测指数;
调用需训练的关键实体识别网络基于负样本对非关键实体字段进行关键性预测,生成非关键实体字段的第二关键预测指数;
基于第一关键预测指数、第一指数边界值、第二关键预测指数和第二指数边界值,修正需训练的关键实体识别网络的网络参数,得到关键实体识别网络;第一指数边界值大于第二指数边界值。
可选的,上述装置基于第一关键预测指数、第一指数边界值、第二关键预测指数和第二指数边界值,修正需训练的关键实体识别网络的网络参数的方式,包括:
修正需训练的关键实体识别网络的网络参数,使第一关键预测指数趋近于第一指数边界值;以及,
修正需训练的关键实体识别网络的网络参数,使第二关键预测指数趋近于第二指数边界值。
可选的,上述装置还用于:
获取询问语句;询问语句包含样本关键描述信息及样本文本中与目标领域相关的K个样本实体字段;K为正整数;
将询问语句输入问答网络,并调用回答网络基于样本关键描述信息,输出K个样本实体字段中样本文本的样本关键实体字段;
将K个样本实体字段中除样本关键实体字段之外的样本实体字段确定为非关键实体字段,并获取样本关键实体字段和非关键实体字段分别在样本文本中的出现频次;
将样本关键描述信息、样本关键实体字段、及样本关键实体字段在样本文本中的出现频次进行组合处理,生成正样本;以及,
将样本关键描述信息、非关键实体字段、及非关键实体字段在样本文本中的出现频次进行组合处理,生成负样本。
可选的,提取模块从目标文本中提取与目标领域相关的N个实体字段的方式,包括:
调用实体提取网络从目标文本中提取与目标领域相关的第一实体字段;
基于目标领域的实体字段库从目标文本中匹配与目标领域相关的第二实体字段;
其中,N个实体字段包括第一实体字段和第二实体字段。
可选的,上述装置还用于:
获取需训练的实体提取网络,并获取样本文本;样本文本具有样本标签,样本标签用于指示样本文本中实际与目标领域相关的样本实体字段;
调用需训练的实体提取网络从样本文本中提取与目标领域相关的样本实体字段;
基于提取的样本实体字段与样本标签所指示的样本实体字段之间的差异,修正需训练的实体提取网络的网络参数,得到实体提取网络。
可选的,获取模块提取目标文本中的关键描述信息的方式,包括:
获取针对文本的一个或多个关键内容提取位置;
基于一个或多个关键内容提取位置提取目标文本中的局部文本;一个关键内容提取位置用于提取得到目标文本的一个局部文本;
对基于一个或多个关键内容提取位置所提取的一个或多个局部文本进行组合处理,生成关键描述信息。
可选的,目标文本为目标对象触发过对象操作的文本;上述装置还用于:
基于目标文本的M个关键实体字段,为目标对象添加对象标签;
其中,对象操作包括如下至少一种:点赞操作、转发操作、评论操作、收藏操作、浏览操作。
可选的,上述装置还用于:
基于对象标签,获取目标领域下针对目标对象的推送内容;
将推送内容推送至目标对象的对象终端,使对象终端输出推送内容。
本申请一方面提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行本申请中一方面中的方法。
本申请一方面提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时使该处理器执行上述一方面中的方法。
根据本申请的一个方面,提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序,处理器执行该计算机程序,使得该计算机设备执行上述一方面等各种可选方式中提供的方法。
本申请获取目标领域的目标文本,并提取目标文本中的关键描述信息;关键描述信息是用于描述目标文本中的关键内容的信息;从目标文本中提取与目标领域相关的N个实体字段;N为正整数;将关键描述信息分别与N个实体字段中的各个实体字段进行组合处理,生成N个组合文本;基于N个组合文本对N个实体字段进行关键性预测,得到各个实体字段的预测结果;任一实体字段的预测结果用于指示任一实体字段在目标文本中的关键度;基于N个实体字段的预测结果,选取目标文本中的M个关键实体字段;M为正整数,M个关键实体字段用于反映目标文本在目标领域下所表达的关键内容。由此可见,本申请提出的方法可以对目标文本中的关键描述信息与目标文本中目标领域相关的各个实体字段分别进行组合处理,以得到目标文本中目标领域相关的各个实体字段分别所属的组合文本,进而,可以基于各个实体字段分别所属的组合文本来对各个实体字段进行关键性预测,以得到各个实体字段的预测结果,由于该预测结果是基于实体字段本身并结合上目标文本中的关键描述信息一起预测得到的,因此,可以保证各个实体字段的预测结果的准确性,后续,通过各个实体字段准确的预测结果,也可以准确地选取用于反映目标文本在目标领域下所表达的关键内容的关键实体字段。
附图说明
为了更清楚地说明本申请或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种网络架构的结构示意图;
图2是本申请实施例提供的一种文本处理的场景示意图;
图3是本申请实施例提供的一种文本处理方法的流程示意图;
图4是本申请实施例提供的一种关键性预测的场景示意图;
图5是本申请实施例提供的一种选取实体字段的场景示意图;
图6是本申请实施例提供的一种识别核心实体的框架示意图;
图7是本申请实施例提供的一种关键实体识别网络的获取方法的流程示意图;
图8是本申请实施例提供的一种网络训练的场景示意图;
图9是本申请实施例提供的一种文本处理装置的结构示意图;
图10是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请中的附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请涉及到人工智能相关技术。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请中主要涉及到了人工智能中的机器学习。其中,机器学习(MachineLearning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
本申请中涉及到通过机器学习得到的用于对关键实体字段进行识别的关键实体识别网络、通过机器学习得到的用于进行实体字段的提取的实体提取网络、以及通过机器学习得到的问答网络,具体可以参见下述各实施例中的相关描述。
首先,需要进行说明的是,本申请所采集的所有数据(如目标文本以及目标文本中的实体字段等相关数据)都是在该数据所属对象(如用户、机构或者企业)同意并授权的情况下进行采集的,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
此处,对本申请涉及的相关技术概念进行说明:
NER:Named Entity Recognition,命名为实体识别,一种旨在识别文本中感兴趣的实体的任务,如识别文本中的位置、组织、时间等。
BERT:Bidirectional Encoder Representations from Transformers,一种自然语言处理模型,是一个深度双向、无监督训练的语言模型,目前在NLP(自然语言)领域得到广泛使用。
ChatGPT:Chat Generative Pre-trained Transformer,一种聊天机器人程序。ChatGPT是利用人工智能技术驱动的自然语言处理工具,它能够基于在预训练阶段所见的模式和统计规律,来生成回答,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流,甚至能完成撰写邮件、视频脚本、文案、翻译、代码以及论文等任务。
请参见图1,图1是本申请实施例提供的一种网络架构的结构示意图。如图1所示,网络架构可以包括服务器200和终端设备集群,终端设备集群可以包括一个或者多个终端设备,这里将不对终端设备的数量进行限制。如图1所示,多个终端设备具体可以包括终端设备1、终端设备2、终端设备3、…、终端设备n;如图1所示,终端设备1、终端设备2、终端设备3、…、终端设备n均可以与服务器200进行网络连接,以便于每个终端设备可以通过网络连接与服务器200之间进行数据交互。
如图1所示的服务器200可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备可以是:智能手机、平板电脑、笔记本电脑、桌上型电脑、智能电视、车载终端等智能终端。下面以终端设备1与服务器200之间的通信为例,进行本申请实施例的具体描述。
请一并参见图2,图2是本申请实施例提供的一种文本处理的场景示意图。如图2所示,服务器200可以获取到目标对象的目标文本,可选的,该目标文本可以是目标对象触发过(即历史执行过)相应对象操作的文章等,该对象操作可以是点赞操作、评论操作、转发操作、收藏操作、浏览操作,等等,该对象操作可以自行进行设定,目标对象对目标文本执行对象操作可以在一定程度上反映出目标对象对目标文本感兴趣。其中,目标对象可以是用户。
上述目标文本可以是目标领域的文章。服务器200可以提取目标文本中的关键描述信息,该关键描述信息可以是用于描述目标文本中的关键内容的信息。服务器200还可以从目标文本中提取与目标领域相关的N个实体字段,N为正整数,N的具体取值需要根据实际提取得到的实体字段的数量确定。
进而,服务器200可以对目标文本中提取的各个实体字段分别与目标文本中的关键描述信息进行组合处理,以此可以生成N个组合文本。服务器200可以通过该N个组合文本对上述N个实体字段进行关键性预测,以得到各个实体字段的预测结果,任一实体字段的预测结果就可以用于表征该任一实体字段在目标文本中的关键度(即重要度)。
因此,服务器200可以通过各个实体字段的预测结果,来选取目标文本的M个关键实体字段,该M个关键实体字段就可以用于反映(或者说用于指示)目标文本在目标领域所表达的关键内容,上述关键描述信息也可以是围绕着该M个关键实体字段进行描述的信息。上述具体过程也可以参见下述各实施例中的相关描述。
由于目标文本可以是目标对象浏览过且感兴趣的文章,因此,服务器可以通过上述所选取的M个关键实体字段为目标对象添加对象标签,后续还可以通过为目标对象添加的对象标签,在目标领域下对目标对象进行内容推送,如终端设备1可以是目标对象的终端设备,服务器200可以向终端设备1推送与该M个关键实体字段相关联的广告,以此实现对目标对象的内容推送。
采用本申请的上述方法,通过结合目标文本的关键描述信息来对目标文本中与目标领域相关的各个实体字段的关键性预测,可以提升对各个实体字段进行关键性预测的准确性,进而选取出目标文本准确的关键实体字段,通过目标文本准确的关键实体字段也可以更能准确地反映出目标文本在目标领域所表达的关键内容。
请参见图3,图3是本申请实施例提供的一种文本处理方法的流程示意图。本申请实施例中的执行主体可以是文本处理设备,该文本处理设备可以是一个计算机设备或者是多个计算机设备构成的计算机设备集群,该计算机设备可以是服务器,也可以是终端设备,或者是其他设备,对此不做限制。如图3所示,该方法可以包括:
步骤S101,获取目标领域的目标文本,并提取目标文本中的关键描述信息;关键描述信息是用于描述目标文本中的关键内容的信息。
可选的,文本处理设备可以获取到目标领域的目标文本,目标领域可以是想要进行关键实体识别的任意领域,目标文本可以是目标领域下的任意文本。
例如,目标领域可以是医疗领域,目标领域的目标文本可以是医疗领域的文章、论文或者博客,等等。
文本处理设备还可以在目标文本中提取目标文本的关键描述信息,该关键描述信息可以是用于描述目标文本中的关键内容的信息,即该关键描述信息可以是用于描述目标文本的重要内容(也可以理解为是中心思想)的信息,该关键描述信息也可以是文本。目标文本的关键内容即为目标文本重点描述的内容,如重点描述的针对某种病症的内容,等等。
例如,目标文本的关键描述信息可以包含目标文本的标题以及目标文本的正文内容中的部分内容(如正文内容的第1句或者第1段)。因此,文本处理设备可以提取目标文本中的标题信息,并提取目标文本的正文内容中的第1句或者第1段,进而将该标题信息和该目标文本的正文内容中的第1句或者第1段进行组合处理(如拼接处理),即可得到目标文本的关键描述信息。
其中,由于一篇文章中通常会在第1段或者在第1段的第1句进行重要内容的概述性的描述,因此,目标文本的关键描述信息可以包含目标文本的正文内容中的第1句或者第1段。
在一种可行的实施方式中,文本处理设备可以获取到针对文本的一个或多个关键内容提取位置,该一个或多个关键内容提取位置可以是预设的能够表示文本中的重要内容(即关键内容,也可以称为主旨内容)所在的主要位置,如该一个或多个关键内容提取位置可以包含标题位置以及正文第1句的位置或者正文第1段的位置。
因此,文本处理设备可以通过上述一个或多个关键内容提取位置,提取目标文本中的局部文本,一个关键内容提取位置就可以用于提取得到目标文本的一个局部文本。如若一个关键内容提取位置是标题位置,则通过该关键内容提取位置所提取得到的局部文本就可以是目标文本中的标题信息(可以简称标题);再如,若一个关键内容提取位置是正文内容的第1句的位置,则通过该关键内容提取位置所提取得到的局部文本就可以是目标文本的正文内容中的第1句。
进而,文本处理设备可以对通过上述一个或多个关键内容提取位置对目标文本所提取得到的一个或多个局部文本,进行组合处理(如拼接处理),即可生成目标文本的关键描述信息,目标文本的关键描述信息就可以包含通过上述一个或多个关键内容提取位置对目标文本所提取得到的一个或多个局部文本。
可选的,本申请获取的上述目标文本还可以是目标对象触发过对象操作的文本,该对象操作可以是如下任一种,或者该对象操作可以包括如下至少一种:点赞操作、转发操作、评论操作、收藏操作、浏览操作,等等。如目标文本可以是目标对象历史执行过收藏操作的文章,等等。
其中,目标文本可以是内容交互平台中的文本,如目标文本可以是该内容交互平台中可以阅览的文章等,目标对象可以是该内容交互平台中的任意用户,若目标对象对该内容交互平台中的目标文本历史执行过相应的用户操作(即上述对象操作),则可以表示目标对象对该目标文本所描述的内容是具有兴趣的,因此,后续,对目标文本所选取的目标领域相关的关键实体字段也可以用于为该目标对象添加对象标签或者作为目标对象的对象特征,用于对目标对象进行后续的业务处理(如针对目标对象在目标领域下的其他内容的推送业务),等等。具体可以参见下述内容描述。
其中,上述内容交互平台可以是软件、网页或者小程序等任意形式的平台。
步骤S102,从目标文本中提取与目标领域相关的N个实体字段;N为正整数。
可选的,文本处理设备可以从目标文本中提取与目标领域相关的N个实体字段,N为正整数,N的具体取值可以根据实际应用场景确定,该N个实体字段可以包含目标文本中与目标领域相关的所有实体字段。
本申请中,实体字段也可以简称为实体。可选的,若目标领域为医疗领域,则与目标领域相关的一个实体字段可以是与医疗领域相关的一个病症名。
其中,文本处理设备可以获取到实体提取网络(可以是NER网络),该实体提取网络是训练好的可以用于对目标领域相关的实体进行提取的网络。因此,文本处理设备可以将上述目标文本输入该实体提取网络,以调用该实体提取网络,从目标文本中提取与目标领域相关的实体字段,可以将通过实体提取网络从目标文本中提取的与目标领域相关的实体字段,称之为是第一实体字段,该第一实体字段可以有一个或多个,该第一实体字段的具体数量也可以根据实际应用场景确定。
其中,训练得到上述实体提取网络的过程,可以包括:
文本处理设备可以获取需训练的实体提取网络,并可以获取样本文本,该样本文本可以具有样本标签,该样本标签可以用于指示样本文本中实际与目标领域相关的样本实体字段,换句话说,该样本标签可以用于表示对样本文本所标记的真实与目标领域相关的各个样本实体字段。该样本文本也可以是目标领域的文本,如样本文本也可以是目标领域下的文章或论文等。
文本处理设备可以将上述样本文本输入上述需训练的实体提取网络,以调用该需训练的实体提取网络从样本文本中提取与目标领域相关的样本实体字段,该提取的样本实体字段也就是通过该需训练的实体提取网络所预测的样本文本中与目标领域相关的实体字段。
进而,文本处理设备可以通过上述从样本文本中提取的样本实体字段与样本文本的样本标签所指示的实际的样本实体字段之间的差异,来修正需训练的实体提取网络的网络参数,修正需训练的实体提取网络的网络参数的目的,就是使得该差异趋于最小值(如趋于0),即使得该差异最小化。
当对该需训练的实体提取网络的网络参数修正完成后(如按照上述过程进行迭代训练的迭代次数大于或等于设定的迭代次数阈值,或者该需训练的实体提取网络的网络参数被训练至收敛状态后),即可将此时需训练的实体提取网络作为是上述训练好的实体提取网络。
此外,文本处理设备还可以通过目标领域的实体字段库,从目标文本中匹配与目标领域相关的实体字段,如从目标文本中匹配存在于该实体字段库的实体字段。可以将通过该实体字段库在目标文本中所匹配得到的实体字段称之为是第二实体字段,该第二实体字段也可以是一个或多个。该第二实体字段可以同时包含于目标文本以及该实体字段库。
上述实体字段库可以是预先构建的,该实体字段库包含与目标领域相关的若干实体字段。例如,若本申请需要从目标文本中选取目标文本在医疗领域下所表达的关键内容的病症名,则目标领域的该实体字段库就可以包含医疗领域下的各种病症的病症名,该各种病症的病症名就为所构建的实体字段库中与医疗领域相关的实体字段。
进而,文本处理设备可以将上述通过实体提取网络从目标文本中提取得到的第一实体字段、以及通过实体字段库从目标文本中匹配得到的第二实体字段进行合并(合并后可以对所存在的相同的多个实体字段进行去重),即可得到N个实体字段,该N个实体字段就包括该提取得到的第一实体字段以及该匹配得到的第二实体字段。
通过采用实体提取网络以及实体字段库两种方式,一起识别目标文本中与目标领域相关的实体字段,可以让该两种方式起到一个互相弥补的作用,如通过实体字段库对目标文本匹配得到的实体字段,可以对实体提取网络漏提取的实体字段进行补充,通过实体提取网络对目标文本提取得到的实体字段,也可以对实体字段库漏匹配的实体字段进行补充。因此,通过该两种方式,可以提取得到目标文本中与目标领域相关的完善的实体字段集(即上述N个实体字段)。
步骤S103,将关键描述信息分别与N个实体字段中的各个实体字段进行组合处理,生成N个组合文本。
可选的,文本处理设备可以将目标文本的关键描述信息分别与上述N个实体字段中的各个实体字段进行组合处理(如拼接处理),以生成N个组合文本,目标文本的关键描述信息与N个实体字段中的一个实体字段进行组合处理,可以得到该实体字段所属的一个组合文本。
换句话说,一个组合文本可以包含目标文本的关键描述信息以及目标文本中与目标领域相关的一个实体字段,因此,通过将目标文本的关键描述信息以及上述N个实体字段,共可以生成N个组合文本。
步骤S104,基于N个组合文本对N个实体字段进行关键性预测,得到各个实体字段的预测结果;任一实体字段的预测结果用于指示任一实体字段在目标文本中的关键度。
可选的,文本处理设备可以通过上述生成的N个组合文本,对上述N个实体字段进行关键性预测,即可得到各个实体字段的预测结果。一个组合文本用于对所包含的一个实体字段进行关键性预测,以得到该实体字段的预测结果,或者该预测结果也可以称之为是该组合文本的预测结果,任一实体字段的预测结果可以用于指示该任一实体字段在目标文本中的关键度(即重要度),如下述内容描述。
具体的,由于各个实体字段在目标文本中的出现频次也是决定实体字段在目标文本中是否关键(即是否重要)的重要因素,因此,文本处理设备还可以获取N个实体字段中的各个实体字段分别在目标文本中的出现频次,任一实体字段在目标文本中的出现频次可以是该实体字段在目标文本中总共出现的次数(即被描述的总次数)。
进而,文本处理设备可以在各个组合文本中分别对该各个组合文本所包含的实体字段在目标文本中的出现频次进行组合处理(如拼接处理),可以生成N个目标组合文本。一个目标组合文本就为在一个组合文本中组合上该组合文本包含的实体字段在目标文本中的出现频次后得到的。
文本处理设备可以通过上述N个目标组合文本,对上述N个实体字段进行关键性预测,以得到该N个实体字段中的各个实体字段的预测结果,一个实体字段可以具有一个预测结果。
其中,文本处理设备可以获取到关键实体识别网络,该关键实体识别网络可以是训练好的可以通过上述N个目标组合文本,对N个实体字段进行关键性预测的网络。
因此,文本处理设备可以将上述N个目标组合文本输入该关键实体识别网络,以调用该关键实体识别网络通过各个目标组合文本,分别对各个实体字段进行关键性预测,以生成各个实体字段的关键预测指数。即关键实体识别网络对一个目标组合文本的预测处理(可以理解为基于该目标组合文本对该目标组合文本中所组合的实体字段的预测处理),可以得到该目标组合文本中组合的实体字段的一个关键预测指数(也可以将该关键预测指数称之为是该目标组合文本的关键预测指数),该关键预测指数就用于反映该目标组合文本中所组合的实体字段在目标文本中的关键度。
其中,任一实体字段的关键预测指数就可以是该任一实体字段的预测结果,该关键预测指数可以是通过该关键实体识别网络基于该任一实体字段所属的目标组合文本,对该任一实体字段所预测得到的关键预测概率(也可以理解为是分数值)。
可以理解的是,该关键预测指数的值越大,就表明该关键预测指数所属的实体字段在目标文本中就越关键(即越重要),反之,该关键预测指数的值越小,就表明该关键预测指数所属的实体字段在目标文本中就越不关键(即越不重要)。
请参见图4,图4是本申请实施例提供的一种关键性预测的场景示意图。如图4所示,可以将上述N个实体字段中的各个实体字段分别与目标文本的关键描述信息以及各个实体字段在目标文本中的出现频次进行组合处理,以生成各个实体字段所属的目标组合文本。
如此处,N个实体字段可以包括实体字段1~实体字段N,可以将实体字段1、关键描述信息以及实体字段1在目标文本中的出现频次进行组合处理,生成实体字段1所属的目标组合文本1。
同理,可以将实体字段2、关键描述信息以及实体字段2在目标文本中的出现频次进行组合处理,生成实体字段2所属的目标组合文本2;…;可以将实体字段N、关键描述信息以及实体字段N在目标文本中的出现频次进行组合处理,生成实体字段N所属的目标组合文本N。
进而,可以将上述目标组合文本1~目标组合文本N,输入关键实体识别网络,以调用该关键实体识别网络对各个实体字段所属的目标组合文本进行关键性预测(可以理解为是通过目标组合文本对各个实体字段进行关键性预测),即可生成各个实体字段的关键预测指数,包括此处实体字段1的关键预测指数1~实体字段N的关键预测指数N。
其中,训练得到上述关键实体识别网络的具体过程,可以参见下述图7对应实施例中的相关描述。
步骤S105,基于N个实体字段的预测结果,选取目标文本中的M个关键实体字段;M为正整数,M个关键实体字段用于反映目标文本在目标领域下所表达的关键内容。
可选的,文本处理设备可以通过上述N个实体字段的关键预测指数,来选取目标文本中的M个关键实体字段,M为正整数,M的具体取值可以根据实际应用场景确定。选取的M个关键实体字段即可以用于反映目标文本在目标领域下所表达的关键内容,如表达的关键内容就可以是用于描述该M个关键实体字段的内容,换句话说,该M个关键实体字段即为对目标文本所提取的可以用于反映目标文本所描述的主要内容(主旨内容)的实体字段。
例如,目标领域可以是医疗领域,M个关键实体字段可以是目标文本在医疗领域下所描述的一种或多种核心病症名,也就表明目标文本全文可以主要是围绕着该一种或多种核心病症名所指示的核心病症进行描述的。
文本处理设备可以通过上述N个实体字段中的各个实体字段的关键预测指数,选取目标文本的M个关键实体字段的具体方式,如下述内容描述。
第1种方式:文本处理设备可以获取到参考指数阈值,该参考指数阈值可以是预先设定的用于选取关键实体字段的最小关键预测指数,该参考指数阈值的具体数值可以根据实际应用场景进行设定。
因此,可以将一个实体字段的关键预测指数称之为是该实体字段对应的关键预测指数,文本处理设备可以将N个实体字段中对应的关键预测指数大于或等于该参考指数阈值的实体字段,作为是上述M个关键实体字段。换句话说,此种情况下,M个关键实体字段可以包括N个实体字段中对应的关键预测指数大于或等于该参考指数阈值的实体字段,M的具体数值可以是动态确定的,而不是预先设定的,M的具体数值即等于N个实体字段中对应的关键预测指数大于或等于该参考指数阈值的实体字段的数量。
第2种方式:可以是topM(即最大的M个或者排序在前的M个)的方式。文本处理设备可以按照各个实体字段的关键预测指数的从大到小的顺序,对N个实体字段进行排序处理,得到排序后的实体字段,即在该排序后的实体字段中,对应的关键预测指数越大的实体字段可以排在越前面,反之,对应的关键预测指数越小的实体字段可以排在越后面。
进而,文本处理设备可以将上述排序后的实体字段中的前M个实体字段,作为是M个关键实体字段。此种情况下,M的数值可以是预先设定的固定数值,该M个关键实体字段即为N个实体字段中对应的关键预测指数最大的M个实体字段。
请参见图5,图5是本申请实施例提供的一种选取实体字段的场景示意图。如图5所示,目标文本中的N个实体字段可以具有各自的关键预测指数,文本处理设备可以按照各个实体字段具有的关键预测指数的从大到小的顺序,对N个实体字段进行排序处理,可以得到排序后的N个实体字段(即上述排序后的实体字段)。
得到排序后的N个实体字段后,文本处理设备就可以获取排序后的N个实体字段中排序在前的M个实体字段,并将该M个实体字段作为是所选取的目标文本中的M个关键实体字段。M小于N。
更多的,在获取到上述M个关键实体字段后,就可以通过将该M个关键实体字段应用于目标文本相关联的其他业务场景中。
例如,提取的该M个关键实体字段可以作为是目标文本自身的文本标签(如文章标签),应用于文章搜索的场景中。如在文章搜索场景中,如当用户输入的搜索内容包含该目标文本的文本标签时,可以将目标文本作为搜索结果返回给用户。
再如,目标文本可以是目标对象触发过(即历史执行过)对象操作的文本,因此,本申请还可以通过上述目标文本的M个关键实体字段,为目标对象添加对象标签(如用户标签),如可以直接将该M个关键实体字段,添加为目标对象的对象标签。该对象标签可以作为是目标对象自身的一种画像的标签,或者作为目标对象的兴趣标签。
进而,文本处理设备可以通过为目标对象添加的上述对象标签,获取目标领域下针对目标对象的推送内容,该推送内容可以是目标领域下与上述M个关键实体字段相关的任意内容,如该推送内容可以是推送给目标对象的广告,该广告中可以包含与上述M个关键实体字段相关的产品。
例如,若目标领域是医疗领域,上述M个关键实体字段可以是M种病症名,上述推送内容为推送给目标对象的广告,则该广告中推荐的产品可以是用于治疗该M种病症名所属病症的药品或者器械,等等。
文本处理设备可以将上述推送内容推送至目标对象的对象终端,使得该对象终端就可以输出该推送内容(如在内容交互平台中输出该推送内容),以此就实现了对目标对象的内容推送。
请参见图6,图6是本申请实施例提供的一种识别核心实体的框架示意图。文本处理设备可以基于多种数据源获取到目标对象触发过对象操作的若干文本(可以是若干文章),如可以通过新闻资源获取到目标对象触发过对象操作的新闻类文章,可以通过公众号获取到公众号中目标对象触发过对象操作的文章,可以通过网页获取到网页上目标对象触发过对象操作的论文,等等。
文本处理设备可以对上述获取到的若干文本进行行业分类(即文本分类或者文章分类),以从该若干文本中提取出目标领域的文章(如医疗行业的文章),该目标领域的文章可以包含上述目标文本,目标文本可以是目标对象触发过对象操作的任一文本。
进而,文本处理设备可以对提取出的该目标领域的文章进行实体抽取,以抽取出该目标领域的文章中的多个病症(即上述N个实体字段),进而,可以基于该目标领域的文章的关键描述信息,在该多个病症中进行核心实体的识别(即核心病症的识别),以识别出若干核心病症,该若干核心病症即为上述M个关键实体字段,即核心病症的识别可以是关键实体字段的识别。
文本处理设备还可以通过上述所提取的若干核心病症对目标对象进行关联,如可以将该若干核心病症作为是目标对象的对象标签,后续,可以通过该对象标签向目标对象推送与该核心病症相关的广告等。
本申请获取目标领域的目标文本,并提取目标文本中的关键描述信息;关键描述信息是用于描述目标文本中的关键内容的信息;从目标文本中提取与目标领域相关的N个实体字段;N为正整数;将关键描述信息分别与N个实体字段中的各个实体字段进行组合处理,生成N个组合文本;基于N个组合文本对N个实体字段进行关键性预测,得到各个实体字段的预测结果;任一实体字段的预测结果用于指示任一实体字段在目标文本中的关键度;基于N个实体字段的预测结果,选取目标文本中的M个关键实体字段;M为正整数,M个关键实体字段用于反映目标文本在目标领域下所表达的关键内容。由此可见,本申请提出的方法可以对目标文本中的关键描述信息与目标文本中目标领域相关的各个实体字段分别进行组合处理,以得到目标文本中目标领域相关的各个实体字段分别所属的组合文本,进而,可以基于各个实体字段分别所属的组合文本来对各个实体字段进行关键性预测,以得到各个实体字段的预测结果,由于该预测结果是基于实体字段本身并结合上目标文本中的关键描述信息一起预测得到的,因此,可以保证各个实体字段的预测结果的准确性,后续,通过各个实体字段准确的预测结果,也可以准确地选取用于反映目标文本在目标领域下所表达的关键内容的关键实体字段。
请参见图7,图7是本申请实施例提供的一种关键实体识别网络的获取方法的流程示意图。如图7所示,该方法可以包括:
步骤S201,获取需训练的关键实体识别网络和样本集;样本集包含正样本和负样本;正样本是对样本文本的样本关键描述信息、样本文本中的样本关键实体字段、及样本关键实体字段在样本文本中的出现频次进行组合处理后得到的;负样本是对样本关键描述信息、样本文本中的非关键实体字段、及非关键实体字段在样本文本中的出现频次进行组合处理后得到的。
可选的,文本处理设备可以获取到需训练的关键实体识别网络,并获取到用于训练该需训练的关键实体识别网络的样本集。可选的,该需训练的关键实体识别网络可以是BERT网络(一种自然语言处理的网络),在一些场景下,也可以是其他类型的网络,对此不做限制。
上述样本集中可以包含若干正样本和若干负样本。样本集中的一个正样本可以是对样本文本的样本关键描述信息、样本文本中的一个样本关键实体字段(可以是用于反映样本文本在目标领域下所表达的关键内容的实体字段)以及该个样本关键实体字段在样本文本中的出现频次进行组合处理(如拼接处理)后得到的。
其中,需要进行说明的是,样本文本的样本关键描述信息的概念与上述目标文本的关键描述信息的概念是相同的,两者的获取原理也可以是相同的。样本文本中的样本关键实体字段的概念与目标文本中的关键实体字段的概念是相同的,两者的获取原理也是相同的。同理,该样本关键实体字段在样本文本中的出现频次的概念与该关键实体字段在目标文本中的出现频次的概念也是相同的。
样本集中的一个负样本可以是对样本文本的上述样本关键描述信息、样本文本中的一个非关键实体字段以及该个非关键实体字段在样本文本中的出现频次进行组合处理(如拼接处理)后得到的。
因此,可以理解的是,上述负样本的概念以及正样本的概念,与上述目标组合文本的概念是类似的,生成原理也是相同的。
其中,本申请可以利用问答网络来构建(即生成)上述正样本和负样本,该问答网络可以预先训练好的可以模拟人类进行问答对话的网络,向该问答网络输入问题,该问答网络即可给到相应的回答,如该问答网络可以是ChatGpt网络(一种聊天工具所使用的神经网络)。该过程可以包括:
文本处理设备可以获取到询问语句(可以表示为prompt,属于问题),该询问语句可以包含上述样本关键描述信息以及样本文本中与目标领域相关的K个样本实体字段,K为正整数。其中,获取样本文本中的该K个样本实体字段的原理与获取上述目标文本中的N个实体字段的原理可以是相同的。
例如,上述询问语句可以是“你现在是医药行业的专家,请从提供的病症列表中找出与输入的文章内容相关的核心病症;提供的病症列表为:[病症列表],输入的文章内容:[输入文本]”,该询问语句中的[病症列表]处就可以填入上述K个样本实体字段,该询问语句中的[输入文本]处就可以填入上述样本关键描述信息。
可见,上述询问语句的主要作用就是通过样本关键描述信息询问上述问答网络,样本文本包含的K个样本实体字段中哪些属于样本文本的关键实体字段,即哪些样本实体字段可以用于反映样本文本在目标领域下所表达的关键内容。
上述询问语句可以是本申请所特定设计的用于构建针对需训练的关键实体识别网络的样本集的语句。如询问语句的统一格式可以为“你现在是目标领域的专家,请从提供的实体字段列表中找出与输入的文本内容相关的核心实体字段;提供的实体字段列表为:[实体列表],输入的文本内容:[输入文本]”,该询问语句中的[实体列表]处就可以填入上述K个样本实体字段,该询问语句中的[输入文本]处就可以填入上述样本关键描述信息。其中,核心实体字段即为关键实体字段。
因此,文本处理设备可以将上述询问语句输入问答网络,以调用该问答网络基于上述样本关键描述信息,输出上述K个样本实体字段中样本文本的一个或多个样本关键实体字段,输出的该一个或多个样本关键实体字段即为问答网络就询问语句所输出的回答。
其中,文本处理设备还可以将上述K个样本实体字段中除问答网络输出的样本关键实体字段之外的样本实体字段,作为是样本文本中的非关键实体字段。
文本处理设备还可以获取样本关键实体字段和非关键实体字段分别在样本文本中的出现频次。进而,文本处理设备可以将上述样本关键描述信息、样本关键实体字段以及该样本关键实体字段在样本文本中的出现频次进行组合处理(如拼接处理),即可生成正样本,样本关键描述信息、一个样本关键实体字段以及该个样本关键实体字段在样本文本中的出现频次可以用于生成一个正样本。
同理,文本处理设备可以将上述样本关键描述信息、非关键实体字段以及该非关键实体字段在样本文本中的出现频次进行组合处理(如拼接处理),即可生成负样本,样本关键描述信息、一个非关键实体字段以及该个非关键实体字段在样本文本中的出现频次可以用于生成一个负样本。
通过上述方式,即可通过问答网络快速且便捷的生成针对需训练的关键实体识别网络的样本集,以此可以节省构建针对需训练的关键实体识别网络的样本集的相关人力和物力开销。
可选的,本申请获取上述样本文本的方式,可以包括:本申请可以从多种数据源(如网页、公众号、软件等来源)获取到大量的文本(如文章),还可以获取到文本分类网络,该文本分类网络可以是训练好的用于对多种类型的文本进行识别和分类的网络,该多种类型的文本就可以包含目标领域的文本,即目标领域的文本可以属于该文本分类网络可以识别和分类的一种文本类型。
因此,本申请可以调用该文本分类网络,对从多种数据源获取到的大量的文本中的各个文本分别进行分类处理,并可以将分类为目标领域的文本类型的文本抽取出来,作为上述样本文本。样本文本可以有若干个,样本文本的具体数量也可以根据实际应用场景确定,对此不做限制。
步骤S202,调用需训练的关键实体识别网络基于正样本对样本关键实体字段进行关键性预测,生成正样本的第一关键预测指数。
可选的,由于针对各个正样本的预测过程都是相同且独立的,因此,下述是以对一个正样本的预测过程为例进行具体说明。文本处理设备可以调用需训练的关键实体识别网络,通过上述正样本对正样本所包含的样本关键实体字段进行关键性预测,以生成该正样本包含的样本关键实体字段的关键预测指数,可以将该正样本包含的样本关键实体字段的关键预测指数称之为是第一关键预测指数。
其中,该第一关键预测指数就可以用于反映需训练的关键实体识别网络所识别的、样本关键实体字段在样本文本中的关键度(即重要度)。
步骤S203,调用需训练的关键实体识别网络基于负样本对非关键实体字段进行关键性预测,生成非关键实体字段的第二关键实体预测指数。
可选的,同理,文本处理设备还可以调用需训练的关键实体识别网络,通过上述负样本对负样本所包含的非关键实体字段进行关键性预测,以生成该负样本包含的非关键实体字段的关键预测指数,可以将负样本包含的非关键实体字段的关键预测指数称之为是第二关键预测指数。
其中,该第二关键预测指数就可以用于反映需训练的关键实体识别网络所识别的、非关键实体字段在样本文本中的关键度(即重要度)。
步骤S204,基于第一关键预测指数、第一指数边界值、第二关键预测指数和第二指数边界值,修正需训练的关键实体识别网络的网络参数,得到关键实体识别网络;第一指数边界值大于第二指数边界值。
可选的,文本处理设备可以通过上述获得的第一关键预测指数、第一指数边界值、第二关键预测指数以及第二指数边界值,修正上述需训练的关键实体识别网络的网络参数。
其中,第一指数边界值和第二指数边界值可以构成需训练的关键实体识别网络对实体字段所预测的关键预测指数的范围,第一指数边界值大于第二指数边界值,如第一指数边界值可以为1,第二指数边界值可以为0。
因此,通过上述第一关键预测指数、第一指数边界值、第二关键预测指数以及第二指数边界值,修正上述需训练的关键实体识别网络的网络参数的原理,可以包括:修正需训练的关键实体识别网络的网络参数,使得第一关键预测指数趋于最大值,如趋于第一指数边界值;以及,修正需训练的关键实体识别网络的网络参数,使得第二关键预测指数趋于最小值,如趋于第二指数边界值。
文本处理设备可以通过上述原理,采用大量的正样本和负样本不断迭代修正需训练的关键实体识别网络的网络参数,当对该需训练的关键实体识别网络的网络参数修正完成时(如对需训练的关键实体识别网络的迭代训练次数大于或等于迭代次数阈值,或者对需训练的关键实体识别网络的网络参数训练至收敛状态时),即可将此时的需训练的关键实体识别网络作为是训练好的上述关键实体识别网络。
请参见图8,图8是本申请实施例提供的一种网络训练的场景示意图。如图8所示,可以将询问语句输入问答网络(如此处ChatGpt网络),以通过问答网络输出样本文本中的关键实体字段(可以将样本文本中的关键实体字段称之为是样本关键实体字段),并可以通过该关键实体字段确定样本文本中的非关键实体字段。
进而,可以通过样本文本的样本关键描述信息、样本关键实体字段以及该样本关键实体字段在样本文本中的出现频次来构建正样本,并可以通过样本文本的样本关键描述信息、非关键实体字段以及该非关键实体字段在样本文本中的出现频次来构建负样本。
文本处理设备可以通过上述所构建的正样本和负样本来训练BERT模型,进而,可以将训练好的BERT模型作为上述关键实体识别网络。
采用本申请的上述方法,可以利用问答网络来快速且准确地构建用于对需训练的关键实体识别网络进行训练的样本集,进而,通过该样本集可以实现对该需训练的关键实体识别网络的准确的训练,后续,通过该关键实体识别网络也可以实现针对实体字段的关键预测指数的准确预测。
请参见图9,图9是本申请实施例提供的一种文本处理装置的结构示意图。如图9所示,该文本处理装置1可以包括:获取模块11、提取模块12、组合模块13、预测模块14和选取模块15。
获取模块11,用于获取目标领域的目标文本,并提取目标文本中的关键描述信息;关键描述信息是用于描述目标文本中的关键内容的信息;
提取模块12,用于从目标文本中提取与目标领域相关的N个实体字段;N为正整数;
组合模块13,用于将关键描述信息分别与N个实体字段中的各个实体字段进行组合处理,生成N个组合文本;
预测模块14,用于基于N个组合文本对N个实体字段进行关键性预测,得到各个实体字段的预测结果;任一实体字段的预测结果用于指示任一实体字段在目标文本中的关键度;
选取模块15,用于基于N个实体字段的预测结果,选取目标文本中的M个关键实体字段;M为正整数,M个关键实体字段用于反映目标文本在目标领域下所表达的关键内容。
可选的,预测模块14基于N个组合文本对N个实体字段进行关键性预测,得到各个实体字段的预测结果的方式,包括:
获取各个实体字段分别在目标文本中的出现频次;
在各个组合文本中分别对各个组合文本所包含的实体字段在目标文本中的出现频次进行组合处理,生成N个目标组合文本;
基于N个目标组合文本对N个实体字段进行关键性预测,得到各个实体字段的预测结果。
可选的,预测模块14基于N个目标组合文本对N个实体字段进行关键性预测,得到各个实体字段的预测结果的方式,包括:
调用关键实体识别网络基于各个目标组合文本,分别对各个实体字段进行关键性预测,生成各个实体字段的关键预测指数;任一实体字段的关键预测指数为任一实体字段的预测结果;
选取模块15基于N个实体字段的预测结果,选取目标文本中的M个关键实体字段的方式,包括:
基于各个实体字段的关键预测指数,选取目标文本中的M个关键实体字段。
可选的,选取模块15基于各个实体字段的关键预测指数,选取目标文本中的M个关键实体字段的方式,包括:
获取参考指数阈值;
将N个实体字段中关键预测指数大于或等于参考指数阈值的实体字段,确定为M个关键实体字段。
可选的,选取模块15基于各个实体字段的关键预测指数,选取目标文本中的M个关键实体字段的方式,包括:
按照各个实体字段的关键预测指数的从大到小的顺序,对N个实体字段进行排序处理,得到排序后的实体字段;
将排序后的实体字段中的前M个实体字段,确定为M个关键实体字段。
可选的,上述装置1还用于:
获取需训练的关键实体识别网络和样本集;样本集包含正样本和负样本;正样本是对样本文本的样本关键描述信息、样本文本中的样本关键实体字段、及样本关键实体字段在样本文本中的出现频次进行组合处理后得到的;负样本是对样本关键描述信息、样本文本中的非关键实体字段、及非关键实体字段在样本文本中的出现频次进行组合处理后得到的;
调用需训练的关键实体识别网络基于正样本对样本关键实体字段进行关键性预测,生成样本关键实体字段的第一关键预测指数;
调用需训练的关键实体识别网络基于负样本对非关键实体字段进行关键性预测,生成非关键实体字段的第二关键预测指数;
基于第一关键预测指数、第一指数边界值、第二关键预测指数和第二指数边界值,修正需训练的关键实体识别网络的网络参数,得到关键实体识别网络;第一指数边界值大于第二指数边界值。
可选的,上述装置1基于第一关键预测指数、第一指数边界值、第二关键预测指数和第二指数边界值,修正需训练的关键实体识别网络的网络参数的方式,包括:
修正需训练的关键实体识别网络的网络参数,使第一关键预测指数趋近于第一指数边界值;以及,
修正需训练的关键实体识别网络的网络参数,使第二关键预测指数趋近于第二指数边界值。
可选的,上述装置1还用于:
获取询问语句;询问语句包含样本关键描述信息及样本文本中与目标领域相关的K个样本实体字段;K为正整数;
将询问语句输入问答网络,并调用回答网络基于样本关键描述信息,输出K个样本实体字段中样本文本的样本关键实体字段;
将K个样本实体字段中除样本关键实体字段之外的样本实体字段确定为非关键实体字段,并获取样本关键实体字段和非关键实体字段分别在样本文本中的出现频次;
将样本关键描述信息、样本关键实体字段、及样本关键实体字段在样本文本中的出现频次进行组合处理,生成正样本;以及,
将样本关键描述信息、非关键实体字段、及非关键实体字段在样本文本中的出现频次进行组合处理,生成负样本。
可选的,提取模块12从目标文本中提取与目标领域相关的N个实体字段的方式,包括:
调用实体提取网络从目标文本中提取与目标领域相关的第一实体字段;
基于目标领域的实体字段库从目标文本中匹配与目标领域相关的第二实体字段;
其中,N个实体字段包括第一实体字段和第二实体字段。
可选的,上述装置1还用于:
获取需训练的实体提取网络,并获取样本文本;样本文本具有样本标签,样本标签用于指示样本文本中实际与目标领域相关的样本实体字段;
调用需训练的实体提取网络从样本文本中提取与目标领域相关的样本实体字段;
基于提取的样本实体字段与样本标签所指示的样本实体字段之间的差异,修正需训练的实体提取网络的网络参数,得到实体提取网络。
可选的,获取模块11提取目标文本中的关键描述信息的方式,包括:
获取针对文本的一个或多个关键内容提取位置;
基于一个或多个关键内容提取位置提取目标文本中的局部文本;一个关键内容提取位置用于提取得到目标文本的一个局部文本;
对基于一个或多个关键内容提取位置所提取的一个或多个局部文本进行组合处理,生成关键描述信息。
可选的,目标文本为目标对象触发过对象操作的文本;上述装置1还用于:
基于目标文本的M个关键实体字段,为目标对象添加对象标签;
其中,对象操作包括如下至少一种:点赞操作、转发操作、评论操作、收藏操作、浏览操作。
可选的,上述装置1还用于:
基于对象标签,获取目标领域下针对目标对象的推送内容;
将推送内容推送至目标对象的对象终端,使对象终端输出推送内容。
根据本申请的一个实施例,图3所示的文本处理方法所涉及的步骤可由图9所示的文本处理装置1中的各个模块来执行。例如,图3中所示的步骤S101可由图9中的获取模块11来执行,图3中所示的步骤S102可由图9中的提取模块12来执行;图3中所示的步骤S103可由图9中的组合模块13来执行,图3中所示的步骤S104可由图9中的预测模块14来执行,图3中所示的步骤S105可由图9中的选取模块15来执行。
本申请获取目标领域的目标文本,并提取目标文本中的关键描述信息;关键描述信息是用于描述目标文本中的关键内容的信息;从目标文本中提取与目标领域相关的N个实体字段;N为正整数;将关键描述信息分别与N个实体字段中的各个实体字段进行组合处理,生成N个组合文本;基于N个组合文本对N个实体字段进行关键性预测,得到各个实体字段的预测结果;任一实体字段的预测结果用于指示任一实体字段在目标文本中的关键度;基于N个实体字段的预测结果,选取目标文本中的M个关键实体字段;M为正整数,M个关键实体字段用于反映目标文本在目标领域下所表达的关键内容。由此可见,本申请提出的装置可以对目标文本中的关键描述信息与目标文本中目标领域相关的各个实体字段分别进行组合处理,以得到目标文本中目标领域相关的各个实体字段分别所属的组合文本,进而,可以基于各个实体字段分别所属的组合文本来对各个实体字段进行关键性预测,以得到各个实体字段的预测结果,由于该预测结果是基于实体字段本身并结合上目标文本中的关键描述信息一起预测得到的,因此,可以保证各个实体字段的预测结果的准确性,后续,通过各个实体字段准确的预测结果,也可以准确地选取用于反映目标文本在目标领域下所表达的关键内容的关键实体字段。
根据本申请的一个实施例,图9所示的文本处理装置1中的各个模块可以分别或全部合并为一个或若干个单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个子单元,可以实现同样的操作,而不影响本申请的实施例的技术效果的实现。上述模块是基于逻辑功能划分的,在实际应用中,一个模块的功能也可以由多个单元来实现,或者多个模块的功能由一个单元实现。在本申请的其它实施例中,文本处理装置1也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。
根据本申请的一个实施例,可以在通用计算机设备(该计算机设备可以包含中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件)上,运行能够执行本申请各实施例中所示的相应方法所涉及的各步骤的计算机程序,来构造如图9中所示的文本处理装置1。上述计算机程序可以记载于如计算机可读记录介质上,且可以通过该计算机可读记录介质装载于上述计算机设备中,并在其中运行。
请参见图10,图10是本申请实施例提供的一种计算机设备的结构示意图。如图10所示,计算机设备1000可以包括:处理器1001,网络接口1004和存储器1005,此外,在一些实施例中,计算机设备1000还可以包括:用户接口1003,和至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图10所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在图10所示的计算机设备1000中,网络接口1004可提供网络通讯功能;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
获取目标领域的目标文本,并提取目标文本中的关键描述信息;关键描述信息是用于描述目标文本中的关键内容的信息;
从目标文本中提取与目标领域相关的N个实体字段;N为正整数;
将关键描述信息分别与N个实体字段中的各个实体字段进行组合处理,生成N个组合文本;
基于N个组合文本对N个实体字段进行关键性预测,得到各个实体字段的预测结果;任一实体字段的预测结果用于指示任一实体字段在目标文本中的关键度;
基于N个实体字段的预测结果,选取目标文本中的M个关键实体字段;M为正整数,M个关键实体字段用于反映目标文本在目标领域下所表达的关键内容。
应当理解,本申请实施例中所描述的计算机设备1000可执行本申请各实施例中对上述文本处理方法的描述,也可执行前文图9所对应实施例中对上述文本处理装置1的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本申请还提供了一种计算机可读存储介质,且计算机可读存储介质中存储有计算机程序,当处理器执行该计算机程序时,能够执行本申请各实施例中对文本处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。
作为示例,上述计算机程序可被部署在一个计算机设备上执行,或者被部署位于一个地点的多个计算机设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算机设备上执行,分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链网络。
上述计算机可读存储介质可以是上述计算机设备的内部存储单元,例如计算机设备的硬盘或内存。该计算机可读存储介质也可以是该计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(smart media card,SMC),安全数字(securedigital,SD)卡,闪存卡(flash card)等。进一步地,该计算机可读存储介质还可以既包括该计算机设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本申请提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序,处理器执行该计算机程序,使得该计算机设备执行本申请各实施例中对上述文本处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。
本申请实施例的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块,而是可选地还包括没有列出的步骤或模块,或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (17)

1.一种文本处理方法,其特征在于,所述方法包括:
获取目标领域的目标文本,并提取所述目标文本中的关键描述信息;所述关键描述信息是用于描述所述目标文本中的关键内容的信息;
从所述目标文本中提取与所述目标领域相关的N个实体字段;N为正整数;
将所述关键描述信息分别与所述N个实体字段中的各个实体字段进行组合处理,生成N个组合文本;
基于所述N个组合文本对所述N个实体字段进行关键性预测,得到所述各个实体字段的预测结果;任一实体字段的预测结果用于指示所述任一实体字段在所述目标文本中的关键度;
基于所述N个实体字段的预测结果,选取所述目标文本中的M个关键实体字段;M为正整数,所述M个关键实体字段用于反映所述目标文本在所述目标领域下所表达的关键内容。
2.如权利要求1所述的方法,其特征在于,所述基于所述N个组合文本对所述N个实体字段进行关键性预测,得到所述各个实体字段的预测结果,包括:
获取所述各个实体字段分别在所述目标文本中的出现频次;
在各个组合文本中分别对所述各个组合文本所包含的实体字段在所述目标文本中的出现频次进行组合处理,生成N个目标组合文本;
基于所述N个目标组合文本对所述N个实体字段进行关键性预测,得到所述各个实体字段的预测结果。
3.如权利要求2所述的方法,其特征在于,所述基于所述N个目标组合文本对所述N个实体字段进行关键性预测,得到所述各个实体字段的预测结果,包括:
调用所述关键实体识别网络基于各个目标组合文本,分别对所述各个实体字段进行关键性预测,生成所述各个实体字段的关键预测指数;任一实体字段的关键预测指数为所述任一实体字段的预测结果;
所述基于所述N个实体字段的预测结果,选取所述目标文本中的M个关键实体字段,包括:
基于所述各个实体字段的关键预测指数,选取所述目标文本中的所述M个关键实体字段。
4.如权利要求3所述的方法,其特征在于,所述基于所述各个实体字段的关键预测指数,选取所述目标文本中的所述M个关键实体字段,包括:
获取参考指数阈值;
将所述N个实体字段中关键预测指数大于或等于所述参考指数阈值的实体字段,确定为所述M个关键实体字段。
5.如权利要求3所述的方法,其特征在于,所述基于所述各个实体字段的关键预测指数,选取所述目标文本中的所述M个关键实体字段,包括:
按照所述各个实体字段的关键预测指数的从大到小的顺序,对所述N个实体字段进行排序处理,得到排序后的实体字段;
将所述排序后的实体字段中的前M个实体字段,确定为所述M个关键实体字段。
6.如权利要求3所述的方法,其特征在于,所述方法还包括:
获取需训练的关键实体识别网络和样本集;所述样本集包含正样本和负样本;所述正样本是对样本文本的样本关键描述信息、所述样本文本中的样本关键实体字段、及所述样本关键实体字段在所述样本文本中的出现频次进行组合处理后得到的;所述负样本是对所述样本关键描述信息、所述样本文本中的非关键实体字段、及所述非关键实体字段在所述样本文本中的出现频次进行组合处理后得到的;
调用所述需训练的关键实体识别网络基于所述正样本对所述样本关键实体字段进行关键性预测,生成所述样本关键实体字段的第一关键预测指数;
调用所述需训练的关键实体识别网络基于所述负样本对所述非关键实体字段进行关键性预测,生成所述非关键实体字段的第二关键预测指数;
基于所述第一关键预测指数、第一指数边界值、所述第二关键预测指数和第二指数边界值,修正所述需训练的关键实体识别网络的网络参数,得到所述关键实体识别网络;所述第一指数边界值大于所述第二指数边界值。
7.如权利要求6所述的方法,其特征在于,所述基于所述第一关键预测指数、第一指数边界值、所述第二关键预测指数和第二指数边界值,修正所述需训练的关键实体识别网络的网络参数,包括:
修正所述需训练的关键实体识别网络的网络参数,使所述第一关键预测指数趋近于所述第一指数边界值;以及,
修正所述需训练的关键实体识别网络的网络参数,使所述第二关键预测指数趋近于所述第二指数边界值。
8.如权利要求6所述的方法,其特征在于,所述方法还包括:
获取询问语句;所述询问语句包含所述样本关键描述信息及所述样本文本中与所述目标领域相关的K个样本实体字段;K为正整数;
将所述询问语句输入问答网络,并调用所述回答网络基于所述样本关键描述信息,输出所述K个样本实体字段中所述样本文本的所述样本关键实体字段;
将所述K个样本实体字段中除所述样本关键实体字段之外的样本实体字段确定为所述非关键实体字段,并获取所述样本关键实体字段和所述非关键实体字段分别在所述样本文本中的出现频次;
将所述样本关键描述信息、所述样本关键实体字段、及所述样本关键实体字段在所述样本文本中的出现频次进行组合处理,生成所述正样本;以及,
将所述样本关键描述信息、所述非关键实体字段、及所述非关键实体字段在所述样本文本中的出现频次进行组合处理,生成所述负样本。
9.如权利要求1所述的方法,其特征在于,所述从所述目标文本中提取与所述目标领域相关的N个实体字段,包括:
调用实体提取网络从所述目标文本中提取与所述目标领域相关的第一实体字段;
基于所述目标领域的实体字段库从所述目标文本中匹配与所述目标领域相关的第二实体字段;
其中,所述N个实体字段包括所述第一实体字段和所述第二实体字段。
10.如权利要求9所述的方法,其特征在于,所述方法还包括:
获取需训练的实体提取网络,并获取样本文本;所述样本文本具有样本标签,所述样本标签用于指示所述样本文本中实际与所述目标领域相关的样本实体字段;
调用所述需训练的实体提取网络从所述样本文本中提取与所述目标领域相关的样本实体字段;
基于提取的样本实体字段与所述样本标签所指示的样本实体字段之间的差异,修正所述需训练的实体提取网络的网络参数,得到所述实体提取网络。
11.如权利要求1所述的方法,其特征在于,所述提取所述目标文本中的关键描述信息,包括:
获取针对文本的一个或多个关键内容提取位置;
基于所述一个或多个关键内容提取位置提取所述目标文本中的局部文本;一个关键内容提取位置用于提取得到所述目标文本的一个局部文本;
对基于所述一个或多个关键内容提取位置所提取的一个或多个局部文本进行组合处理,生成所述关键描述信息。
12.如权利要求1所述的方法,其特征在于,所述目标文本为目标对象触发过对象操作的文本;所述方法还包括:
基于所述目标文本的所述M个关键实体字段,为所述目标对象添加对象标签;
其中,所述对象操作包括如下至少一种:点赞操作、转发操作、评论操作、收藏操作、浏览操作。
13.如权利要求12所述的方法,其特征在于,所述方法还包括:
基于所述对象标签,获取所述目标领域下针对所述目标对象的推送内容;
将所述推送内容推送至所述目标对象的对象终端,使所述对象终端输出所述推送内容。
14.一种文本处理装置,其特征在于,所述装置包括:
获取模块,用于获取目标领域的目标文本,并提取所述目标文本中的关键描述信息;所述关键描述信息是用于描述所述目标文本中的关键内容的信息;
提取模块,用于从所述目标文本中提取与所述目标领域相关的N个实体字段;N为正整数;
组合模块,用于将所述关键描述信息分别与所述N个实体字段中的各个实体字段进行组合处理,生成N个组合文本;
预测模块,用于基于所述N个组合文本对所述N个实体字段进行关键性预测,得到所述各个实体字段的预测结果;任一实体字段的预测结果用于指示所述任一实体字段在所述目标文本中的关键度;
选取模块,用于基于所述N个实体字段的预测结果,选取所述目标文本中的M个关键实体字段;M为正整数,所述M个关键实体字段用于反映所述目标文本在所述目标领域下所表达的关键内容。
15.一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现权利要求1-13任一项所述方法的步骤。
16.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1-13中任一项所述方法的步骤。
17.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序适用于由处理器加载并执行权利要求1-13任一项所述的方法。
CN202311381730.6A 2023-10-23 2023-10-23 文本处理方法、装置、产品、设备和介质 Pending CN117473995A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311381730.6A CN117473995A (zh) 2023-10-23 2023-10-23 文本处理方法、装置、产品、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311381730.6A CN117473995A (zh) 2023-10-23 2023-10-23 文本处理方法、装置、产品、设备和介质

Publications (1)

Publication Number Publication Date
CN117473995A true CN117473995A (zh) 2024-01-30

Family

ID=89637080

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311381730.6A Pending CN117473995A (zh) 2023-10-23 2023-10-23 文本处理方法、装置、产品、设备和介质

Country Status (1)

Country Link
CN (1) CN117473995A (zh)

Similar Documents

Publication Publication Date Title
CN112632385B (zh) 课程推荐方法、装置、计算机设备及介质
KR102288249B1 (ko) 정보 처리 방법, 단말기, 및 컴퓨터 저장 매체
CN109284399B (zh) 相似度预测模型训练方法、设备及计算机可读存储介质
KR102155739B1 (ko) 질의응답 데이터 셋을 적응적으로 재사용하는 챗봇 서비스 제공 방법, 서버, 및 시스템
CN110347894A (zh) 基于爬虫的知识图谱处理方法、装置、计算机设备及存储介质
US8082264B2 (en) Automated scheme for identifying user intent in real-time
CN111753060A (zh) 信息检索方法、装置、设备及计算机可读存储介质
KR102155768B1 (ko) 학습을 통하여 진화하는 질의응답 데이터 셋을 이용한 쇼핑몰 질의응답 추천 서비스 제공 방법
CN110929038A (zh) 基于知识图谱的实体链接方法、装置、设备和存储介质
CN112287069B (zh) 基于语音语义的信息检索方法、装置及计算机设备
CN110134845A (zh) 项目舆情监控方法、装置、计算机设备及存储介质
CN113011126B (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
CN111666766A (zh) 数据处理方法、装置和设备
US20220121668A1 (en) Method for recommending document, electronic device and storage medium
CN115687647A (zh) 公证文书生成方法、装置、电子设备及存储介质
CN117609479B (zh) 一种模型处理方法、装置、设备、介质及产品
CN116701604A (zh) 问答语料库的构建方法和装置、问答方法、设备及介质
CN114647739B (zh) 实体链指方法、装置、电子设备及存储介质
CN112364649B (zh) 命名实体的识别方法、装置、计算机设备及存储介质
CN114580533A (zh) 特征提取模型的训练方法、装置、设备、介质及程序产品
CN114218364A (zh) 问答知识库扩充方法与装置
CN114067343A (zh) 一种数据集的构建方法、模型训练方法和对应装置
CN115129885A (zh) 实体链指方法、装置、设备及存储介质
CN114707510A (zh) 资源推荐信息推送方法、装置、计算机设备及存储介质
Xu et al. Estimating similarity of rich internet pages using visual information

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication