CN114357163A - 文本类型识别方法、装置、计算机可读介质及电子设备 - Google Patents

文本类型识别方法、装置、计算机可读介质及电子设备 Download PDF

Info

Publication number
CN114357163A
CN114357163A CN202111628067.6A CN202111628067A CN114357163A CN 114357163 A CN114357163 A CN 114357163A CN 202111628067 A CN202111628067 A CN 202111628067A CN 114357163 A CN114357163 A CN 114357163A
Authority
CN
China
Prior art keywords
type
text
entity
association
triple
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111628067.6A
Other languages
English (en)
Inventor
铁瑞雪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Publication of CN114357163A publication Critical patent/CN114357163A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请属于计算机技术领域,具体涉及一种文本类型识别方法、装置、计算机可读介质及电子设备。该文本类型识别方法包括:对待识别文本进行特征抽取,得到待识别文本的文本语义特征;根据文本语义特征预测待识别文本中的至少一个对象实体;获取与对象实体相关的待选关联类型集合;根据文本语义特征预测与对象实体具有待选关联类型的目标实体,并将对象实体、待选关联类型和目标实体组成三元组;当三元组中存在待选关联类型为实施关联类型的第一类三元组时,将待识别文本识别为对第一类三元组的对象实体具有影响的文本。由此,将对象实体的语义与整体文本的语义表征进行融合,从而高效、准确地实现对待识别文本的文本类型识别。

Description

文本类型识别方法、装置、计算机可读介质及电子设备
本申请基于并要求2021年11月30日申请的、申请号为CN202111448168.5、名称为“文本类型识别方法、装置、计算机可读介质及电子设备”的中国专利申请的优先权,其全部内容在此并入作为参考。
技术领域
本申请属于计算机技术领域,具体涉及一种文本类型识别方法、装置、计算机可读介质及电子设备。
背景技术
随着信息社会的发展和互联网的普及,社会各类信息呈现出传播渠道多、传播速度快、传播范围广的特点。对于网络中的大量信息,有对各类文本进行文本分类的需求。
相关技术中,仅根据文本的地域、标题等对文本进行分类的文本分类方法的分类方式太过粗糙,无法满足企业或个人对于现今网络时代的大量信息分类的需求。因此,如何精准地对文本进行分类,是待解决的问题。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本申请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本申请的目的在于提供一种文本类型识别方法、装置、计算机可读介质及电子设备。至少在一定程度上解决如何精准地对文本进行分类的技术问题。
本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
根据本申请实施例的一个方面,提供一种文本类型识别方法。所述文本类型识别方法包括:
获取待识别文本,并对所述待识别文本进行特征抽取,得到所述待识别文本的文本语义特征;
根据所述文本语义特征预测所述待识别文本中的至少一个对象实体;
获取与所述对象实体相关的待选关联类型集合,所述待选关联类型集合中包括至少一种待选关联类型,所述待选关联类型用于表示两个实体之间的关联所属的类型;
根据所述文本语义特征预测与所述对象实体具有所述待选关联类型的目标实体,并将所述对象实体、所述待选关联类型和所述目标实体组成三元组;
当所述三元组中存在待选关联类型为实施关联类型的第一类三元组时,将所述待识别文本识别为对所述第一类三元组的对象实体具有影响的文本,其中,所述实施关联类型用于表示所述对象实体是执行所述目标实体所示的行为的执行实体。
根据本申请实施例的一个方面,提供一种文本类型识别装置。所述文本类型识别装置包括:
文本语义特征获取模块,被配置为获取待识别文本,并对所述待识别文本进行特征抽取,得到所述待识别文本的文本语义特征;
对象实体特征获取模块,被配置为根据所述文本语义特征预测所述待识别文本中的至少一个对象实体;
待选关联类型集合获取模块,被配置为获取与所述对象实体相关的待选关联类型集合,所述待选关联类型集合中包括至少一种待选关联类型,所述待选关联类型用于表示两个实体之间的关联所属的类型;
目标实体预测模块,被配置为根据所述文本语义特征预测与所述对象实体具有所述待选关联类型的目标实体,并将所述对象实体、所述待选关联类型和所述目标实体组成三元组;
文本类型识别模块,被配置为当所述三元组中存在待选关联类型为实施关联类型的第一类三元组时,将所述待识别文本识别为对所述第一类三元组的对象实体具有影响的文本,其中,所述实施关联类型用于表示所述对象实体是执行所述目标实体所示的行为的执行实体。
在本申请的一些实施例中,基于以上技术方案,所述待选关联类型还包括语义肯定关联类型,所述语义肯定关联类型用于表示一个实体对另一实体进行语义肯定,所述文本类型识别模块包括:
第一识别单元,被配置为当所述三元组中存在所述第一类三元组和待选关联类型为语义肯定关联类型的第二类三元组,并且所述第一类三元组和所述第二类三元组的目标实体相同时,将所述待识别文本识别为对所述第一类三元组的对象实体具有影响的文本。
在本申请的一些实施例中,基于以上技术方案,所述待选关联类型还包括语义否定关联类型,所述语义否定关联类型用于表示一个实体对另一实体进行语义否定,所述文本类型识别模块包括:
第二识别单元,被配置为当所述三元组中存在所述第一类三元组和待选关联类型为语义否定关联类型的第三类三元组,并且至少一个所述第一类三元组与至少一个所述第三类三元组的目标实体相同时,将所述待识别文本识别为对所述第一类三元组的对象实体不具有影响的文本。
在本申请的一些实施例中,基于以上技术方案,所述文本类型识别模块还包括:
第三识别单元,被配置为当所述三元组中存在所述第一类三元组,并且第一类三元组的客体不是待选关联类型为语义否定关联类型的第三类三元组的目标实体时,将所述待识别文本识别为对所述第一类三元组的对象实体具有影响的文本。
在本申请的一些实施例中,基于以上技术方案,所述待选关联类型还包括并列关联类型,所述并列关联类型用于表示两个实体共同实施目标实体所示的行为,所述文本类型识别装置还包括:
目标对象实体确定单元,被配置为将所述第一类三元组的对象实体作为目标对象实体;
第四识别单元,被配置为当所述三元组中存在待选关联类型为并列关联类型的第四类三元组时,将所述待识别文本识别为对所述第四类三元组中包括了所述目标对象实体的三元组的对象实体和目标实体均具有影响的文本。
在本申请的一些实施例中,基于以上技术方案,所述待选关联类型还包括实施涉及关联类型,所述实施涉及关联类型用于表示所述对象实体对所述目标实体所示的行为有涉及,但不实施该目标实体所示的行为,所述文本类型识别装置还包括:
第五识别单元,被配置为当所述三元组中存在待选关联类型为实施涉及关联类型的第五类三元组时,将所述待识别文本识别为对所述第五类三元组的对象实体在所述第五类三元组的目标实体相关的范围不具有影响的文本。
在本申请的一些实施例中,基于以上技术方案,所述待选关联类型集合获取模块包括:
实体类型获取模块,被配置为获取所述对象实体的实体类型,所述实体类型包括命名实体类和语义倾向类。
待选关联类型集合获取单元,被配置为根据所述实体类型查询预设数据库,得到与所述对象实体相关的待选关联类型集合,其中,所述预设数据库用于存储所述实体类型与所述待选关联类型集合的映射关系。
在本申请的一些实施例中,基于以上技术方案,当所述对象实体的实体类型为命名实体类时,与所述对象实体相关的待选关联类型集合包括共指关联类型、涉及关联类型、并列关联类型、实施关联类型和实施涉及关联类型,其中,所述共指关联类型用于表示两个实体指代的是同一对象、所述涉及关联类型用于表示两个实体之间具有关联,所述并列关联类型用于表示两个实体共同实施目标实体所示的行为,所述实施涉及关联类型用于表示所述对象实体对所述目标实体所示的行为有涉及,但不实施该目标实体所示的行为。
在本申请的一些实施例中,基于以上技术方案,当所述对象实体的实体类型为语义倾向类时,与所述对象实体相关的待选关联类型集合包括语义肯定关联类型和语义否定关联类型,其中所述语义肯定关联类型用于表示一个实体对另一实体进行语义肯定,所述语义否定关联类型用于表示一个实体对另一实体进行语义否定。
在本申请的一些实施例中,基于以上技术方案,所述目标实体预测模块包括:
对象实体编码单元,被配置为对所述对象实体进行编码,得到所述对象实体对应的对象实体编码。
目标实体预测单元,被配置为将所述对象实体编码、所述文本语义特征与所述待选关联类型输入到预训练的机器学习模型中,得到与所述对象实体具有所述待选关联类型的目标实体。
在本申请的一些实施例中,基于以上技术方案,所述待选关联类型还包括共指关联类型,所述共指关联类型用于表示两个实体指代的是同一对象,所述文本类型识别装置还包括:
共指替换单元,被配置为当所述三元组中存在待选关联类型为共指关联类型的第六类三元组,将所述第六类三元组之外的各个所述三元组中与所述第六类三元组的对象实体相同的对象实体或目标实体,替换为所述第六类三元组的目标实体。
在本申请的一些实施例中,基于以上技术方案,所述文本类型识别装置还包括:
文本长度计算单元,被配置为当所述三元组中存在至少两个所述第六类三元组:第一三元组和第二三元组,其中所述第一三元组的对象实体是所述第二三元组的目标实体,并且所述第二三元组的对象实体是所述第一三元组的目标实体时,计算并对比所述第一三元组的对象实体的文本长度和所述第二三元组的对象实体的文本长度。
三元组择一单元,被配置为保留所述第一三元组和所述第二三元组中文本长度较长的目标实体所在的三元组,去除文本长度较短的目标实体所在的三元组。
在本申请的一些实施例中,基于以上技术方案,所述文本语义特征获取模块包括:
待识别文本获取单元,获取与待判定主体相关的待识别文本。
在本申请的一些实施例中,基于以上技术方案,所述文本类型识别模块包括:
第六识别单元,被配置为当所述三元组中存在待选关联类型为实施关联类型的第一类三元组,并且所述第一类三元组的对象实体为所述待判定主体时,将所述待识别文本识别为对所述待判定主体在第一类三元组的目标实体方面具有影响的文本。
第七识别单元,被配置为当所述三元组中存在待选关联类型为实施关联类型的第一类三元组,并且所述第一类三元组的对象实体均不同于所述待判定主体时,将所述待识别文本识别为对所述待判定主体在第一类三元组的目标实体方面不具有影响的文本。
在本申请的一些实施例中,基于以上技术方案,所述待识别文本包括文本标题、文本摘要、文本正文中的一项或多项。
根据本申请实施例的一个方面,提供一种计算机可读介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如以上技术方案中的文本类型识别方法。
根据本申请实施例的一个方面,提供一种电子设备,该电子设备包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器被配置为经由执行所述可执行指令来执行如以上技术方案中的文本类型识别方法。
根据本申请实施例的一个方面,提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行如以上技术方案中的文本类型识别方法。
在本申请实施例提供的技术方案中,对待识别文本进行特征抽取,得到待识别文本的文本语义特征;根据文本语义特征预测待识别文本中的至少一个对象实体;获取与对象实体相关的待选关联类型集合;根据文本语义特征预测与对象实体具有待选关联类型的目标实体,并将对象实体、待选关联类型和目标实体组成三元组;从而能够学习待识别文本的高级语义知识,并能够将对象实体的语义与待识别文本的整体文本的语义表征进行融合,进而提高该文本类型识别方法对待识别文本的语义理解程度。然后,当三元组中存在待选关联类型为实施关联类型的第一类三元组时,将待识别文本识别为对第一类三元组的对象实体具有影响的文本;如此,由待识别文本得到的三元组中存在待选关联类型为实施关联类型的第一类三元组,指示了第一类三元组的对象实体实施了目标实体所示的行为,也就是说,待识别文本对第一类三元组的对象实体具有影响,由此,高效、准确地实现对待识别文本的文本类型识别。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示意性地示出了应用本申请技术方案的示例性装置架构框图。
图2示意性地示出了本申请实施例提供的文本类型识别方法的步骤流程。
图3示意性地示出了本申请某实施例获取待识别文本,并对待识别文本进行特征抽取以及后续过程的示意图。
图4示意性地示出了本申请实施例中获取与对象实体相关的待选关联类型集合的步骤流程。
图5示意性地示出了本申请实施例中根据文本语义特征预测与对象实体具有待选关联类型的目标实体的步骤流程。
图6示意性地示出了本申请某实施例根据各个三元组中的对象实体、目标实体以及二者之间的待选关联类型构建的有向图谱示意图。
图7示意性地示出了本申请实施例中将对象实体、待选关联类型和目标实体组成三元组之后的步骤流程。
图8示意性地示出了本申请某一实施例根据各个三元组的对象实体、目标实体以及二者之间的待选关联类型生成的有向图的示意图。
图9示意性地示出了本申请另一实施例根据多个三元组生成的有向图的示意图。
图10示意性地示出了本申请某一实施例中当所述三元组中存在待选关联类型为实施关联类型的第一类三元组时,将所述待识别文本识别为对所述第一类三元组的对象实体具有影响的文本的步骤流程。
图11示意性地示出了本申请另一实施例中当所述三元组中存在待选关联类型为实施关联类型的第一类三元组时,将所述待识别文本识别为对所述第一类三元组的对象实体具有影响的文本的步骤流程。
图12示意性地示出了本申请某一实施例中将所述待识别文本识别为对第一类三元组的对象实体具有影响的文本之后的步骤流程。
图13示意性地示出了本申请实施例提供的文本类型识别装置的结构框图。
图14示意性地示出了用于实现本申请实施例的电子设备的结构框图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本申请将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本申请的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
在对本申请实施例提供的文本类型识别方法、文本类型识别装置等技术方案作出详细说明之前,先对本申请部分实施例中涉及的人工智能技术进行简单介绍。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用装置。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互装置、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
下面结合具体实施方式对本申请提供的文本类型识别方法及装置做出详细说明。
图1示意性地示出了应用本申请技术方案的示例性装置架构框图。
如图1所示,装置架构100可以包括终端设备110、网络120和服务器130。终端设备110可以包括智能手机、平板电脑、笔记本电脑、台式电脑等各种电子设备。服务器130可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式装置,还可以是提供云计算服务的云服务器。网络120可以是能够在终端设备110和服务器130之间提供通信链路的各种连接类型的通信介质,例如可以是有线通信链路或者无线通信链路。
根据实现需要,本申请实施例中的装置架构可以具有任意数目的终端设备、网络和服务器。例如,服务器130可以是由多个服务器设备组成的服务器群组。另外,本申请实施例提供的技术方案可以应用于终端设备110,也可以应用于服务器130,或者可以由终端设备110和服务器130共同实施,本申请对此不做特殊限定。
举例而言,当终端设备110向服务器130上传了包括视频及其标题的发布后,服务器130可以执行本申请提供的文本类型识别方法,从而对待识别文本进行特征抽取,得到待识别文本的文本语义特征;根据文本语义特征预测待识别文本中的至少一个对象实体;获取与对象实体相关的待选关联类型集合;根据文本语义特征预测与对象实体具有待选关联类型的目标实体,并将对象实体、待选关联类型和目标实体组成三元组;从而能够学习待识别文本的高级语义知识,并能够将对象实体的语义与待识别文本的整体文本的语义表征进行融合,进而提高该文本类型识别方法对待识别文本的语义理解程度。然后,当三元组中存在待选关联类型为实施关联类型的第一类三元组时,将待识别文本识别为对第一类三元组的对象实体具有影响的文本;如此,由待识别文本得到的三元组中存在待选关联类型为实施关联类型的第一类三元组,指示了第一类三元组的对象实体实施了目标实体所示的行为,也就是说,待识别文本对第一类三元组的对象实体具有影响,由此,高效、准确地实现对待识别文本的文本类型识别。
图2示意性地示出了本申请实施例提供的文本类型识别方法的步骤流程,该文本类型识别方法的执行主体可以是终端设备,也可以是服务器。
如图2所示,该文本类型识别方法主要可以包括如下步骤S210~步骤S250:
S210.获取待识别文本,并对待识别文本进行特征抽取,得到待识别文本的文本语义特征。
在某些实施方式中,待识别文本包括文本标题、文本摘要、文本正文中的一项或多项。
具体地,待识别文本的文本来源可以包括新闻报道、网络文章、视频中提取的文案、图片提取的文段、书籍文本等,本申请对此不作限制。对待识别文本进行特征抽取,得到待识别文本的文本语义特征,具体地,可以是将待识别文本输入到预训练的机器学习模型中,以获取待识别文本的文本语义特征。预训练的机器学习模型可以为预训练的BERT模型,或者albert、ernie等模型。或者,可以将待识别文本输入到预设置的特征抽取器中,以获取待识别文本的文本语义特征。
在一些具体的实施例中,待识别文本的文本语义特征可以包括一个或多个高维的特征向量。
可以理解的是,在本申请的具体实施方式中,涉及到用户信息、企业信息、待识别文本等相关的数据,当本申请以上实施例运用到具体产品或技术中时,需要获得相关用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
图3示意性地示出了本申请某实施例获取待识别文本,并对待识别文本进行特征抽取以及后续过程的示意图。如图3所示,对待识别文本进行分词后,添加上句首标记和句末标记,输入到预训练的BERT模型301中。BERT模型301中可以包括词嵌入编码结构、双向transformer结构等,以完成对待识别文本的特征抽取,得到待识别文本的文本语义特征。
具体地,词嵌入编码结构可以对将待识别文本分词后添加上句首标记和句末标记的分词[CLS]、X1……XN,分别进行特征嵌入编码、位置嵌入编码、句子类型嵌入编码后将得到的特征嵌入编码、位置嵌入编码、句子类型嵌入编码相加,得到待识别文本的输入编码E[CLS]、E1……EN。双向transformer结构可以获取待识别文本的输入编码E[CLS]、E1……EN,进行特征抽取,得到待识别文本的文本语义特征C、T1……TN
S220.根据文本语义特征预测待识别文本中的至少一个对象实体。
具体地,请继续参阅图3,BERT模型301中还可以包括归一化映射结构SoftMax,归一化映射结构SoftMax可以根据文本语义特征预测得到待识别文本中的至少一个对象实体。
具体地,可以以实体首字符标记和实体尾字符标记的方式对预测得到的待识别文本中的对象实体进行标记,以使得对象实体的相关数据包括了对象实体在待识别文本中的位置。例如,请继续参阅图3,可以对待识别文本中的对象实体A的首字符和尾字符进行标记,将待识别文本中的对象实体A的首字符标记为1,将待识别文本中的对象实体A的尾字符标记为1,将待识别文本中不被预测为对象实体的字符标记为0,并且将待识别文本中的对象实体A的中间字符也标记为0。并且,可以在同一个标记序列中对待识别文本的多个不同的对象实体用相同或不同的字符标记首字符和尾字符。由此,可以以较小的数据量实现对象实体及对象实体在待识别文本中的位置的数据表示。或者,也可以在多个标记序列中分别对待识别文本的多个不同的对象实体标记首字符和尾字符。
同理,可以对后续步骤根据文本语义特征预测得到的与对象实体具有待选关联类型的目标实体的首字符和尾字符进行标记,如图3所示,对后续步骤根据文本语义特征预测得到的与对象实体A具有待选关联类型的目标实体B和目标实体C的首字符和尾字符均进行标记。
对象实体的类型可以包括命名实体类和语义倾向类。具体地,命名实体类可以包括:主体公司、主体人物、主体公司的指代、主体公司的简称、关联公司、关联产品等。语义倾向类可以包括肯定倾向、否定倾向、中立倾向(也即无倾向)等。
在以上实施例的基础上,在某些实施例中,步骤S210中的获取待识别文本,可以进一步包括以下步骤:
获取与待判定主体相关的待识别文本;
在以上实施例的基础上,在某些实施例中,在步骤S220的根据文本语义特征预测待识别文本中的至少一个对象实体之后,可以进一步包括以下步骤:
将待判定主体作为待识别文本中的其中一个对象实体。
在一些实施方式中,待判定主体可以人为自定义设置,使得在网络上查找到与该待判定主体相关的待识别文本后,能够判定查找到的待识别文本是否对该待判定主体具有影响,从而,实现对待判定主体的定向的文本影响的类型识别。由此,能够将自定义设置的待判定主体的直接确定为待识别文本的其中一个对象实体,以便后续步骤查找与该待判定主体具有待选关联类型的目标实体,从而能够针对性地确定此待识别文本是否对该待判定主体具有影响。
S230.获取与对象实体相关的待选关联类型集合,待选关联类型集合中包括至少一种待选关联类型,待选关联类型用于表示两个实体之间的关联所属的类型。
具体地,可以通过查询数据库的方式获取与对象实体相关的待选关联类型集合。
图4示意性地示出了本申请实施例中获取与对象实体相关的待选关联类型集合的步骤流程。如图4所示,在以上实施例的基础上,在某些实施例中,步骤S230中的获取与对象实体相关的待选关联类型集合,可以进一步包括以下步骤S410~步骤S420:
S410.获取对象实体的实体类型,实体类型包括命名实体类和语义倾向类;
S420.根据实体类型查询预设数据库,得到与对象实体相关的待选关联类型集合,其中,预设数据库用于存储实体类型与待选关联类型集合的映射关系。
由此,获取对象实体的实体类型,根据实体类型查询预设数据库,得到与对象实体相关的待选关联类型集合,使得能够根据不同类型的对象实体得到对应的待选关联类型集合,以便后续根据对象实体和待选关联类型集合中的待选关联类型对目标实体进行预测,从而能够提高对目标实体预测的准确性,进而能够提高对待识别文本的语义理解,进而提高文本类型识别的识别准确性。
在某些实施例中,当对象实体的实体类型为命名实体类时,与对象实体相关的待选关联类型集合包括共指关联类型、涉及关联类型、并列关联类型、实施关联类型和实施涉及关联类型。其中,共指关联类型用于表示两个实体指代的是同一对象、涉及关联类型用于表示两个实体之间具有关联,并列关联类型用于表示两个实体共同实施目标实体所示的行为,实施涉及关联类型用于表示对象实体对目标实体所示的行为有涉及,但不实施该目标实体所示的行为。
在某些实施例中,当对象实体的实体类型为语义倾向类时,与对象实体相关的待选关联类型集合包括语义肯定关联类型和语义否定关联类型。其中语义肯定关联类型用于表示一个实体对另一实体进行语义肯定,语义否定关联类型用于表示一个实体对另一实体进行语义否定。
S240.根据文本语义特征预测与对象实体具有待选关联类型的目标实体,并将对象实体、待选关联类型和目标实体组成三元组。
在某些实施方式中,在获取与对象实体相关的待选关联类型集合后,可以分别抽取待选关联类型集合中的各个待选关联类型,并对各个待选关联类型分别根据文本语义特征预测与对象实体具有该待选关联类型的目标实体,从而根据对象实体对待选关联类型集合中的各个待选关联类型都遍历地进行了对应的目标实体预测,从而能够很好地防止待识别文本中的目标实体以及三元组被遗漏、未被预测出来,进而能够提高该文本类型识别方法对待识别文本的语义理解程度,进而实现准确地对待识别文本的文本类型识别。
图5示意性地示出了本申请实施例中根据文本语义特征预测与对象实体具有待选关联类型的目标实体的步骤流程。如图5所示,在以上实施例的基础上,在某些实施例中,步骤S240中的根据文本语义特征预测与对象实体具有待选关联类型的目标实体,可以进一步包括以下步骤S510~步骤S520:
S510.对对象实体进行编码,得到对象实体对应的对象实体编码;
S520.将对象实体编码、文本语义特征与待选关联类型输入到预训练的机器学习模型中,得到与对象实体具有待选关联类型的目标实体。
由此,通过对对象实体进行编码,得到对象实体对应的对象实体编码,再将对象实体编码、文本语义特征与待选关联类型输入到预训练的机器学习模型中,得到与对象实体具有待选关联类型的目标实体,从而实现对目标实体的预测。具体实施例中,请继续参阅图3,预训练的机器学习模型可以为预训练的transformer模型,以获取对象实体编码、文本语义特征与待选关联类型后,预测得到与对象实体具有待选关联类型的目标实体。
或者,也可以文本语义特征和对象实体输入到预设置的预测模型中,得到与对象实体具有待选关联类型的目标实体,实现对目标实体的预测。
在以上实施例的基础上,在某些实施例中,待选关联类型还包括共指关联类型,共指关联类型用于表示两个实体指代的是同一对象。在步骤S240的将对象实体、待选关联类型和目标实体组成三元组之后,可以进一步包括以下步骤:
当三元组中存在待选关联类型为共指关联类型的第六类三元组,第六类三元组包括目标主体、共指关联类型、目标客体时,将第六类三元组之外的各个三元组中与目标主体相同的对象实体或客体主体替换为目标客体。
在具体的实施例中,共指关联类型的目标实体可以为某家公司的全称,共指关联类型的对象实体可以为该公司的简称。或者共指关联类型的目标实体可以为某家公司的全称,共指关联类型的对象实体可以为该公司的代号。共指关联类型的目标实体可以为某个人物的全称,共指关联类型的对象实体可以为该人物的简称。或者共指关联类型的目标实体可以为某个人物的全称,共指关联类型的对象实体可以为该人物的代号。共指关联类型的目标实体可以为某个产品的全称,共指关联类型的对象实体可以为该产品的简称。或者共指关联类型的目标实体可以为某个产品的全称,共指关联类型的对象实体可以为该产品的代号。
图6示意性地示出了本申请某实施例根据各个三元组中的对象实体、目标实体以及二者之间的待选关联类型构建的有向图谱示意图。如图6所示,预测得到的对象实体包括主体公司、主体公司(简称)、关联公司、关联公司(简称)、主体人物、关联产品、肯定倾向、否定倾向。然后,根据文本语义特征预测与对象实体具有待选关联类型的目标实体,并将对象实体、待选关联类型和目标实体组成三元组,再根据三元组中的对象实体和目标实体之间的待选关联类型构建的有向图谱,得到如图6所示的有向图谱。其中,主体公司与目标客体所示的行为之间具有实施关联类型的关联、关联公司和目标客体所示的行为之间具有实施涉及关联类型的关联、主体人物与目标客体所示的行为之间具有实施涉及关联类型的关联、关联公司与关联公司(简称)之间具有共指关联类型的关联、否定倾向与目标客体所示的行为之间具有语义否定关联类型的关联等。
图7示意性地示出了本申请实施例中将对象实体、待选关联类型和目标实体组成三元组之后的步骤流程。如图7所示,在以上实施例的基础上,在某些实施例中,步骤S240的将对象实体、待选关联类型和目标实体组成三元组之后,可以进一步包括以下步骤S710~步骤S720:
S710.当三元组中存在至少两个第六类三元组:第一三元组和第二三元组,其中第一三元组的对象实体是第二三元组的目标实体,并且第二三元组的对象实体是第一三元组的目标实体时,计算并对比第一三元组的对象实体的文本长度和第二三元组的对象实体的文本长度;
S720.保留第一三元组和第二三元组中文本长度较长的目标实体所在的三元组,去除文本长度较短的目标实体所在的三元组。
由于当三元组中存在待选关联类型为共指关联类型的第六类三元组时,将第六类三元组之外的各个三元组中与目标主体相同的对象实体或客体主体替换为目标客体。因此,保留第一三元组和第二三元组中文本长度较长的目标实体所在的三元组,去除文本长度较短的目标实体所在的三元组,使得能够将文本长度较长的目标实体所在的三元组中的目标实体作为目标客体,将第六类三元组之外的各个三元组中与目标主体相同的对象实体或客体主体替换为目标客体。从而,使得三元组中的主体客体和目标实体当具有共指关联类型的实体时,能够保留文本长度较长的实体,去除文本长度较短的实体,而非保留文本长度较短的实体,从而有利于得到的三元组能够保持待识别文本中更为完整的语义,从而能够提高该文本类型识别方法对待识别文本的语义理解程度。
或者,可以保留第一三元组和第二三元组中具有“公司”、“集团”等字眼的目标实体所在的三元组,去除不具有“公司”、“集团”等字眼的目标实体所在的三元组。
在某些实施方式中,在将对象实体、待选关联类型和目标实体组成三元组之后,还可以包括以下步骤:
将对象实体作为有向线段的起点,将与对象实体处于同一三元组的目标实体作为有向线段的终点,将对象实体所在三元组的关系作为有向线段的内容,根据三元组生成有向图谱;
将该有向图谱输入到预设置的规则引擎中,得到待识别文本的文本类型识别结果,文本类型识别结果用于表示待识别文本为对什么实体具有影响的文本。
由此,可以通过根据多个三元组生成有向图,并将该有向图谱输入到预设置的规则引擎中,从而得到待识别文本的文本类型识别结果,从而能够将得到的三元组生成有向图并通过交互界面展现,进而能够更好地把握待识别文本对于各实体的影响情况,从而能够提高体验。
在一些实施方式中,在根据三元组生成有向图谱之后,还可以根据该有向图谱通过生成邻接矩阵、进行随机游走等方式,查找到该有向图谱的对实体的影响,以对待识别文本影响的实体进行类型识别。
例如,请参阅图8。图8示意性地示出了本申请某一实施例根据各个三元组的对象实体、目标实体以及二者之间的待选关联类型生成的有向图的示意图。图8为对待识别文本:“近日来,由于A收购Bxx公司的行为,A被进行背景调查,进而揭露出A涉嫌S市的多起传销案件。对此,A作为S市的超级房企竟涉嫌传销风波,引发了社会各界的大量关注。”进行特征抽取、对象实体预测、目标实体预测并组成三元组后,再根据三元组中的对象实体和目标实体之间的待选关联类型构建的有向图谱。如图8所示,预测得到的对象实体包括Axx集团、超级房企、Bxx股份有限公司、涉嫌。其中,Axx集团与传销具有实施关联类型的关联;Axx集团与Bxx股份有限公司具有涉及关联类型的关联;Axx集团与超级房企具有共指的关系;Axx集团与A具有共指关联类型的关联。Bxx股份有限公司与传销具有实施涉及关联类型的关联;Bxx股份有限公司与B具有共指关联类型的关联。超级房企与传销具有实施关联类型的关联。涉嫌与传销之间具有语义肯定关联类型的关联。
例如,请参阅图9。图9示意性地示出了本申请另一实施例根据多个三元组生成的有向图的示意图。图9为对待识别文本:“在对Bxx股份有限公司的收购案的调研期间,C机构通过对B的背景调查,在D机构的帮助下查处了一处虚假融资案件。C联合D机构制止了传销行为,为维护社会稳定做出重要贡献。”进行特征抽取、对象实体预测、目标实体预测并组成三元组后,再根据三元组中的对象实体和目标实体之间的待选关联类型构建的有向图谱。如图9所示,预测得到的对象实体包括C机构、D机构、Bxx股份有限公司、制止。其中,C机构与传销具有实施关联类型的关联;C机构与C具有共指关联类型的关联;C机构与Bxx股份有限公司具有关联的关系。D机构与C机构具有并列关联类型的关联。Bxx股份有限公司与传销具有实施涉及关联类型的关联;Bxx股份有限公司与B具有共指关联类型的关联。制止与传销之间具有语义否定关联类型的关联。
S250.当三元组中存在待选关联类型为实施关联类型的第一类三元组时,将待识别文本识别为对第一类三元组的对象实体具有影响的文本,其中,实施关联类型用于表示对象实体是执行目标实体所示的行为的执行实体。
如此,当三元组中存在待选关联类型为实施关联类型的第一类三元组时,指示了第一类三元组的对象实体实施了相关目标实体所示的行为,也就是说,识别文本对第一类三元组的对象实体具有影响,由此,高效、准确实现对待识别文本的文本类型识别。
具体地,步骤S250的当三元组中存在待选关联类型为实施关联类型的第一类三元组时,将待识别文本识别为对第一类三元组的对象实体具有影响的文本,可以包括:
当三元组中存在待选关联类型为实施关联类型的第一类三元组时,将待识别文本识别为对第一类三元组的对象实体在第一类三元组的目标实体指示的目标实体所示的行为的范围内不具有影响的文本。
由此,可以定向地将待识别文本识别为对对象实体在对应的目标实体的范围内是否具有影响的文本,以使得文本类型识别方法的判定精度更高。
在以上实施例的基础上,在某些实施例中,步骤S210中的获取待识别文本,可以进一步包括以下步骤:获取与待判定主体相关的待识别文本。
图10示意性地示出了本申请某一实施例中当三元组中存在待选关联类型为实施关联类型的第一类三元组时,将待识别文本识别为对第一类三元组的对象实体具有影响的文本的步骤流程。如图10所示,在以上实施例的基础上,在某些实施例中,步骤S250的当三元组中存在待选关联类型为实施关联类型的第一类三元组时,将待识别文本识别为对第一类三元组的对象实体具有影响的文本,可以进一步包括以下步骤S1010~步骤S1020:
S1010.当三元组中存在待选关联类型为实施关联类型的第一类三元组,并且第一类三元组的对象实体为待判定主体时,将待识别文本识别为对待判定主体在第一类三元组的目标实体方面具有影响的文本;
S1020.当三元组中存在待选关联类型为实施关联类型的第一类三元组,并且第一类三元组的对象实体均不同于待判定主体时,将待识别文本识别为对待判定主体在第一类三元组的目标实体方面不具有影响的文本。
如此,实施关联类型的三元组的对象实体为待判定主体时,指示了待判定主体直接实施了相关目标实体所示的行为,也就是说,待识别文本具有对该待判定主体的影响,由此,定向地根据待识别文本针对待判定主体实现高效、准确的待识别文本影响的实体的识别。
在以上实施例的基础上,在某些实施例中,待选关联类型还包括语义肯定关联类型,语义肯定关联类型用于表示一个实体对另一实体进行语义肯定,步骤S250中的当三元组中存在待选关联类型为实施关联类型的第一类三元组时,将待识别文本识别为对第一类三元组的对象实体具有影响的文本,可以进一步包括以下步骤:
当三元组中存在第一类三元组和待选关联类型为语义肯定关联类型的第二类三元组,并且第一类三元组和第二类三元组的目标实体相同时,将待识别文本识别为对第一类三元组的对象实体具有影响的文本。
如此,三元组中存在第一类三元组和待选关联类型为语义肯定关联类型的第二类三元组,并且第一类三元组和第二类三元组的目标实体相同,以语义肯定的态度指示了第一类三元组的对象实体直接实施了相关目标实体所示的行为,也就是说,待识别文本具有与该对象实体具有高度相关的影响性,有利于更为准确地对待识别文本进行文本类型识别。
图11示意性地示出了本申请另一实施例中当三元组中存在待选关联类型为实施关联类型的第一类三元组时,将待识别文本识别为对第一类三元组的对象实体具有影响的文本的步骤流程。如图11所示,在以上实施例的基础上,在某些实施例中,待选关联类型还包括语义否定关联类型,语义否定关联类型用于表示一个实体对另一实体进行语义否定,步骤S250中的当三元组中存在待选关联类型为实施关联类型的第一类三元组时,将待识别文本识别为对第一类三元组的对象实体具有影响的文本,可以进一步包括以下步骤S1110~步骤S1120:
S1110.当三元组中存在第一类三元组和待选关联类型为语义否定关联类型的第三类三元组,并且至少一个第一类三元组与至少一个第三类三元组的目标实体相同时,将待识别文本识别为对第一类三元组的对象实体不具有影响的文本;和/或
S1120.当三元组中存在第一类三元组,并且第一类三元组的客体不是待选关联类型为语义否定关联类型的第三类三元组的目标实体时,将待识别文本识别为对第一类三元组的对象实体具有影响的文本。
如此,三元组中存在第一类三元组和待选关联类型为语义否定关联类型的第三类三元组,并且至少一个第一类三元组与至少一个第三类三元组的目标实体相同,以语义否定的态度形容了第一类三元组的对象实体实施相关目标实体所示的行为,也就是说,该相关行为并非由该第一类三元组的对象实体实施,待识别文本大概率不涉及对于该对象实体的影响性,有利于更为准确地对待识别文本进行文本类型识别。
再者,三元组中存在第一类三元组,并且第一类三元组的客体不是待选关联类型为语义否定关联类型的第三类三元组的目标实体,指示了第一类三元组的对象实体直接实施了相关目标实体所示的行为,并且未以语义否定的态度形容该对象实体实施相关目标实体所示的行为,因此,判定识别文本对第一类三元组的对象实体具有影响,有利于更为准确地对待识别文本进行文本类型识别。
图12示意性地示出了本申请某一实施例中将待识别文本识别为对第一类三元组的对象实体具有影响的文本之后的步骤流程。如图12所示,在以上实施例的基础上,在某些实施例中,待选关联类型还包括并列关联类型,并列关联类型用于表示两个实体共同实施目标实体所示的行为,步骤S250中的将待识别文本识别为对第一类三元组的对象实体具有影响的文本之后,可以进一步包括以下步骤S1210~步骤S1220:
S1210.将第一类三元组的对象实体作为目标对象实体;
S1220.当三元组中存在待选关联类型为并列关联类型的第四类三元组时,将待识别文本识别为对第四类三元组中包括了目标对象实体的三元组的对象实体和目标实体均具有影响的文本。
如此,在将待识别文本识别为对第一类三元组的对象实体具有影响的文本之后,由于三元组中存在待选关联类型为并列关联类型的第四类三元组时,则指示了该包括了目标对象实体的三元组共同实施了相关目标实体所示的行为,因此,将待识别文本识别为对第四类三元组中包括了目标对象实体的三元组的对象实体和目标实体均具有影响的文本,能够以便捷快速的方式,实现更为准确地对待识别文本进行文本类型识别。
在以上实施例的基础上,在某些实施例中,待选关联类型还包括实施涉及关联类型,实施涉及关联类型用于表示对象实体对目标实体所示的行为有涉及,但不实施该目标实体所示的行为,步骤S250中的将待识别文本识别为对第一类三元组的对象实体具有影响的文本之后,可以进一步包括以下步骤:
当三元组中存在待选关联类型为实施涉及关联类型的第五类三元组时,将待识别文本识别为对第五类三元组的对象实体在第五类三元组的目标实体相关的范围内不具有影响的文本。
如此,三元组中存在待选关联类型为实施涉及关联类型的第五类三元组,指示了第五类三元组的对象实体并未实施相关目标实体所示的行为,而只是与目标实体所示的行为或者实现该目标实体所示的行为的主体有关联,因此,将待识别文本识别为对该第五类三元组的对象实体不具有影响,能够实现更为准确地对待识别文本进行文本类型识别。
可以理解,如果仅是基于标题这类短文本进行文本类型识别,往往会造成信息遗漏(如标题中未提及执行目标实体所示的行为的执行实体,但正文中有详细描述)。本申请某些实施方式方法可以基于文本标题、文本摘要以及文本正文中的一项或多项的待识别文本进行文本类型识别,对于文本类型识别的识别准确度更高。
应当注意,尽管在附图中以特定顺序描述了本申请中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
以下介绍本申请的装置实施例,可以用于执行本申请上述实施例中的文本类型识别方法。图13示意性地示出了本申请实施例提供的文本类型识别装置的结构框图。如图13所示,文本类型识别装置1300可以包括:
文本语义特征获取模块1310,被配置为获取待识别文本,并对待识别文本进行特征抽取,得到待识别文本的文本语义特征;
对象实体特征获取模块1320,被配置为根据文本语义特征预测待识别文本中的至少一个对象实体;
待选关联类型集合获取模块1330,被配置为获取与对象实体相关的待选关联类型集合,待选关联类型集合中包括至少一种待选关联类型,待选关联类型用于表示两个实体之间的关联所属的类型;
目标实体预测模块1340,被配置为根据文本语义特征预测与对象实体具有待选关联类型的目标实体,并将对象实体、待选关联类型和目标实体组成三元组;
文本类型识别模块1350,被配置为当三元组中存在待选关联类型为实施关联类型的第一类三元组时,将待识别文本识别为对第一类三元组的对象实体具有影响的文本,其中,实施关联类型用于表示对象实体是执行目标实体所示的行为的执行实体。
在本申请的一些实施例中,基于以上技术方案,待选关联类型还包括语义肯定关联类型,语义肯定关联类型用于表示一个实体对另一实体进行语义肯定,文本类型识别模块包括:
第一识别单元,被配置为当三元组中存在第一类三元组和待选关联类型为语义肯定关联类型的第二类三元组,并且第一类三元组和第二类三元组的目标实体相同时,将待识别文本识别为对第一类三元组的对象实体具有影响的文本。
在本申请的一些实施例中,基于以上技术方案,待选关联类型还包括语义否定关联类型,语义否定关联类型用于表示一个实体对另一实体进行语义否定,文本类型识别模块包括:
第二识别单元,被配置为当三元组中存在第一类三元组和待选关联类型为语义否定关联类型的第三类三元组,并且至少一个第一类三元组与至少一个第三类三元组的目标实体相同时,将待识别文本识别为对第一类三元组的对象实体不具有影响的文本。
在本申请的一些实施例中,基于以上技术方案,文本类型识别模块还包括:
第三识别单元,被配置为当三元组中存在第一类三元组,并且第一类三元组的客体不是待选关联类型为语义否定关联类型的第三类三元组的目标实体时,将待识别文本识别为对第一类三元组的对象实体具有影响的文本。
在本申请的一些实施例中,基于以上技术方案,待选关联类型还包括并列关联类型,并列关联类型用于表示两个实体共同实施目标实体所示的行为,文本类型识别装置还包括:
目标对象实体确定单元,被配置为将第一类三元组的对象实体作为目标对象实体;
第四识别单元,被配置为当三元组中存在待选关联类型为并列关联类型的第四类三元组时,将待识别文本识别为对第四类三元组中包括了目标对象实体的三元组的对象实体和目标实体均具有影响的文本。
在本申请的一些实施例中,基于以上技术方案,待选关联类型还包括实施涉及关联类型,实施涉及关联类型用于表示对象实体对目标实体所示的行为有涉及,但不实施该目标实体所示的行为,文本类型识别装置还包括:
第五识别单元,被配置为当三元组中存在待选关联类型为实施涉及关联类型的第五类三元组时,将待识别文本识别为对第五类三元组的对象实体在第五类三元组的目标实体相关的范围不具有影响的文本。
在本申请的一些实施例中,基于以上技术方案,待选关联类型集合获取模块包括:
实体类型获取模块,被配置为获取对象实体的实体类型,实体类型包括命名实体类和语义倾向类。
待选关联类型集合获取单元,被配置为根据实体类型查询预设数据库,得到与对象实体相关的待选关联类型集合,其中,预设数据库用于存储实体类型与待选关联类型集合的映射关系。
在本申请的一些实施例中,基于以上技术方案,当对象实体的实体类型为命名实体类时,与对象实体相关的待选关联类型集合包括共指关联类型、涉及关联类型、并列关联类型、实施关联类型和实施涉及关联类型,其中,共指关联类型用于表示两个实体指代的是同一对象、涉及关联类型用于表示两个实体之间具有关联,并列关联类型用于表示两个实体共同实施目标实体所示的行为,实施涉及关联类型用于表示对象实体对目标实体所示的行为有涉及,但不实施该目标实体所示的行为。
在本申请的一些实施例中,基于以上技术方案,当对象实体的实体类型为语义倾向类时,与对象实体相关的待选关联类型集合包括语义肯定关联类型和语义否定关联类型,其中语义肯定关联类型用于表示一个实体对另一实体进行语义肯定,语义否定关联类型用于表示一个实体对另一实体进行语义否定。
在本申请的一些实施例中,基于以上技术方案,目标实体预测模块包括:
对象实体编码单元,被配置为对对象实体进行编码,得到对象实体对应的对象实体编码。
目标实体预测单元,被配置为将对象实体编码、文本语义特征与待选关联类型输入到预训练的机器学习模型中,得到与对象实体具有待选关联类型的目标实体。
在本申请的一些实施例中,基于以上技术方案,待选关联类型还包括共指关联类型,共指关联类型用于表示两个实体指代的是同一对象,文本类型识别装置还包括:
共指替换单元,被配置为当三元组中存在待选关联类型为共指关联类型的第六类三元组,将第六类三元组之外的各个三元组中与第六类三元组的对象实体相同的对象实体或目标实体,替换为第六类三元组的目标实体。
在本申请的一些实施例中,基于以上技术方案,文本类型识别装置还包括:
文本长度计算单元,被配置为当三元组中存在至少两个第六类三元组:第一三元组和第二三元组,其中第一三元组的对象实体是第二三元组的目标实体,并且第二三元组的对象实体是第一三元组的目标实体时,计算并对比第一三元组的对象实体的文本长度和第二三元组的对象实体的文本长度。
三元组择一单元,被配置为保留第一三元组和第二三元组中文本长度较长的目标实体所在的三元组,去除文本长度较短的目标实体所在的三元组。
在本申请的一些实施例中,基于以上技术方案,文本语义特征获取模块包括:
待识别文本获取单元,获取与待判定主体相关的待识别文本。
在本申请的一些实施例中,基于以上技术方案,文本类型识别模块包括:
第六识别单元,被配置为当三元组中存在待选关联类型为实施关联类型的第一类三元组,并且第一类三元组的对象实体为待判定主体时,将待识别文本识别为对待判定主体在第一类三元组的目标实体方面具有影响的文本。
第七识别单元,被配置为当三元组中存在待选关联类型为实施关联类型的第一类三元组,并且第一类三元组的对象实体均不同于待判定主体时,将待识别文本识别为对待判定主体在第一类三元组的目标实体方面不具有影响的文本。
在本申请的一些实施例中,基于以上技术方案,待识别文本包括文本标题、文本摘要、文本正文中的一项或多项。
本申请各实施例中提供的文本类型识别装置的具体细节已经在对应的方法实施例中进行了详细的描述,此处不再赘述。
图14示意性地示出了用于实现本申请实施例的电子设备的结构框图。
需要说明的是,图14示出的电子设备1400仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图14所示,电子设备1400包括中央处理器1401(Central Processing Unit,CPU),其可以根据存储在只读存储器1402(Read-Only Memory,ROM)中的程序或者从存储部分1408加载到随机访问存储器1403(Random Access Memory,RAM)中的程序而执行各种适当的动作和处理。在随机访问存储器1403中,还存储有装置工作所需的各种程序和数据。中央处理器1401、在只读存储器1402以及随机访问存储器1403通过总线1404彼此相连。输入/输出接口1405(Input/Output接口,即I/O接口)也连接至总线1404。
以下部件连接至输入/输出接口1405:包括键盘、鼠标等的输入部分1406;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分1407;包括硬盘等的存储部分1408;以及包括诸如局域网卡、调制解调器等的网络接口卡的通信部分1409。通信部分1409经由诸如因特网的网络执行通信处理。驱动器1410也根据需要连接至输入/输出接口1405。可拆卸介质1411,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1410上,以便于从其上读出的计算机程序根据需要被安装入存储部分1408。
特别地,根据本申请的实施例,各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1409从网络上被下载和安装,和/或从可拆卸介质1411被安装。在该计算机程序被中央处理器1401执行时,执行本申请的装置中限定的各种功能。
需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的装置、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行装置、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行装置、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的装置来实现,或者可以用专用硬件与计算机指令的组合来实现。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims (15)

1.一种文本类型识别方法,其特征在于,包括:
获取待识别文本,并对所述待识别文本进行特征抽取,得到所述待识别文本的文本语义特征;
根据所述文本语义特征预测所述待识别文本中的至少一个对象实体;
获取与所述对象实体相关的待选关联类型集合,所述待选关联类型集合中包括至少一种待选关联类型,所述待选关联类型用于表示两个实体之间的关联所属的类型;
根据所述文本语义特征预测与所述对象实体具有所述待选关联类型的目标实体,并将所述对象实体、所述待选关联类型和所述目标实体组成三元组;
当所述三元组中存在待选关联类型为实施关联类型的第一类三元组时,将所述待识别文本识别为对所述第一类三元组的对象实体具有影响的文本,其中,所述实施关联类型用于表示所述对象实体是执行所述目标实体所示的行为的执行实体。
2.根据权利要求1所述的文本类型识别方法,其特征在于,所述待选关联类型还包括语义肯定关联类型,所述语义肯定关联类型用于表示一个实体对另一实体进行语义肯定,所述当所述三元组中存在待选关联类型为实施关联类型的第一类三元组时,将所述待识别文本识别为对所述第一类三元组的对象实体具有影响的文本,包括:
当所述三元组中存在所述第一类三元组和待选关联类型为语义肯定关联类型的第二类三元组,并且所述第一类三元组和所述第二类三元组的目标实体相同时,将所述待识别文本识别为对所述第一类三元组的对象实体具有影响的文本。
3.根据权利要求1所述的文本类型识别方法,其特征在于,所述待选关联类型还包括语义否定关联类型,所述语义否定关联类型用于表示一个实体对另一实体进行语义否定,所述当所述三元组中存在待选关联类型为实施关联类型的第一类三元组时,将所述待识别文本识别为对所述第一类三元组的对象实体具有影响的文本,包括:
当所述三元组中存在所述第一类三元组和待选关联类型为语义否定关联类型的第三类三元组,并且至少一个所述第一类三元组与至少一个所述第三类三元组的目标实体相同时,将所述待识别文本识别为对所述第一类三元组的对象实体不具有影响的文本;和/或
当所述三元组中存在所述第一类三元组,并且第一类三元组的客体不是待选关联类型为语义否定关联类型的第三类三元组的目标实体时,将所述待识别文本识别为对所述第一类三元组的对象实体具有影响的文本。
4.根据权利要求1所述的文本类型识别方法,其特征在于,所述待选关联类型还包括并列关联类型,所述并列关联类型用于表示两个实体共同实施目标实体所示的行为,在所述将所述待识别文本识别为对所述第一类三元组的对象实体具有影响的文本之后,所述方法还包括:
将所述第一类三元组的对象实体作为目标对象实体;
当所述三元组中存在待选关联类型为并列关联类型的第四类三元组时,将所述待识别文本识别为对所述第四类三元组中包括了所述目标对象实体的三元组的对象实体和目标实体均具有影响的文本。
5.根据权利要求1所述的文本类型识别方法,其特征在于,所述待选关联类型还包括实施涉及关联类型,所述实施涉及关联类型用于表示所述对象实体对所述目标实体所示的行为有涉及,但不实施该目标实体所示的行为,在所述将所述待识别文本识别为对所述第一类三元组的对象实体具有影响的文本之后,所述方法还包括:
当所述三元组中存在待选关联类型为实施涉及关联类型的第五类三元组时,将所述待识别文本识别为对所述第五类三元组的对象实体在所述第五类三元组的目标实体相关的范围不具有影响的文本。
6.根据权利要求1所述的文本类型识别方法,其特征在于,所述获取与所述对象实体相关的待选关联类型集合,包括:
获取所述对象实体的实体类型,所述实体类型包括命名实体类和语义倾向类;
根据所述实体类型查询预设数据库,得到与所述对象实体相关的待选关联类型集合,其中,所述预设数据库用于存储所述实体类型与所述待选关联类型集合的映射关系。
7.根据权利要求6所述的文本类型识别方法,其特征在于:
当所述对象实体的实体类型为命名实体类时,与所述对象实体相关的待选关联类型集合包括共指关联类型、涉及关联类型、并列关联类型、实施关联类型和实施涉及关联类型,其中,所述共指关联类型用于表示两个实体指代的是同一对象、所述涉及关联类型用于表示两个实体之间具有关联,所述并列关联类型用于表示两个实体共同实施目标实体所示的行为,所述实施涉及关联类型用于表示所述对象实体对所述目标实体所示的行为有涉及,但不实施该目标实体所示的行为;
当所述对象实体的实体类型为语义倾向类时,与所述对象实体相关的待选关联类型集合包括语义肯定关联类型和语义否定关联类型,其中所述语义肯定关联类型用于表示一个实体对另一实体进行语义肯定,所述语义否定关联类型用于表示一个实体对另一实体进行语义否定。
8.根据权利要求1所述的文本类型识别方法,其特征在于,所述根据所述文本语义特征预测与所述对象实体具有所述待选关联类型的目标实体,包括:
对所述对象实体进行编码,得到所述对象实体对应的对象实体编码;
将所述对象实体编码、所述文本语义特征与所述待选关联类型输入到预训练的机器学习模型中,得到与所述对象实体具有所述待选关联类型的目标实体。
9.根据权利要求1所述的文本类型识别方法,其特征在于,所述待选关联类型还包括共指关联类型,所述共指关联类型用于表示两个实体指代的是同一对象,在所述将所述对象实体、所述待选关联类型和所述目标实体组成三元组之后,所述方法还包括:
当所述三元组中存在待选关联类型为共指关联类型的第六类三元组,将所述第六类三元组之外的各个所述三元组中与所述第六类三元组的对象实体相同的对象实体或目标实体,替换为所述第六类三元组的目标实体。
10.根据权利要求9所述的文本类型识别方法,其特征在于,在所述将所述对象实体、所述待选关联类型和所述目标实体组成三元组之后,所述方法还包括:
当所述三元组中存在至少两个所述第六类三元组:第一三元组和第二三元组,其中所述第一三元组的对象实体是所述第二三元组的目标实体,并且所述第二三元组的对象实体是所述第一三元组的目标实体时,计算并对比所述第一三元组的对象实体的文本长度和所述第二三元组的对象实体的文本长度;
保留所述第一三元组和所述第二三元组中文本长度较长的目标实体所在的三元组,去除文本长度较短的目标实体所在的三元组。
11.根据权利要求1所述的文本类型识别方法,其特征在于,所述获取待识别文本包括:
获取与待判定主体相关的待识别文本;
所述当所述三元组中存在待选关联类型为实施关联类型的第一类三元组时,将所述待识别文本识别为对所述第一类三元组的对象实体具有影响的文本,包括:
当所述三元组中存在待选关联类型为实施关联类型的第一类三元组,并且所述第一类三元组的对象实体为所述待判定主体时,将所述待识别文本识别为对所述待判定主体在第一类三元组的目标实体方面具有影响的文本;
当所述三元组中存在待选关联类型为实施关联类型的第一类三元组,并且所述第一类三元组的对象实体均不同于所述待判定主体时,将所述待识别文本识别为对所述待判定主体在第一类三元组的目标实体方面不具有影响的文本。
12.根据权利要求1-11任意一项所述的文本类型识别方法,其特征在于,所述待识别文本包括文本标题、文本摘要、文本正文中的一项或多项。
13.一种文本类型识别装置,其特征在于,包括:
文本语义特征获取模块,被配置为获取待识别文本,并对所述待识别文本进行特征抽取,得到所述待识别文本的文本语义特征;
对象实体特征获取模块,被配置为根据所述文本语义特征预测所述待识别文本中的至少一个对象实体;
待选关联类型集合获取模块,被配置为获取与所述对象实体相关的待选关联类型集合,所述待选关联类型集合中包括至少一种待选关联类型,所述待选关联类型用于表示两个实体之间的关联所属的类型;
目标实体预测模块,被配置为根据所述文本语义特征预测与所述对象实体具有所述待选关联类型的目标实体,并将所述对象实体、所述待选关联类型和所述目标实体组成三元组;
文本类型识别模块,被配置为当所述三元组中存在待选关联类型为实施关联类型的第一类三元组时,将所述待识别文本识别为对所述第一类三元组的对象实体具有影响的文本,其中,所述实施关联类型用于表示所述对象实体是执行所述目标实体所示的行为的执行实体。
14.一种计算机可读介质,其特征在于,其上存储有计算机程序,该计算机程序被处理器执行时实现权利要求1至12中任意一项所述的文本类型识别方法。
15.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至12中任意一项所述的文本类型识别方法。
CN202111628067.6A 2021-11-30 2021-12-28 文本类型识别方法、装置、计算机可读介质及电子设备 Pending CN114357163A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202111448168 2021-11-30
CN2021114481685 2021-11-30

Publications (1)

Publication Number Publication Date
CN114357163A true CN114357163A (zh) 2022-04-15

Family

ID=81102755

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111628067.6A Pending CN114357163A (zh) 2021-11-30 2021-12-28 文本类型识别方法、装置、计算机可读介质及电子设备

Country Status (1)

Country Link
CN (1) CN114357163A (zh)

Similar Documents

Publication Publication Date Title
CN111444340B (zh) 文本分类方法、装置、设备及存储介质
CN112131350B (zh) 文本标签确定方法、装置、终端及可读存储介质
CN112270196B (zh) 实体关系的识别方法、装置及电子设备
CN111708873A (zh) 智能问答方法、装置、计算机设备和存储介质
CN112084331A (zh) 文本处理、模型训练方法、装置、计算机设备和存储介质
CN112015859A (zh) 文本的知识层次抽取方法及装置、计算机设备及可读介质
CN111046275B (zh) 基于人工智能的用户标签确定方法及装置、存储介质
KR20190080234A (ko) 컨벌루션 신경망 기반 영문 텍스트 정형화 방법
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN111858940B (zh) 一种基于多头注意力的法律案例相似度计算方法及系统
CN111666500A (zh) 文本分类模型的训练方法及相关设备
KR20210023452A (ko) 속성 단위 리뷰 분석 장치 및 방법
CN113761190A (zh) 文本识别方法、装置、计算机可读介质及电子设备
CN112052424B (zh) 一种内容审核方法及装置
CN114722141A (zh) 文本检测方法及装置
CN114416995A (zh) 信息推荐方法、装置及设备
CN113704393A (zh) 关键词提取方法、装置、设备及介质
CN113836866A (zh) 文本编码方法、装置、计算机可读介质及电子设备
Feng et al. Ontology semantic integration based on convolutional neural network
JP2023517518A (ja) ヌル値又は同等の値を有するリレーショナル・テーブルのためのベクトル埋込モデル
CN114491076B (zh) 基于领域知识图谱的数据增强方法、装置、设备及介质
CN111914201B (zh) 网络页面的处理方法及装置
CN117151089A (zh) 新词发现方法、装置、设备和介质
CN114398482A (zh) 一种词典构造方法、装置、电子设备及存储介质
CN114911940A (zh) 文本情感识别方法及装置、电子设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination