CN114662496A - 信息识别方法、装置、设备、存储介质及产品 - Google Patents

信息识别方法、装置、设备、存储介质及产品 Download PDF

Info

Publication number
CN114662496A
CN114662496A CN202210166578.9A CN202210166578A CN114662496A CN 114662496 A CN114662496 A CN 114662496A CN 202210166578 A CN202210166578 A CN 202210166578A CN 114662496 A CN114662496 A CN 114662496A
Authority
CN
China
Prior art keywords
information
text
target
semantic
semantic feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210166578.9A
Other languages
English (en)
Inventor
张明昊
刘晓龙
李博
陈曦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202210166578.9A priority Critical patent/CN114662496A/zh
Publication of CN114662496A publication Critical patent/CN114662496A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种信息识别方法、装置、设备、存储介质及产品,属于人工智能技术领域。所述方法包括:获取目标文本对应的目标语料单元;获取目标语料单元对应的注释文本;对目标文本进行字词语义信息提取处理,得到目标语料单元对应的第一语义特征信息;对注释文本进行文本语义信息提取处理,得到注释文本对应的第二语义特征信息;基于第一语义特征信息与第二语义特征信息,对目标文本进行喻体信息识别处理,得到目标文本对应的喻体信息。本申请提供的技术方案,通过提取目标文本中目标语料单元及其注释文本各自对应的语义特征信息,可以识别目标文本中采用比喻修辞的喻体信息,能够降低人工成本并提升喻体信息识别的准确性。

Description

信息识别方法、装置、设备、存储介质及产品
技术领域
本申请涉及人工智能技术领域,特别涉及一种信息识别方法、装置、设备、 存储介质及产品。
背景技术
随着互联网技术的发展,网络中出现海量文本。一些用户选择使用比喻来 规避互联网的安审策略,比如隐喻。
相关技术中,通常采用人工审核的方式来判断互联网发布的文本内容中是 否包含比喻信息,并人工标记比喻信息是否符合规定;或者,结合已有的比喻 案例和语义规则对新出现的文本进行识别,判断其中是否包含不合规的比喻信 息。
相关技术中,针对比喻信息的信息识别准确性低,人工成本高。
发明内容
本申请实施例提供了一种信息识别方法、装置、设备、存储介质及产品, 能够提升喻体信息识别的准确性,降低人工成本。
根据本申请实施例的一个方面,提供了一种信息识别方法,所述方法包括:
获取目标文本对应的目标语料单元;
获取所述目标语料单元对应的注释文本;
对所述目标文本进行字词语义信息提取处理,得到所述目标语料单元对应 的第一语义特征信息;
对所述注释文本进行文本语义信息提取处理,得到所述注释文本对应的第 二语义特征信息;
基于所述第一语义特征信息与所述第二语义特征信息,对所述目标文本进 行喻体信息识别处理,得到所述目标文本对应的喻体信息。
根据本申请实施例的一个方面,提供了一种信息识别装置,所述装置包括:
目标语料获取模块,用于获取目标文本对应的目标语料单元;
注释文本获取模块,用于获取所述目标语料单元对应的注释文本;
语义信息提取模块,用于对所述目标文本进行字词语义信息提取处理,得 到所述目标语料单元对应的第一语义特征信息;
所述语义信息提取模块,还用于对所述注释文本进行文本语义信息提取处 理,得到所述注释文本对应的第二语义特征信息;
喻体信息识别模块,用于基于所述第一语义特征信息与所述第二语义特征 信息,对所述目标文本进行喻体信息识别处理,得到所述目标文本对应的喻体 信息。
根据本申请实施例的一个方面,提供了一种计算机设备,所述计算机设备 包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代 码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集 由所述处理器加载并执行以实现上述信息识别方法。
根据本申请实施例的一个方面,提供了一种计算机可读存储介质,所述存 储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一 条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现 上述信息识别方法。
根据本申请实施例的一个方面,提供了一种计算机程序产品,所述计算机 程序产品包括计算机指令,所述计算机指令存储在计算机可读存储介质中。计 算机设备的处理器从计算机可读存储介质读取所述计算机指令,所述处理器执 行所述计算机指令,使得所述计算机设备执行以实现上述信息识别方法。
本申请实施例提供的技术方案可以带来如下有益效果:
通过对目标文本进行字词语义信息提取处理,可以得到目标文本中目标语 料单元对应的语义特征信息,通过对目标语料单元对应的注释文本进行文本语 义信息提取处理,可以得到注释文本对应的语义特征信息,基于目标语料单元 的语义特征信息以及目标语料单元对应的注释文本的第二语义特征信息,可以 对目标文本进行喻体信息识别,得到目标文本中采用比喻修辞的喻体信息,无 需人工标注,降低了人工成本,并且结合目标语料单元对应的注释文本的语义 特征进行喻体识别的方式,能够提升喻体信息识别的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所 需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请 的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下, 还可以根据这些附图获得其他的附图。
图1是本申请一个实施例提供的应用程序运行环境的示意图;
图2是本申请一个实施例提供的信息识别方法的流程图一;
图3是本申请一个实施例提供的信息识别方法的流程图二;
图4示例性示出了一种确定语义相似度的流程示意图;
图5是本申请一个实施例提供的信息识别装置的框图;
图6是本申请一个实施例提供的计算机设备的结构框图。
具体实施方式
本申请实施例提供的信息识别方法可应用于各种场景,包括但不限于云技 术、人工智能、智慧交通、辅助驾驶等。
本申请实施例提供的信息识别方法涉及人工智能技术、云技术,下面对此 进行简要说明,以便于本领域技术人员理解。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最 佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的 一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似 的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与 实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有 软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、 云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。 人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技 术以及机器学习/深度学习等几大方向。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工 智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有 效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学 于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语 言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本 处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统 计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模 拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构 使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能 的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括 人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络 等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。
云计算(cloud computing)是一种计算模式,它将计算任务分布在大量计算机 构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息 服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无 限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费。
作为云计算的基础能力提供商,会建立云计算资源池(简称云平台,一般称 为IaaS(Infrastructure as a Service,基础设施即服务)平台,在资源池中部署多种 类型的虚拟资源,供外部客户选择使用。云计算资源池中主要包括:计算设备(为 虚拟化机器,包含操作系统)、存储设备、网络设备。
按照逻辑功能划分,在IaaS(Infrastructure as a Service,基础设施即服务)层上可以部署PaaS(Platform as a Service,平台即服务)层,PaaS层之上再部署SaaS(Software as a Service,软件即服务)层,也可以直接将SaaS部署在IaaS上。PaaS 为软件运行的平台,如数据库、web(网络)容器等。SaaS为各式各样的业务软 件,如web门户网站、短信群发器等。一般来说,SaaS和PaaS相对于IaaS是 上层。
云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、 存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的 高度发展和应用,出现的海量文本将来都有可能存在自己的识别标志,都需要 传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业 数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
人工智能云服务,一般也被称作是AIaaS(AI as a Service,中文为“AI即 服务”)。这是目前主流的一种人工智能平台的服务方式,具体来说AIaaS平 台会把几类常见的AI服务进行拆分,并在云端提供独立或者打包的服务。这种 服务模式类似于开了一个AI主题商城:所有的开发者都可以通过API接口的方 式来接入使用平台提供的一种或者是多种人工智能服务,部分资深的开发者还 可以使用平台提供的AI框架和AI基础设施来部署和运维自已专属的云人工智 能服务。
随着人工智能技术和云技术的研究和进步,人工智能技术与云技术在多个 领域展开研究和应用。例如常见的信息服务系统、智能家居、智能穿戴设备、 虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智 能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得 到应用,并发挥越来越重要的价值。
本申请提供一种信息识别方法,可结合上述人工智能技术与云技术,对文 本进行信息识别,以识别出其中采用比喻修辞方式的喻体信息。
下面对本申请方法实施例中可能涉及的应用场景、相关术语或者名词进行 简要介绍,以便于本申请领域技术人员理解。
隐喻是人类思想和语言理解的核心问题。随着互联网发展和海量文本出现, 越来越多的用户选择使用隐喻来规避现有的审核策略,例如使用隐喻的手法进 行谩骂或发布不宜言论,对隐喻文本进行自动识别在审核业务中成为了一种迫 切的需求。
隐喻是用来描述和理解抽象概念的主要手段,它不但是一种语言现象,也 是一种认知方式。人们常常用简单的、具体的、熟悉的概念去描述和解释那些 复杂的、抽象的、未知的概念,从而形成概念并用以体验和感知世界。例如“时 间就是金钱”,在这一隐喻当中就是使用“金钱”这一具体的概念去描述“时间”这 一抽象概念当中所具有的宝贵的属性。隐喻的本质是从具体概念域(源域)到 抽象概念域(目标域)的系统映射。
本申请实施例提供的信息识别方法可用于隐喻识别,计算机设备应用上述 方法可自动化识别文本中的喻体信息。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请 实施方式作进一步地详细描述。
请参考图1,其示出了本申请一个实施例提供的应用程序运行环境的示意图。 该应用程序运行环境可以包括:终端10和服务器20。
终端10包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终 端、游戏主机、电子书阅读器、多媒体播放设备、可穿戴设备、飞行器等电子 设备。终端10中可以安装应用程序的客户端。
在本申请实施例中,上述应用程序可以是任何能够提供信息服务的应用程 序。典型地,该应用程序为社交类应用程序。当然,除了社交类应用程序之外, 其它类型的应用程序中也可以提供信息服务。例如,兴趣类应用程序、评论类 应用程序、视频类应用程序、新闻类应用程序、互动娱乐类应用程序、浏览器 应用程序、购物类应用程序、内容分享类应用程序、虚拟现实(Virtual Reality, VR)类应用程序、增强现实(Augmented Reality,AR)类应用程序等,本申请 实施例对此不作限定。另外,对于不同的应用程序来说,其涉及的文本内容也 会有所不同,且相应的功能也会有所不同,这都可以根据实际需求预先进行配 置,本申请实施例对此不作限定。可选地,终端10中运行有上述应用程序的客 户端。
服务器20用于为终端10中的应用程序的客户端提供后台服务。例如,服 务器20可以是上述应用程序的后台服务器。服务器20可以是独立的物理服务 器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提 供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件 服务、域名服务、安全服务、CDN(Content DeliveryNetwork,内容分发网络)、 以及大数据和人工智能平台等基础云计算服务的云服务器。可选地,服务器20 同时为多个终端10中的应用程序提供后台服务。
可选地,终端10和服务器20之间可通过网络30进行互相通信。终端10 以及服务器20可以通过有线或无线通信方式进行直接或间接地连接,本申请在 此不做限制。
请参考图2,其示出了本申请一个实施例提供的信息识别方法的流程图一。 该方法可应用于计算机设备中,所述计算机设备是指具备数据计算和处理能力 的电子设备,如各步骤的执行主体可以是图1所示的应用程序运行环境中的终 端10或服务器20。该方法可以包括以下几个步骤(201~205)。
步骤201,获取目标文本对应的目标语料单元。
上述目标文本为本申请实施例中的待检测文本。上述目标文本包括但不限 于视频文本、音频文本、录音文本、文章文本、段落文本、语句文本。上述视 频文本包括但不限于视频对应的字幕文本、旁白文本、音频转录文本等。
上述目标语料单元包括但不限于目标文本中的字和/或词,比如目标文本中 的名词、动词、形容词、副词以及单个的字都可以作为上述目标语料单元。
可选地,上述目标语料单元可以通过对上述目标文本进行字词识别的方式 得到。比如,对上述目标文本进行字词识别处理,得到语料单元序列;将上述 语料单元序列中符合预设字词条件的字和/或词确定为目标语料单元。上述预设 字词条件包括但不限于词性条件。比如,词性条件为词性为名词和/或动词;相 应的,将目标文本中的名词和/或动词确定为目标语料单元。
在示例性实施例中,如图3所示,上述步骤210可以包括如下步骤 (2011~2013),图3示出了本申请一个实施例提供的信息识别方法的流程图二。
步骤2011,对目标文本进行分词处理,得到语料单元序列。
通过分词方法,将输入的目标文本切分为单词,得到上述语料单元序列。 语料单元序列包括至少一个识别语料单元。上述分词处理对应的分词结果即是 将上述目标文本划分为各个被识别出来的语料单元。
可选地,将上述目标文本输入至分词机器学习模型进行上述分词处理,得 到上述语料单元序列。
可选地,获取目标文本中的各个字符构成的字符序列,将上述字符序列中 的各个字符输入至分词神经网络模型,分词神经网络模型能够学习获取各个字 符之间的关联关系,根据关联关系输出分词结果,上述分词结果中的各个识别 语料单元按照其在目标文本中的位置顺序,构成上述语料单元序列。
步骤2012,获取至少一个识别语料单元对应的词性信息。
由于比喻信息可根据不同词性分为不同类型,比如比喻中的隐喻通常分为 名词隐喻和动词隐喻,因此可获取上述至少一个识别语料单元对应的词性信息, 从而找到目标语料单元。上述词性信息用于表征字词对应的词性类型。
可选地,获取语料单元与词性类型之间的对应关系信息库;获取上述至少 一个识别语料单元之后,基于上述对应关系库,可以确定上述至少一个识别语 料单元对应的词性信息。
步骤2013,基于词性信息,确定目标语料单元。
可选地,将上述至少一个识别语料单元中词性类型为目标词性类型的识别 语料单元,确定为上述目标语料单元。上述目标词性类型包括名词类型、动词 类型等,本申请实施例对此不作限定。比如,将目标文本中的名词和动词确定 为目标语料单元。
对于目标文本中除目标语料单元之外的其他语料单元,可作为语境语料单 元。
步骤202,获取目标语料单元对应的注释文本。
在一种可能的实施方式中,获取字词典信息,字词典信息中包括多个语料 单元对应的至少一条注释文本;获取到上述目标语料单元后,可从上述字词典 信息中获取上述目标语料单元对应的注释文本。
可选地,上述字词典信息包括但不限于中文词典、英文词典等各种语言的 词典,以及各种编程语言的词典,本申请实施例对此不作限定,上述字词典信 息的选取可根据具体的应用场景进行灵活配置。
可选地,上述注释文本为上述目标语料单元在上述字词典信息中对应的前 预设数量条注释文本。
比如,上述注释文本为上述目标语料单元在上述字词典信息中对应的第一 条注释文本。由于一些词典中收录的词汇的第一条注释是该词汇最普遍最常用 的释义,因此该注释文本可表征相应语料单元本身的语义信息,选择注释文本 作为参考,可有效提升喻体信息识别的准确率。
步骤203,对目标文本进行字词语义信息提取处理,得到目标语料单元对应 的第一语义特征信息。
可选地,上述目标语料单元对应的第一语义特征信息是目标语料单元在目 标文本中对应的语义特征信息,表示的是目标语料单元在目标文本中对应的实 际语义信息。
在示例性实施例中,目标文本包括目标语料单元和语境语料单元,语境语 料单元是目标文本中除目标语料单元之外的语料单元;相应的,如图3所示, 上述步骤203可以包括下述步骤(2031~2302)。
步骤2031,将目标文本输入语义特征提取模型。
步骤2032,基于语义特征提取模型,对语境语料单元进行语义信息特征提 取处理,得到目标语料单元对应的第一语义特征向量。
其中,第一语义特征信息包括第一语义特征向量,第一语义特征向量用于 表征目标语料单元在目标文本中对应的语义信息。
在一种可能的实施方式中,将上述目标文本中的目标语料单元替换为预设 标记符,得到替换后的目标文本,上述替换后的目标文本包括上述预设标记符 和上述语境语料单元,将替换后的目标文本输入至语义特征提取模型,基于上 述语义特征提取模型,对上述替换后的目标文本中的语境语料单元进行语义信 息特征提取处理,输出目标语料单元对应的第一语义特征向量。
在示例性实施例中,语义特征提取模型是基于样本文本训练的机器学习模 型,上述样本文本对应的喻体信息的信息量小于信息量阈值。可选地,上述样 本文本包括至少两条语句文本。
由于隐喻信息在日常文本中大量存在,因此一些预训练语言模型中已经部 分包含了隐喻信息,不利于喻体信息识别。因此,本申请实施例选择从相对严 肃客观的新闻和学术论文中收集样本文本来训练上述语义特征提取模型。由于 新闻和学术论文具有客观严肃的特点,其中包含的隐喻信息相对较少,可从中 选取隐喻信息的信息量少于信息量阈值的文本作为样本文本,或者将上述新闻 文本和学术论文中的文本作为样本文本。上述隐喻信息的信息量可根据文本中 隐喻字词的数量确定。基于上述样本文本对上述目标机器学习模型进行训练, 可以得到训练好的语义特征提取模型,这样训练出来的语义特征提取模型输出 的特征信息也将不包含隐喻信息或包含较少的隐喻信息,能够提升语义特征信息的准确性为稳定性,有利于提升后续步骤中通过比较语义特征信息来识别文 本中的喻体信息的准确性。
可选地,上述样本文本还包括互动评论文本、文学名著、法律文本中的文 本,本申请对此不作限定。
可选地,上述目标机器学习模型为基于转换模型的双向编码标识模型(Bidirectional Encoder Representations from Transformers,BERT)。可选地,上 述BERT模型包括12层编码器和12层解码器,每个编/解码器的隐藏层维度为768,相应的,输出的语义特征向量也为768维。
在一种可能的实施方式中,上述语义特征提取模型对应的训练任务分为两 个不同的部分。其中之一是字符遮挡任务(Masked Language Model,Masked LM), 其对应的操作包括:将样本文本中的某个字词随机替换为预设标记符[Mask],然 后将替换后的样本文本输入至语义特征提取模型,以使语义特征提取模型根据 该样本文本中除该字词外的其他语境字词,来对预设标记符所在位置上的字词 进行预测,得到该字词对应的嵌入特征向量。
相应的,上述语义特征提取模型的训练过程包括如下内容:
遍历至少两条语句文本。可选地,遍历上述至少两条语句文本中的每一条 语句文本。
每遍历一条语句文本,将遍历到的语句文本中目标位置上的语料单元替换 为预设标记符,得到替换后的语句文本。可选地,上述目标位置是随机确定的 位置,上述语料单元可以是语句文本中目标位置上的字或词。
将替换后的语句文本输入目标机器学习模型,输出语料单元对应的语义特 征向量。上述目标位置上的语料单元可作为目标机器学习模型要预测的语料单 元,目标位置上的语料单元替换为预设标记符后,替换后的语句文本中只包括 目标位置之外的语料单元。替换后的语句文本中的语料单元是目标位置上的语 料单元对应的语境语料单元。目标机器学习模型可以基于语境语料单元来表示 目标位置上的语料单元,得到该语料单元对应的语义特征向量。
在至少两条语句文本遍历完成的情况下,基于目标机器学习模型,得到语 义特征提取模型。可选地,在至少两条语句文本遍历完成的情况下,目标机器 学习模型学习到了样本文本中的语言知识,可将该目标机器学习模型确定为上 述语义特征提取模型。
上述语义特征提取模型对应的另一个任务是上下文预测任务(Next SentencePrediction),即判断输入的两个文本是否为上下文的关系。相应的,上述训练 过程还包括如下内容:
确定至少两条语句文本中的语句文本对。可选地,语句文本对基于至少两 条语句文本中不同的两条语句文本确定。在一种可能的实施方式中,可将至少 两条语句文本中的语句文本两两随机组合,得到多个语句文本对。
遍历语句文本对;可选地,遍历上述多个语句文本对中的每一对语句文本。
将遍历到的语句文本对输入目标机器学习模型,输出遍历到的语句文本对 对应的上下文关系信息。上述上下文关系信息用于表征遍历到的语句文本对中 的两条语句文本之间的上下文关系。可选地,上述目标机器学习模型可以对输 入的一对语句文本中的各个语料单元进行特征提取处理,得到两个语句文本中 各自对应的语料单元的嵌入特征向量。然后,分别对两个语句文本对应的各个 语料单元对应的嵌入特征向量进行平均池化处理,得到两个语句文本对应的文 本语义特征向量,从而根据上述两个语句文本对应的文本语义特征向量,判断 两个语句文本是否为上下文关系。根据两个语句文本在样本文本中的实际位置 关系,可以判断目标机器学习模型输出的上下文关系信息是否准确,从而完成对目标机器学习模型的训练。
在至少两条语句文本遍历完成且语句文本对遍历完成的情况下,基于目标 机器学习模型,得到语义特征提取模型。可选地,在至少两条语句文本且语句 文本对遍历完成的情况下,完成了上述两种训练任务,目标机器学习模型学习 到了样本文本中高阶的语言知识,因此可将该目标机器学习模型确定为上述语 义特征提取模型。
基于上述两个任务对上述语义特征提取模型进行训练,可以使语义特征提 取模型获得相关语境的语言知识,从而能够根据动态的语境字词提取目标字词 对应的语义特征向量,能够更好地区分词汇在不同语境下的不同含义,解决一 词多义造成的识别难点。
本申请实施例中,训练上述语义特征提取模型所采用的样本文本中隐喻信 息的信息量小于等于信息量阈值,因此可提升语义特征信息提取的准确率,确 保语义特征信息的准确性,避免样本文本中的隐喻信息对语义信息特征提取处 理的准确性造成影响。
为了验证模型第一步所训练的语义特征提取模型是切实有效的,能够合理 建立字词对应的特征嵌入空间并确定字词对应的语义特征向量。本申请实施例 中的语义特征提取模型还可用其他语料资源进行训练,上述其他语料资源可取 代上述学术论文和新闻文本作为样本文本。在一些实际应用场景中,可选取百 科文本、帐号发布文本以及信息流文本作为样本文本对语义特征提取模型进行 预训练和训练。在相似度阈值设置为0.8的情况下,不同样本文本训练得到的语 义特征提取模型对应的喻体信息识别效果可通过准确率(Acc)、精确率(P)、 召回率(R)以及F1值(F1-score)等识别质量参数来衡量,上述准确率、精确 率、召回率以及F1值与上述语义特征提取模型对应的喻体信息识别效果呈正相关。示例性地,使用上述三种样本文本以及本申请实施例选择的样本文本训练 的语义特征提取模型对应的识别质量参数可参考下表1。
表1
样本文本 Acc P R F1
学术论文以及新闻文本 0.7396 0.7218 0.7092 0.7358
百科文本 0.6791 0.6768 0.6587 0.6706
帐号发布文本 0.6864 0.6762 0.6800 0.6880
信息流文本 0.6652 0.6600 0.6495 0.6595
根据表1所示结果,本申请实施例中将学术论文以及新闻文本作为样本文 本来训练语义特征提取模型,对于喻体信息识别任务的效果有很大的帮助。侧 面说明样本文本中包含更多的符合词汇本身语义的字词可以帮助训练出的语义 特征提取模型中的词汇模式更接近其“本意”,在后续确定语义相似度以及寻 找相似词时能够得到更加合适的结果,从而有助于提高喻体信息识别的识别准 确性,结果提升在5%以上。
此外,上述语义特征提取模型对应的样本文本无需进行标注,还降低了样 本标注成本,基于上述语义特征提取模型的信息识别方法是一种无监督的喻体 信息识别方法,无需依赖大量的标注和大量的训练数据,计算开销小,并且模 型可解释性强,通过上述语义特征提取模型可以准确提取目标语料单元在目标 文本中的语义特征,以及注释文本的文本语义特征,不会被样本文本中的隐喻 信息所干扰。
步骤204,对注释文本进行文本语义信息提取处理,得到注释文本对应的第 二语义特征信息。
可选地,对上述注释分别进行分词处理,得到注释语料单元序列。注释语 料单元序列包括至少一个注释语料单元,上述至少一个注释语料单元是上述分 词处理得到的结果。
可选地,上述注释语料单元为注释字词,上述注释字词为注释文本中的字 和/或词。
得到上述至少一个注释语料单元后,可对进行文本语义信息提取处理,从 而得到整个注释文本对应的语义特征信息,即上述第二语义特征信息。上述第 二语义特征信息用于表征上述注释文本的文本语义信息。注释文本的文本语义 信息用于表征目标语料单元本身的语义信息。
在示例性实施例中,注释文本包括至少一个注释语料单元;相应的,如图3 所示,上述步骤204的实施过程可以包括如下步骤(2041~2043)。
步骤2041,将注释文本输入语义特征提取模型。
步骤2042,基于语义特征提取模型,对至少一个注释语料单元进行语义信 息特征提取处理,得到至少一个注释语料单元对应的嵌入特征向量。
嵌入特征向量用于表征至少一个注释语料单元对应的语义信息。
在一种可能的实施方式中,将上述至少一个注释语料单元输入至上述语义 特征提取模型,输出至少一个注释语料单元各自对应的嵌入特征向量。
步骤2043,基于嵌入特征向量,确定注释文本对应的第二语义特征向量。
其中,第二语义特征信息包括第二语义特征向量,第二语义特征向量用于 表征注释文本的语义信息。
可选地,对上述至少一个注释语料单元各自对应的嵌入特征向量进行平均 池化处理,得到上述注释文本对应的第二语义特征向量。
可选地,上述第一语义特征向量与上述第二语义特征向量的维度设置为768 维。
步骤205,基于第一语义特征信息与第二语义特征信息,对目标文本进行喻 体信息识别处理,得到目标文本对应的喻体信息。
比喻的修辞手法中通常包括两个要素,分别是本体信息和喻体信息。在比 喻中,通常将本体信息比作喻体信息。获取上述第一语义特征信息与第二语义 特征信息之后,由于第一语义特征信息可表征目标语料单元在目标文本中的语 义信息,第二语义特征信息可表征目标语料单元本身的语义信息,因此可将上 述第一语义特征信息和第二语义特征信息进行比较,进而判断目标语料单元在 目标文本中的语义信息与其本身的语义信息是否相符。若目标语料单元在目标 文本中的语义信息与其本身的语义信息相符,那么该目标语料单元就不是喻体 信息,而是普通的文本信息。若目标语料单元在目标文本中的语义信息与其本 身的语义信息不相符,则可认为上述目标语料单元是比喻中的喻体字词,即是目标文本中的喻体信息。
在一些应用场景中,上述比喻为具体的隐喻,使用隐喻修辞的文本中通常 不包括本体信息和比喻词。通过上述信息识别方法,即使目标文本中不包括本 体信息和比喻词,也可根据上述两种语义特征信息,识别出目标文本中的喻体 信息,提升了喻体信息识别的准确性。
在示例性实施例中,上述步骤205的实施过程可以包括如下步骤 (2051~2052)。
步骤2051,确定第一语义特征信息与第二语义特征信息之间的语义相似度。
可选地,上述第一语义特征信息包括上述第一语义特征向量,上述第二语 义特征信息包括上述第二语义特征向量。
在步骤2051中,可以确定上述第一语义特征向量与第二语义特征向量之间 的向量相似度,将上述向量相似度作为上述语义相似度。上述语义相似度用于 表征第一语义特征信息与第二语义特征信息之间的相似程度。上述向量相似度 可以是余弦相似度、欧式距离等,本申请实施例对此不作限定。
在一个示例中,如图4所示,其示例性示出了一种确定语义相似度的流程 示意图。在图4的流程中,待检测的目标文本包括语境词1、…、目标词、…、 语境词m,m为大于1的整数;目标语料单元在字词典信息中对应的注释文本 包括注释词1、…、注释词n,n为大于1的整数;将目标文本和注释文本分别 输入到BERT模型中,分别输出目标词在目标文本的语境下对应的第一语义特 征向量w和注释文本对应的第二语义特征向量s,其中第二语义特征向量s是根 据注释文本中各个注释词对应的嵌入特征向量进行平均池化得到的语义特征向 量。然后,计算第一语义特征向量w和第二语义特征向量s之间的余弦相似度 (cos(w,s))。可选地,余弦相似度可作为上述两个向量之间的语义相似度。
步骤2052,若语义相似度小于等于相似度阈值,则将目标语料单元确定为 喻体信息。
若语义相似度小于等于相似度阈值,说明目标语料单元在目标文本中的语 义信息与目标语义单元本身的语义信息之间的差异较大,可认定该目标语料单 元为喻体信息。若语义相似度大于相似度阈值,说明目标语料单元在目标文本 中的语义信息与目标语义单元本身的语义信息相同或者相近,不是喻体信息, 进而将目标语料单元确定为普通文本信息。
可选地,上述相似度阈值为超参数,可以根据实际应用需求进行设置。相 似度阈值设置越高,则喻体信息判定越宽松;相似度阈值设置越低,则喻体信 息判定越严格。
在一种可能的实际应用场景中,通过遍历阈值区间的方式,比如阈值区间 为[0.3-1],确定上述相似度阈值。
本实施例中可将上述信息识别方法的评价指标设置为准确率(Acc)、精确 率(P)、召回率(R)以及F1值(F1-score),上述准确率、精确率、召回率 以及F1值与方法识别效果呈正相关。对于不同的相似度阈值,其对应的上述信 息识别方法的准确率、精确率、召回率以及F1值可能不同,具体结果可参见下 表2。
表2
相似度阈值 准确率 精确率 召回率 F1值
0.3 0.5337 0.2678 0.5000 0.3738
0.4 0.5660 0.6256 0.5496 0.4763
0.5 0.6575 0.6617 0.6651 0.6593
0.6 0.7066 0.6924 0.6926 0.7067
0.7 0.7253 0.7068 0.7024 0.7238
0.8 0.7396 0.7218 0.7092 0.7358
0.9 0.5758 0.6000 0.5885 0.5635
1.0 0.5357 0.2678 0.5000 0.3738
根据上述数据可知,在相似度阈值为0.8时,上述准确率、精确率、召回率 以及F1值均为最大值,说明喻体信息识别效果较准确。
本申请实施例中,若某个目标语料单元对应的语义相似度小于等于相似度 阈值的,可以将该目标语料单元确定为喻体信息,这样相当于把喻体信息识别 任务,简化为一种异常点识别任务,识别出所对应的语义相似度小于等于相似 度阈值的目标语料单元,即是识别出了目标文本中的喻体信息,提升了喻体信 息识别效率。
在示例性实施例中,如图3所示,上述步骤205之后,还可以包括如下步 骤(206~209)。
步骤206,在喻体信息包括目标语料单元的情况下,确定目标语料单元为喻 体语料单元。
获取语义相似度小于等于相似度阈值的目标语料单元,并将这部分目标语 料单元确定为喻体语料单元。可选地,上述喻体语料单元为目标文本中使用比 喻修辞的喻体字词,包括喻体字、喻体词。
步骤207,根据第一语义特征信息确定喻体语料单元对应的本体语料单元。
由于第一语义特征信息是目标语料单元在目标文本对应的语境下对应的语 义信息,因此在一些目标语料单元被确定为是喻体语料单元后,可根据喻体语 料单元对应的第一语义特征信息,确定喻体语料单元对应的本体语料单元。上 述本体语料单元自身的语义特征信息与上述喻体语料单元对应的第一语义特征 信息相匹配,即可理解为喻体语料单元在目标文本对应的语境下对应的语义信 息,与其隐喻的本体语料单元自身的语义信息相同。
步骤208,获取本体语料单元对应的本体内容类型信息。
本体内容类型信息用于表征本体语料单元对应的内容类型。
上述内容类型包括合规类型和不合规类型。上述合规类型是指符合预设规 定的词汇类型,相应的,上述不合规类型是指符合预设规定的词汇类型。
步骤209,根据本体内容类型信息,确定喻体语料单元对应的喻体内容类型 信息。
喻体内容类型信息用于表征喻体语料单元对应的内容类型。
在本体内容类型信息指示本体语料单元对应的内容类型为合规类型的情况 下,确定喻体语料单元对应的内容类型为合规类型;在本体内容类型信息指示 本体语料单元对应的内容类型为不合规类型的情况下,确定喻体语料单元对应 的内容类型为不合规类型。
在喻体内容类型信息指示喻体语料单元对应的内容类型为不合规类型的情 况下,对上述目标文本进行过滤处理。上述过滤处理包括禁止发布、停止上传、 下架、退回发布等处理,本申请实施例对此不作限定。
在一些可能的场景中,根据文本或文本中词汇本身的含义,来确定文本或 词汇的内容类型,很难对文本的真实语义作出判断。对于人来说,可以通过阅 读轻松地识别出句子中的隐喻以及负向情感。但是对于计算机来说,由于不具 备真正意义上的智能和联想,很容易将注意力放在一些积极的词汇上,并且容 易忽略隐喻词对含义的影响,无法准确确定隐喻词特征,因此很难通过判断句 子的中各字词本身的含义来对句子真正的含义做出判断。
而本申请实施例可以根据目标文本中的喻体字词在目标文本的语境中对应 的实际语义,确定喻体字词对应的本体字词,并根据本体字词的内容类型判断 喻体字词的内容类型,从而精确识别出不符合规定的目标文本,并进行相应的 处理,提升了信息筛选过滤效率,减少误判的同时,提升文本召回率。
在示例性实施例中,如图3所示,上述步骤205之后,还可以包括如下步 骤210。
步骤210,根据喻体信息,确定目标文本对应的内容质量参数。
其中,内容质量参数用于表征目标文本对应的文本内容质量,内容质量参 数与喻体信息的信息量正相关。
上述喻体信息包括至少一个喻体语料单元,上述喻体语料单元对应的语义 相似度小于等于相似度阈值。
在一种可能的实施方式中,确定上述至少一个喻体语料单元对应的字词数 量,上述字词数量用于表征上述喻体信息的信息量;根据上述字词数量,确定 上述内容质量参数。可选地,上述内容质量参数包括内容质量分,上述内容质 量分用于表征上述文本内容质量,上述内容质量分与上述字词数量呈正相关。
在一些实施方式中,可确定上述至少一个喻体语料单元在目标文本中对应 的位置信息,上述位置信息可以是段落、标题、正文等文本位置;确定位置信 息后,可以获取位置信息对应的权重信息以及位置信息对应的喻体字词的字词 数量,上述权重信息用于表征位置信息对应文本在目标文本中的重要程度;根 据上述权重信息和上述字词数量可以确定上述内容质量分。
上述字词数量越多,喻体字词位置越重要,说明目标文本中引用的比喻修 辞手法越丰富引人注意,反映出的文本的创造力较高,文本内容质量越好。
在一些实际应用场景中,缺乏自动评估文本创造力的方法,主要原因之一 在于无法对文学作品的创造力制定客观的量化标准。隐喻作为人类主要的表达 手段之一,能够反映出作者对于事物的认知态度。新颖的、独具匠心的隐喻能 够大幅提高文学作品的艺术水准和创造力。本申请实施例通过识别目标文本中 的隐喻信息,可以确定用于表征文本内容质量的参数,能够自动评估文本创造 力,提升文本质量确定的效率与准确度。
综上所述,本申请实施例提供的技术方案,通过对目标文本进行字词语义 信息提取处理,可以得到目标文本中目标语料单元对应的语义特征信息,通过 对目标语料单元对应的注释文本进行文本语义信息提取处理,可以得到注释文 本对应的语义特征信息,基于目标语料单元的语义特征信息以及目标语料单元 对应的注释文本的第二语义特征信息,可以对目标文本进行喻体信息识别,得 到目标文本中采用比喻修辞的喻体信息,无需人工标注,降低了人工成本,并 且结合目标语料单元对应的注释文本的语义特征进行喻体识别的方式,能够提 升喻体信息识别的准确性。
下面结合具体的数据对本申请实施例提供的技术方案的有益效果进行说明。 请参考下表3,其示出了不同实施方案下喻体信息识别的参数指标对应的数值。 其中,参数指标包括精确率P、召回率R、F1值以及参数量,参数量为模型需 要学习的参数数量,不包括超参数。
表3
实施方案 P R F1 参数量
方案一 0.3704 0.8297 0.6026 0
方案二 0.6641 0.6261 0.6454 0
方案三 0.7643 0.8262 0.7954 10M(兆)
本申请 0.7218 0.7092 0.7358 0
其中,方案一是基于优先语义的方法,该方法认为隐喻意义与普通字面意 义的理解方式不同,隐喻句的字面意义存在逻辑上的冲突,冲突出现时,则进 行语义处理,识别隐喻信息;方案二是基于推理的方案,通过一些常用的推理 手法结合已有的隐喻案例来进行隐喻识别和理解,可以细分为类比推理法、逻 辑推理法;方案三是基于统计的方法,利用大规模的语料库进行统计和分析, 并对新增文本进行分类和识别。
方案一和方案二依赖于现有的词库和隐喻案例,难以捕捉到词汇意义的变 化,无法做到实时更新。并且基于规则的方法在隐喻识别的准确率上的表现不 佳。相比之下,方案三得益于深度学习技术的发展,在识别准确率上提升明显。 但是深度学习模型依赖于大量的高质量标注语料进行训练,大大提升了数据成 本和训练成本,并且由于深度学习模型的黑箱属性,很难对识别结果做出合理 的解释。
根据上表3可知,相比于方案一和方案二,本申请实施例提供的技术方案 能够显著提高喻体信息识别的效果(分别提升了13%和9%)。相比于方案三, 本申请实施例提供的技术方案能够接近方案三的识别效果的同时,在模型的复 杂程度上大大简化。而且无监督学习模型不需要训练标签和大规模的训练数据, 大大节约了数据成本和训练成本,能够更加高效的利用目前稀缺珍贵的中文隐 喻数据集。
此外,本申请实施例提供的技术方案同时具备较强的可解释性,能够对识 别结果做出合理的解释。例如“但不少大企业的投资热并未刹车,出手仍以数 十亿计。”这一例句,其中“刹车”作为目标词,在词典中的释义为“使车或 机器停住。用闸等止住车辆行进。”根据人类的认知习惯和语义习惯,“刹车” 一般适用于机器当中,而在例句中并没有出现任何机器,因此这里扩展了“刹 车”这一目标词的使用范围,把“投资热”类比为某种“机器”,从而构成一 种隐喻。基于本申请实施例提供的语义特征提取模型确定的“刹车”及其注释 文本对应的语义特征向量之间的余弦相似度仅为0.4988,低于相似度阈值,因 此将该例句识别为隐喻。类似的,“门一开,大家就涌入了图书馆。”,模型 检测出最适合“涌入”一词在当下语境对应的语义特征信息的本体动词为“进 入”,而实际动词为“涌入”,并且对应的余弦相似度为0.6783,低于阈值, 因此将该例句识别为隐喻。本申请实施例将目标字词的注释文本的语义信息与 目标字词在目标文本中的语义信息进行比较,能够为模型的分类提供清晰的依 据,提升了喻体信息识别的效率与准确性。
此外,本申请实施例提供的技术方案还可以应用于更多上层业务当中,例 如识别喻体信息中的不合规内容;或者根据喻体信息确定文本质量参数,从而 为文学作品创造力的自动化评估提供新的维度。
下述为本申请装置实施例,可用于执行本申请方法实施例。对于本申请装 置实施例中未披露的细节,请参照本申请方法实施例。
请参考图5,其示出了本申请一个实施例提供的信息识别装置的框图。该装 置具有实现上述信息识别方法的功能,所述功能可以由硬件实现,也可以由硬 件执行相应的软件实现。该装置可以是计算机设备,也可以设置在计算机设备 中。该装置500可以包括:目标语料获取模块510、注释文本获取模块520、语 义信息提取模块530、喻体信息识别模块540。
目标语料获取模块510,用于获取目标文本对应的目标语料单元。
注释文本获取模块520,用于获取所述目标语料单元对应的注释文本。
语义信息提取模块530,用于对所述目标文本进行字词语义信息提取处理, 得到所述目标语料单元对应的第一语义特征信息。
所述语义信息提取模块530,还用于对所述注释文本进行文本语义信息提取 处理,得到所述注释文本对应的第二语义特征信息。
喻体信息识别模块540,用于基于所述第一语义特征信息与所述第二语义特 征信息,对所述目标文本进行喻体信息识别处理,得到所述目标文本对应的喻 体信息。
在示例性实施例中,所述目标语料获取模块510,包括:分词单元、词性信 息获取单元、目标语料确定单元。
分词单元,用于对所述目标文本进行分词处理,得到语料单元序列,所述 语料单元序列包括至少一个识别语料单元。
词性信息获取单元,用于获取所述至少一个识别语料单元对应的词性信息。
目标语料确定单元,用于基于所述词性信息,确定所述目标语料单元。
在示例性实施例中,所述目标文本包括所述目标语料单元和语境语料单元, 所述语境语料单元是所述目标文本中除所述目标语料单元之外的语料单元,所 述语义信息提取模块530,包括:文本输入单元、第一语义特征提取单元。
文本输入单元,用于将所述目标文本输入语义特征提取模型。
字词语义特征提取单元,用于基于所述语义特征提取模型,对所述语境语 料单元进行语义信息特征提取处理,得到所述目标语料单元对应的第一语义特 征向量。
其中,所述第一语义特征信息包括所述第一语义特征向量,所述第一语义 特征向量用于表征所述目标语料单元在所述目标文本中对应的语义信息。
在示例性实施例中,所述注释文本包括至少一个注释语料单元,所述语义 信息提取模块530,还包括:注释语料特征提取单元、文本语义特征提取单元。
所述文本输入单元,还用于将所述注释文本输入语义特征提取模型。
注释语料特征提取单元,用于基于所述语义特征提取模型,对所述至少一 个注释语料单元进行语义信息特征提取处理,得到所述至少一个注释语料单元 对应的嵌入特征向量,所述嵌入特征向量用于表征所述至少一个注释语料单元 对应的语义信息。
文本语义特征提取单元,用于基于所述嵌入特征向量,确定所述注释文本 对应的第二语义特征向量。
其中,所述第二语义特征信息包括所述第二语义特征向量,所述第二语义 特征向量用于表征所述注释文本的语义信息。
在示例性实施例中,所述语义特征提取模型是基于样本文本训练的机器学 习模型,所述样本文本对应的喻体信息的信息量小于信息量阈值,所述样本文 本包括至少两条语句文本;所述语义特征提取模型的训练过程包括:
遍历所述至少两条语句文本;
将遍历到的语句文本中目标位置上的语料单元替换为预设标记符,得到替 换后的语句文本;
将所述替换后的语句文本输入目标机器学习模型,输出所述语料单元对应 的语义特征向量;
在所述至少两条语句文本遍历完成的情况下,基于所述目标机器学习模型, 得到所述语义特征提取模型。
在示例性实施例中,所述训练过程还包括:
确定所述至少两条语句文本中的语句文本对,所述语句文本对基于所述至 少两条语句文本中不同的两条语句文本确定;
遍历所述语句文本对;
将遍历到的语句文本对输入所述目标机器学习模型,输出所述遍历到的语 句文本对对应的上下文关系信息,所述上下文关系信息用于表征所述遍历到的 语句文本对中的两条语句文本之间的上下文关系;
所述在所述至少两条语句文本遍历完成的情况下,基于所述目标机器学习 模型,得到所述语义特征提取模型,包括:
在所述至少两条语句文本遍历完成且所述语句文本对遍历完成的情况下, 基于所述目标机器学习模型,得到所述语义特征提取模型。
在示例性实施例中,所述喻体信息识别模块540,包括:相似度确定单元、 喻体信息确定单元。
相似度确定单元,用于确定所述第一语义特征信息与所述第二语义特征信 息之间的语义相似度。
喻体信息确定单元,若所述语义相似度小于等于相似度阈值,则将所述目 标语料单元确定为所述喻体信息。
在示例性实施例中,所述装置500还包括:喻体语料确定模块、本体语料 确定模块、本体类型确定模块、喻体类型确定模块。
喻体语料确定模块,用于在所述喻体信息包括所述目标语料单元的情况下, 确定所述目标语料单元为喻体语料单元。
本体语料确定模块,用于根据所述第一语义特征信息确定所述喻体语料单 元对应的本体语料单元。
本体类型确定模块,用于获取所述本体语料单元对应的本体内容类型信息, 所述本体内容类型信息用于表征所述本体语料单元对应的内容类型;
喻体类型确定模块,用于根据所述本体内容类型信息,确定所述喻体语料 单元对应的喻体内容类型信息,所述喻体内容类型信息用于表征所述喻体语料 单元对应的内容类型。
在示例性实施例中,所述装置500还包括:文本质量确定模块。
文本质量确定模块,用于根据所述喻体信息,确定所述目标文本对应的内 容质量参数。
其中,所述内容质量参数用于表征所述目标文本对应的文本内容质量,所 述内容质量参数与所述喻体信息的信息量正相关。
综上所述,本申请实施例提供的技术方案,通过对目标文本进行字词语义 信息提取处理,可以得到目标文本中目标语料单元对应的语义特征信息,通过 对目标语料单元对应的注释文本进行文本语义信息提取处理,可以得到注释文 本对应的语义特征信息,基于目标语料单元的语义特征信息以及目标语料单元 对应的注释文本的第二语义特征信息,可以对目标文本进行喻体信息识别,得 到目标文本中采用比喻修辞的喻体信息,无需人工标注,降低了人工成本,并 且结合目标语料单元对应的注释文本的语义特征进行喻体识别的方式,能够提 升喻体信息识别的准确性。
需要说明的是,上述实施例提供的装置,在实现其功能时,仅以上述各功 能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由 不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以 上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于 同一构思,其具体实现过程详见方法实施例,这里不再赘述。
请参考图6,其示出了本申请一个实施例提供的计算机设备的结构框图。该 计算机设备可以是服务器,以用于执行上述信息识别方法。具体来讲:
计算机设备600包括中央处理单元(Central Processing Unit,CPU)601、 包括随机存取存储器(Random Access Memory,RAM)602和只读存储器(Read Only Memory,ROM)603的系统存储器604,以及连接系统存储器604和中央 处理单元601的系统总线605。计算机设备600还包括帮助计算机内的各个器件 之间传输信息的基本输入/输出系统(I/O(Input/Output)系统)606,和用于存 储操作系统613、应用程序614和其他程序模块615的大容量存储设备607。
基本输入/输出系统606包括有用于显示信息的显示器608和用于用户输入 信息的诸如鼠标、键盘之类的输入设备609。其中显示器608和输入设备609都 通过连接到系统总线605的输入输出控制器610连接到中央处理单元601。基本 输入/输出系统606还可以包括输入输出控制器610以用于接收和处理来自键盘、 鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器610还 提供输出到显示屏、打印机或其他类型的输出设备。
大容量存储设备607通过连接到系统总线605的大容量存储控制器(未示 出)连接到中央处理单元601。大容量存储设备607及其相关联的计算机可读介 质为计算机设备600提供非易失性存储。也就是说,大容量存储设备607可以 包括诸如硬盘或者CD-ROM(Compact Disc Read-Only Memory,只读光盘)驱 动器之类的计算机可读介质(未示出)。
不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算 机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他 数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介 质。计算机存储介质包括RAM、ROM、EPROM(Erasable Programmable Read Only Memory,可擦除可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read Only Memory,电可擦可编程只读存储器)、闪存或其他固 态存储其技术,CD-ROM、DVD(Digital Video Disc,高密度数字视频光盘)或 其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域 技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器604和大 容量存储设备607可以统称为存储器。
根据本申请的各种实施例,计算机设备600还可以通过诸如因特网等网络 连接到网络上的远程计算机运行。也即计算机设备600可以通过连接在系统总 线605上的网络接口单元611连接到网络612,或者说,也可以使用网络接口单 元611来连接到其他类型的网络或远程计算机系统(未示出)。
所述存储器还包括计算机程序,该计算机程序存储于存储器中,且经配置 以由一个或者一个以上处理器执行,以实现上述信息识别方法。
在示例性实施例中,还提供了一种计算机可读存储介质,所述存储介质中 存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、 所述至少一段程序、所述代码集或所述指令集在被处理器执行时以实现上述信 息识别方法。
可选地,该计算机可读存储介质可以包括:ROM(Read Only Memory,只 读存储器)、RAM(Random Access Memory,随机存取记忆体)、SSD(Solid State Drives,固态硬盘)或光盘等。其中,随机存取记忆体可以包括ReRAM(Resistance Random Access Memory,电阻式随机存取记忆体)和DRAM(Dynamic Random Access Memory,动态随机存取存储器)。
在示例性实施例中,还提供了一种计算机程序产品或计算机程序,该计算 机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存 储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处 理器执行该计算机指令,使得该计算机设备执行上述信息识别方法。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描 述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示: 单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后 关联对象是一种“或”的关系。另外,本文中描述的步骤编号,仅示例性示出了步 骤间的一种可能的执行先后顺序,在一些其它实施例中,上述步骤也可以不按 照编号顺序来执行,如两个不同编号的步骤同时执行,或者两个不同编号的步 骤按照与图示相反的顺序执行,本申请实施例对此不作限定。
另外,在本申请的具体实施方式中,涉及到用户信息等相关的数据,当本 申请以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且 相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
以上所述仅为本申请的示例性实施例,并不用以限制本申请,凡在本申请 的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请 的保护范围之内。

Claims (13)

1.一种信息识别方法,其特征在于,所述方法包括:
获取目标文本对应的目标语料单元;
获取所述目标语料单元对应的注释文本;
对所述目标文本进行字词语义信息提取处理,得到所述目标语料单元对应的第一语义特征信息;
对所述注释文本进行文本语义信息提取处理,得到所述注释文本对应的第二语义特征信息;
基于所述第一语义特征信息与所述第二语义特征信息,对所述目标文本进行喻体信息识别处理,得到所述目标文本对应的喻体信息。
2.根据权利要求1所述的方法,其特征在于,所述获取目标文本对应的目标语料单元,包括:
对所述目标文本进行分词处理,得到语料单元序列,所述语料单元序列包括至少一个识别语料单元;
获取所述至少一个识别语料单元对应的词性信息;
基于所述词性信息,确定所述目标语料单元。
3.根据权利要求1所述的方法,其特征在于,所述目标文本包括所述目标语料单元和语境语料单元,所述语境语料单元是所述目标文本中除所述目标语料单元之外的语料单元,所述对所述目标文本进行字词语义信息提取处理,得到所述目标语料单元对应的第一语义特征信息,包括:
将所述目标文本输入语义特征提取模型;
基于所述语义特征提取模型,对所述语境语料单元进行语义信息特征提取处理,得到所述目标语料单元对应的第一语义特征向量;
其中,所述第一语义特征信息包括所述第一语义特征向量,所述第一语义特征向量用于表征所述目标语料单元在所述目标文本中对应的语义信息。
4.根据权利要求1所述的方法,其特征在于,所述注释文本包括至少一个注释语料单元,所述对所述注释文本进行文本语义信息提取处理,得到所述注释文本对应的第二语义特征信息,包括:
将所述注释文本输入语义特征提取模型;
基于所述语义特征提取模型,对所述至少一个注释语料单元进行语义信息特征提取处理,得到所述至少一个注释语料单元对应的嵌入特征向量,所述嵌入特征向量用于表征所述至少一个注释语料单元对应的语义信息;
基于所述嵌入特征向量,确定所述注释文本对应的第二语义特征向量;
其中,所述第二语义特征信息包括所述第二语义特征向量,所述第二语义特征向量用于表征所述注释文本的语义信息。
5.根据权利要求3或4所述的方法,其特征在于,所述语义特征提取模型是基于样本文本训练的机器学习模型,所述样本文本对应的喻体信息的信息量小于信息量阈值,所述样本文本包括至少两条语句文本;所述语义特征提取模型的训练过程包括:
遍历所述至少两条语句文本;
将遍历到的语句文本中目标位置上的语料单元替换为预设标记符,得到替换后的语句文本;
将所述替换后的语句文本输入目标机器学习模型,输出所述语料单元对应的语义特征向量;
在所述至少两条语句文本遍历完成的情况下,基于所述目标机器学习模型,得到所述语义特征提取模型。
6.根据权利要求5所述的方法,其特征在于,所述训练过程还包括:
确定所述至少两条语句文本中的语句文本对,所述语句文本对基于所述至少两条语句文本中不同的两条语句文本确定;
遍历所述语句文本对;
将遍历到的语句文本对输入所述目标机器学习模型,输出所述遍历到的语句文本对对应的上下文关系信息,所述上下文关系信息用于表征所述遍历到的语句文本对中的两条语句文本之间的上下文关系;
所述在所述至少两条语句文本遍历完成的情况下,基于所述目标机器学习模型,得到所述语义特征提取模型,包括:
在所述至少两条语句文本遍历完成且所述语句文本对遍历完成的情况下,基于所述目标机器学习模型,得到所述语义特征提取模型。
7.根据权利要求1所述的方法,其特征在于,所述基于所述第一语义特征信息与所述第二语义特征信息,对所述目标文本进行喻体信息识别处理,得到所述目标文本对应的喻体信息,包括:
确定所述第一语义特征信息与所述第二语义特征信息之间的语义相似度;
若所述语义相似度小于等于相似度阈值,则将所述目标语料单元确定为所述喻体信息。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在所述喻体信息包括所述目标语料单元的情况下,确定所述目标语料单元为喻体语料单元;
根据所述第一语义特征信息确定所述喻体语料单元对应的本体语料单元;
获取所述本体语料单元对应的本体内容类型信息,所述本体内容类型信息用于表征所述本体语料单元对应的内容类型;
根据所述本体内容类型信息,确定所述喻体语料单元对应的喻体内容类型信息,所述喻体内容类型信息用于表征所述喻体语料单元对应的内容类型。
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述喻体信息,确定所述目标文本对应的内容质量参数;
其中,所述内容质量参数用于表征所述目标文本对应的文本内容质量,所述内容质量参数与所述喻体信息的信息量正相关。
10.一种信息识别装置,其特征在于,所述装置包括:
目标语料获取模块,用于获取目标文本对应的目标语料单元;
注释文本获取模块,用于获取所述目标语料单元对应的注释文本;
语义信息提取模块,用于对所述目标文本进行字词语义信息提取处理,得到所述目标语料单元对应的第一语义特征信息;
所述语义信息提取模块,还用于对所述注释文本进行文本语义信息提取处理,得到所述注释文本对应的第二语义特征信息;
喻体信息识别模块,用于基于所述第一语义特征信息与所述第二语义特征信息,对所述目标文本进行喻体信息识别处理,得到所述目标文本对应的喻体信息。
11.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至9任一项所述的信息识别方法。
12.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至9任一项所述的信息识别方法。
13.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机指令,所述计算机指令存储在计算机可读存储介质中,计算机设备的处理器从计算机可读存储介质读取所述计算机指令,所述处理器执行所述计算机指令,使得所述计算机设备执行以实现如权利要求1至9任一项所述的信息识别方法。
CN202210166578.9A 2022-02-23 2022-02-23 信息识别方法、装置、设备、存储介质及产品 Pending CN114662496A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210166578.9A CN114662496A (zh) 2022-02-23 2022-02-23 信息识别方法、装置、设备、存储介质及产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210166578.9A CN114662496A (zh) 2022-02-23 2022-02-23 信息识别方法、装置、设备、存储介质及产品

Publications (1)

Publication Number Publication Date
CN114662496A true CN114662496A (zh) 2022-06-24

Family

ID=82028484

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210166578.9A Pending CN114662496A (zh) 2022-02-23 2022-02-23 信息识别方法、装置、设备、存储介质及产品

Country Status (1)

Country Link
CN (1) CN114662496A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115146623A (zh) * 2022-07-26 2022-10-04 北京有竹居网络技术有限公司 文本词替换方法、装置、存储介质及电子设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115146623A (zh) * 2022-07-26 2022-10-04 北京有竹居网络技术有限公司 文本词替换方法、装置、存储介质及电子设备

Similar Documents

Publication Publication Date Title
CN111767405B (zh) 文本分类模型的训练方法、装置、设备及存储介质
CN111738001B (zh) 同义词识别模型的训练方法、同义词确定方法及设备
CN114565104A (zh) 语言模型的预训练方法、结果推荐方法及相关装置
CN112329824A (zh) 多模型融合训练方法、文本分类方法以及装置
CN112836487B (zh) 一种自动评论方法、装置、计算机设备及存储介质
CN113761868B (zh) 文本处理方法、装置、电子设备及可读存储介质
CN114491018A (zh) 敏感信息检测模型的构建方法、敏感信息检测方法及装置
CN115129862A (zh) 语句实体处理方法、装置、计算机设备及存储介质
CN114818724A (zh) 一种社交媒体灾害有效信息检测模型的构建方法
CN115878752A (zh) 文本情感的分析方法、装置、设备、介质及程序产品
CN114662496A (zh) 信息识别方法、装置、设备、存储介质及产品
WO2023169301A1 (zh) 一种文本处理方法、装置及电子设备
Shen et al. A Multimodal Approach to Assessing Document Quality.
Shen et al. A general approach to multimodal document quality assessment
CN115730221A (zh) 基于溯因推理的虚假新闻识别方法、装置、设备及介质
CN111625623B (zh) 文本主题提取方法、装置、计算机设备、介质和程序产品
CN115129885A (zh) 实体链指方法、装置、设备及存储介质
CN114036956A (zh) 一种旅游知识语义分析方法及装置
CN114491076A (zh) 基于领域知识图谱的数据增强方法、装置、设备及介质
CN114547435A (zh) 内容质量的识别方法、装置、设备及可读存储介质
CN113051886A (zh) 一种试题查重方法、装置、存储介质及设备
CN115269851B (zh) 文章分类方法、装置、电子设备、存储介质及程序产品
Wahde et al. An interpretable method for automated classification of spoken transcripts and written text
CN118052221B (zh) 文本处理方法、装置、设备、存储介质及产品
Sabharwal et al. Introduction to Natural Language Processing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination