CN113095080B - 基于主题的语义识别方法、装置、电子设备和存储介质 - Google Patents

基于主题的语义识别方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN113095080B
CN113095080B CN202110635915.XA CN202110635915A CN113095080B CN 113095080 B CN113095080 B CN 113095080B CN 202110635915 A CN202110635915 A CN 202110635915A CN 113095080 B CN113095080 B CN 113095080B
Authority
CN
China
Prior art keywords
text
target
frequent
unit
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110635915.XA
Other languages
English (en)
Other versions
CN113095080A (zh
Inventor
刘志煌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110635915.XA priority Critical patent/CN113095080B/zh
Publication of CN113095080A publication Critical patent/CN113095080A/zh
Application granted granted Critical
Publication of CN113095080B publication Critical patent/CN113095080B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种基于主题的语义识别方法、装置、电子设备和存储介质,涉及人工智能领域;可以获取目标文本中待语义识别的目标文本单元;从预设频繁序列集中获取与所述目标文本匹配的目标频繁序列;基于所述目标频繁序列的支持度,确定所述目标文本中参考文本单元对应的支持度;采用所述参考文本单元的特征信息和支持度对所述目标文本单元进行特征提取,得到所述目标文本单元的目标特征信息;根据所述目标特征信息和所述目标文本的主题特征信息,对所述目标文本单元进行语义识别,得到所述目标文本单元在所述目标文本中的语义。本申请可以基于与目标文本匹配的频繁序列和主题特征信息进行多义词的识别,有利于提高一词多义识别的准确性和效率。

Description

基于主题的语义识别方法、装置、电子设备和存储介质
技术领域
本申请涉及计算机技术领域,具体涉及一种基于主题的语义识别方法、装置、电子设备和存储介质。
背景技术
一词多义是人工智能领域的自然语言处理中常见的现象和许多场景需要解决的难题,无论是中文或是英文等,许多词语往往在不同的上下文中会呈现不同的语义。例如,“包袱”这个词,它可以是指用布包起来的包裹;也可以指精神上的负担,也可以指相声中的笑料,在不同的语境中有不同含义。因此,需要进行多义词识别。
多义词识别任务就是让计算机能够自动识别出文章的段落或句子中存在的多义词,并分析出该词在该文章段落或句子中所表达的真实意思。多义词识别具有很重要的意义,它不仅能够提高识别词表示和段落表示的质量,也能更准确地挖掘出句子所表达的情感,提高自然语言处理任务的准确率。
在目前识别多义词的相关方法中,如通过平行语料(如中文与英文的新闻翻译)从文本翻译的转化角度识别一词多义等方法,在识别多义词的过程,不仅耗费大量时间、占用大量资源,而且识别效果不稳定、准确率较低。
发明内容
本申请实施例提供一种基于主题的语义识别方法、装置、电子设备和存储介质,可以提高一词多义识别的准确性和效率。
本申请实施例提供一种基于主题的语义识别方法,包括:
获取目标文本中待语义识别的目标文本单元;
从预设频繁序列集中获取与所述目标文本匹配的目标频繁序列,所述预设频繁序列集包括频繁序列和所述频繁序列对应的支持度,所述支持度表征样本文本集中所述频繁序列的出现次数;
基于所述目标频繁序列的支持度,确定所述目标文本中参考文本单元对应的支持度,所述参考文本单元为所述目标文本中除所述目标文本单元以外的其他文本单元;
采用所述参考文本单元的特征信息和支持度对所述目标文本单元进行特征提取,得到所述目标文本单元的目标特征信息;
根据所述目标特征信息和所述目标文本的主题特征信息,对所述目标文本单元进行语义识别,得到所述目标文本单元在所述目标文本中的语义。
相应的,本申请实施例提供一种基于主题的语义识别装置,包括:
获取单元,用于获取目标文本中待语义识别的目标文本单元;
序列获取单元,用于从预设频繁序列集中获取与所述目标文本匹配的目标频繁序列,所述预设频繁序列集包括频繁序列和所述频繁序列对应的支持度,所述支持度表征样本文本集中所述频繁序列的出现次数;
确定单元,用于基于所述目标频繁序列的支持度,确定所述目标文本中参考文本单元对应的支持度,所述参考文本单元为所述目标文本中除所述目标文本单元以外的其他文本单元;
提取单元,用于采用所述参考文本单元的特征信息和支持度对所述目标文本单元进行特征提取,得到所述目标文本单元的目标特征信息;
识别单元,用于根据所述目标特征信息和所述目标文本的主题特征信息,对所述目标文本单元进行语义识别,得到所述目标文本单元在所述目标文本中的语义。
可选的,在本申请的一些实施例中,所述序列获取单元可以包括分词子单元、组合子单元和选择子单元,如下:
所述分词子单元,用于对所述目标文本进行分词处理,得到所述目标文本的至少一个文本单元;
组合子单元,用于基于所述文本单元在所述目标文本中的顺序,对所述文本单元进行组合,得到所述目标文本的文本序列;
选择子单元,用于从预设频繁序列集中选择满足预设长度条件的文本序列作为与所述目标文本匹配的目标频繁序列。
可选的,在本申请的一些实施例中,所述基于主题的语义识别装置还可以包括序列集构建单元;所述序列集构建单元可以用于构建样本文本集对应的频繁序列和所述频繁序列对应的支持度,得到预设频繁序列集。
可选的,在本申请的一些实施例中,所述频繁序列包括频繁词序列;所述序列集构建单元可以包括分词处理子单元、第一统计子单元、第一确定子单元和第一构建子单元,如下:
所述分词处理子单元,用于获取样本文本集,并对所述样本文本集中每个样本文本进行分词处理,得到所述样本文本集中每个样本文本的至少一个样本文本单元;
第一统计子单元,用于针对每个样本文本单元,统计包含所述样本文本单元的样本文本的样本数量;
第一确定子单元,用于将所述样本数量大于预设数量的样本文本单元作为所述样本文本集的初始频繁单元;
第一构建子单元,用于基于所述初始频繁单元,构建所述样本文本集对应的频繁词序列和所述频繁词序列对应的支持度,得到预设频繁序列集。
可选的,在本申请的一些实施例中,所述第一构建子单元具体可以用于基于所述初始频繁单元,对所述样本文本进行过滤处理,得到处理后样本文本;将所述初始频繁单元作为前缀,并确定在所述处理后样本文本中所述前缀对应的后缀;当所述后缀包含有所述初始频繁单元时,基于所述后缀构建所述样本文本集对应的频繁词序列;统计包含所述频繁词序列的样本文本的数量,得到所述频繁词序列对应的支持度。
可选的,在本申请的一些实施例中,步骤“当所述后缀包含有所述初始频繁单元时,基于所述后缀构建所述样本文本集对应的频繁词序列”,可以包括:
当所述后缀包含有所述初始频繁单元时,将所述后缀中的初始频繁单元与所述后缀对应的前缀进行合并处理,得到新的前缀,并确定在所述处理后样本文本中所述新的前缀对应的新的后缀;
针对获取到的各个前缀,统计包含所述前缀的样本文本的数量;
基于所述数量,从各个前缀中确定所述样本文本集对应的频繁词序列。
可选的,在本申请的一些实施例中,所述频繁序列还包括频繁词性序列;所述序列集构建单元可以包括第一获取子单元、词性分析子单元、第二统计子单元、第二确定子单元和第二构建子单元,如下:
所述第一获取子单元,用于获取样本文本集,所述样本文本集包括至少一个样本文本;
词性分析子单元,用于对所述样本文本中的每个文本单元进行词性分析,得到所述样本文本对应的词性序列,所述词性序列包括所述样本文本中每个文本单元对应的词性;
第二统计子单元,用于针对每种词性,统计包含所述词性的样本文本的样本数量;
第二确定子单元,用于将所述样本数量大于预设数量的词性作为所述样本文本集的初始频繁词性;
第二构建子单元,用于基于所述初始频繁词性,构建所述样本文本集对应的频繁词性序列和所述频繁词性序列对应的支持度,得到预设频繁序列集。
可选的,在本申请的一些实施例中,所述频繁序列还包括频繁语法序列;所述序列集构建单元可以包括第二获取子单元、语法分析子单元、第三统计子单元、第三确定子单元和第三构建子单元,如下:
所述第二获取子单元,用于获取样本文本集,所述样本文本集包括至少一个样本文本;
语法分析子单元,用于对所述样本文本中的每个文本单元进行语法分析,得到所述样本文本对应的语法序列,所述语法序列包括所述样本文本中每个文本单元对应的语法关系;
第三统计子单元,用于针对每种语法关系,统计包含所述语法关系的样本文本的样本数量;
第三确定子单元,用于将所述样本数量大于预设数量的语法关系作为所述样本文本集的初始频繁语法;
第三构建子单元,用于基于所述初始频繁语法,构建所述样本文本集对应的频繁语法序列和所述频繁语法序列对应的支持度,得到预设频繁序列集。
可选的,在本申请的一些实施例中,所述确定单元可以包括序列确定子单元、第一支持度确定子单元和第二支持度确定子单元,如下:
所述序列确定子单元,用于确定所述目标文本中与所述目标频繁序列匹配的目标文本序列;
第一支持度确定子单元,用于对于所述目标文本序列中的参考文本单元,将所述目标频繁序列的支持度作为所述参考文本单元的支持度;
第二支持度确定子单元,用于对于所述目标文本中不属于所述目标文本序列的参考文本单元,将预设支持度作为所述参考文本单元的支持度。
可选的,在本申请的一些实施例中,所述提取单元可以包括融合子单元和提取子单元,如下:
所述融合子单元,用于将所述参考文本单元的特征信息和支持度进行融合,得到所述目标文本的上下文特征信息;
提取子单元,用于根据所述上下文特征信息对所述目标文本单元进行特征提取,得到所述目标文本单元的目标特征信息。
可选的,在本申请的一些实施例中,所述提取单元具体可以用于通过训练后的语义模型,采用所述参考文本单元的特征信息和支持度对所述目标文本单元进行特征提取,得到所述目标文本单元的目标特征信息。
可选的,在本申请的一些实施例中,所述提取单元还可以包括训练子单元,所述训练子单元可以用于训练语义模型,具体地,如下:
所述训练子单元具体可以用于获取训练数据,所述训练数据包括样本文本中待语义识别的目标样本文本单元的标准特征信息,以及参考样本文本单元的特征信息和支持度,所述参考样本文本单元为所述样本文本中除所述目标样本文本单元以外的其他文本单元;通过语义模型,对所述参考样本文本单元的特征信息和支持度进行融合,得到所述样本文本的上下文特征信息;根据所述上下文特征信息对所述目标样本文本单元进行特征提取,得到所述目标样本文本单元的实际特征信息;基于所述目标样本文本单元的标准特征信息和实际特征信息之间的损失值,调整所述语义模型的参数,直到所述损失值满足预设损失条件,得到训练后的语义模型。
可选的,在本申请的一些实施例中,所述识别单元可以包括候选语义确定子单元、第一选取子单元、第二选取子单元和语义确定子单元,如下:
所述候选语义确定子单元,用于确定所述目标文本单元的至少一种候选语义;
第一选取子单元,用于基于所述目标特征信息,从所述目标文本单元的至少一种候选语义中选取第一预测语义;
第二选取子单元,用于基于所述目标文本的主题特征信息,从所述目标文本单元的至少一种候选语义中选取第二预测语义;
语义确定子单元,用于根据所述第一预测语义和所述第二预测语义,确定所述目标文本单元在所述目标文本中的语义。
可选的,在本申请的一些实施例中,所述基于主题的语义识别方法还可以包括聚类单元,所述聚类单元具体可以用于对所述目标文本的主题特征信息和所述目标文本中目标文本单元的目标特征信息进行聚类处理,得到所述目标文本中所述目标文本单元的语义种类数量。
本申请实施例提供的一种电子设备,包括处理器和存储器,所述存储器存储有多条指令,所述处理器加载所述指令,以执行本申请实施例提供的基于主题的语义识别方法中的步骤。
此外,本申请实施例还提供一种存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现本申请实施例提供的基于主题的语义识别方法中的步骤。
本申请实施例提供了一种基于主题的语义识别方法、装置、电子设备和存储介质,可以获取目标文本中待语义识别的目标文本单元;从预设频繁序列集中获取与所述目标文本匹配的目标频繁序列,所述预设频繁序列集包括频繁序列和所述频繁序列对应的支持度,所述支持度表征样本文本集中所述频繁序列的出现次数;基于所述目标频繁序列的支持度,确定所述目标文本中参考文本单元对应的支持度,所述参考文本单元为所述目标文本中除所述目标文本单元以外的其他文本单元;采用所述参考文本单元的特征信息和支持度对所述目标文本单元进行特征提取,得到所述目标文本单元的目标特征信息;根据所述目标特征信息和所述目标文本的主题特征信息,对所述目标文本单元进行语义识别,得到所述目标文本单元在所述目标文本中的语义。本申请可以基于与目标文本匹配的频繁序列和主题特征信息进行多义词的识别,有利于提高一词多义识别的准确性和效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本申请实施例提供的基于主题的语义识别方法的场景示意图;
图1b是本申请实施例提供的基于主题的语义识别方法的流程图;
图1c是本申请实施例提供的基于主题的语义识别方法的说明图;
图1d是本申请实施例提供的基于主题的语义识别方法的另一说明图;
图1e是本申请实施例提供的基于主题的语义识别方法的模型结构图;
图1f是本申请实施例提供的基于主题的语义识别方法的另一模型结构图;
图1g是本申请实施例提供的基于主题的语义识别方法的另一流程图;
图1h是本申请实施例提供的基于主题的语义识别方法的另一流程图;
图1i是本申请实施例提供的基于主题的语义识别方法的另一流程图;
图2是本申请实施例提供的基于主题的语义识别方法的另一流程图;
图3a是本申请实施例提供的基于主题的语义识别装置的结构示意图;
图3b是本申请实施例提供的基于主题的语义识别装置的另一结构示意图;
图3c是本申请实施例提供的基于主题的语义识别装置的另一结构示意图;
图3d是本申请实施例提供的基于主题的语义识别装置的另一结构示意图;
图3e是本申请实施例提供的基于主题的语义识别装置的另一结构示意图;
图3f是本申请实施例提供的基于主题的语义识别装置的另一结构示意图;
图3g是本申请实施例提供的基于主题的语义识别装置的另一结构示意图;
图3h是本申请实施例提供的基于主题的语义识别装置的另一结构示意图;
图3i是本申请实施例提供的基于主题的语义识别装置的另一结构示意图;
图3j是本申请实施例提供的基于主题的语义识别装置的另一结构示意图;
图4是本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供一种基于主题的语义识别方法、装置、电子设备和存储介质。该基于主题的语义识别装置具体可以集成在电子设备中,该电子设备可以是终端或服务器等设备。
可以理解的是,本实施例的基于主题的语义识别方法可以是在终端上执行的,也可以是在服务器上执行,还可以由终端和服务器共同执行的。以上举例不应理解为对本申请的限制。
如图1a所示,以终端和服务器共同执行基于主题的语义识别方法为例。本申请实施例提供的基于主题的语义识别系统包括终端10和服务器11等;终端10与服务器11之间通过网络连接,比如,通过有线或无线网络连接等,其中,基于主题的语义识别装置可以集成在服务器中。
其中,服务器11,可以用于:获取目标文本中待语义识别的目标文本单元;从预设频繁序列集中获取与所述目标文本匹配的目标频繁序列,所述预设频繁序列集包括频繁序列和所述频繁序列对应的支持度,所述支持度表征样本文本集中所述频繁序列的出现次数;基于所述目标频繁序列的支持度,确定所述目标文本中参考文本单元对应的支持度,所述参考文本单元为所述目标文本中除所述目标文本单元以外的其他文本单元;采用所述参考文本单元的特征信息和支持度对所述目标文本单元进行特征提取,得到所述目标文本单元的目标特征信息;根据所述目标特征信息和所述目标文本的主题特征信息,对所述目标文本单元进行语义识别,得到所述目标文本单元在所述目标文本中的语义;将所述目标文本单元在所述目标文本中的语义发送给终端10。其中,服务器11可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。本申请所公开的基于主题的语义识别方法或装置,其中多个服务器可组成为一区块链,而服务器为区块链上的节点。
其中,终端10可以向服务器11发送目标文本中待语义识别的目标文本单元,以便服务器11识别所述目标文本单元在所述目标文本中的语义,终端10还可以接收服务器11发送的语义识别结果,即所述目标文本单元在所述目标文本中的语义。其中,终端10可以包括智能手机、智能电视、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表或个人计算机(PC,Personal Computer)等。终端10上还可以设置客户端,该客户端可以是应用程序客户端或者浏览器客户端等等。
上述服务器11语义识别的步骤,也可以由终端10执行。
本申请实施例提供的基于主题的语义识别方法涉及人工智能领域中的自然语言处理。本申请实施例可以基于与目标文本匹配的频繁序列和主题特征信息进行多义词的识别,有利于提高一词多义识别的准确性和效率。
其中,人工智能(AI,Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。其中,人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等方向。
其中,自然语言处理(NLP,Nature Language processing)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
本申请实施例提供的基于主题的语义识别方法还涉及云技术领域中的人工智能云服务。
其中,云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。云技术是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
其中,人工智能云服务,一般也被称作是AIaaS(Artificial Intelligence as aService,中文为“AI即服务”)。这是目前主流的一种人工智能平台的服务方式,具体来说AIaaS平台会把几类常见的AI服务进行拆分,并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城:所有的开发者都可以通过应用程序接口(API,Application Programming Interface)的方式来接入使用平台提供的一种或者是多种人工智能服务,部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维自已专属的云人工智能服务。
以下分别进行详细说明。需说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
本实施例将从基于主题的语义识别装置的角度进行描述,该基于主题的语义识别装置具体可以集成在电子设备中,该电子设备可以是服务器或终端等设备。
本申请实施例的基于主题的语义识别方法可以应用于各种需要多义词语义识别的场景中,其中,多义词的语言种类不限。
如图1b所示,该基于主题的语义识别方法的具体流程可以如下:
101、获取目标文本中待语义识别的目标文本单元。
其中,目标文本为包含待语义识别的文本单元的文本,具体可以是一句话、段落或是一篇文章等。目标文本单元可以包含至少一种语义,具体地,目标文本单元可以是多义词。其中,文本单元可以为语句中单个的词或字等。例如,语句“小李买四斤橘子”,其中包含的文本单元依次为“小李”,“买”,“四斤”,“橘子”。
比如,目标文本单元可以是“苹X”,苹X这个词,在食品餐饮类相关的文字描述中为一种水果,而在科技电子类相关文字描述中指的是一种手机;因此需要根据上下文语境对目标文本单元的语义进行识别。
本实施例中,目标文本可以是通过语音识别获取得到的,也可以是从图像中检测得到的文字,本实施例对此不作限制。
102、从预设频繁序列集中获取与所述目标文本匹配的目标频繁序列,所述预设频繁序列集包括频繁序列和所述频繁序列对应的支持度,所述支持度表征样本文本集中所述频繁序列的出现次数。
其中,频繁序列,也可以称为序列模式,频繁序列具体可以指样本文本集中,支持度大于或等于预设的支持度阈值的序列;该序列可以是词序列、也可以是词性序列或语法序列等。频繁序列可以包括频繁词序列、频繁词性序列和频繁语法序列等等,本实施例对此不作限制。支持度表征样本文本集中所述频繁序列的出现次数,具体可以是样本文本集中包含所述频繁序列的样本文本的数量。其中,预设频繁序列集包括频繁序列和支持度之间的映射关系。
一些实施例中,支持度阈值具体可以是根据最小支持率和样本文本集包含的样本文本总数计算得到的一个实数,例如,假设最小支持率为20%,样本文本集包含的样本文本的总数为100,则这个样本文本集的支持度阈值等于100乘以20%,即支持度阈值为20,这个样本文本集中的每一个支持度大于或等于20的序列都可以记为这个样本文本集的频繁序列。也就是说,支持度阈值可以根据式子(1)计算得到:
min_sup=a×n (1)
其中,min_sup表示支持度阈值,a表示预设的最小支持率,n表示样本文本集中包含的样本文本总数。具体地,n可以为样本文本集中包含的语句的总数,也即一个语句作为一个样本文本。其中,最小支持率可以根据样本文本集的量级进行调整。
可以理解的,一个文本单元可以理解为一个长度为1的序列。因此,对于任意一个文本单元,可以将样本文本集中,包含这个文本单元的样本文本的数量,作为这个文本单元的支持度。
可选的,本实施例中,步骤“从预设频繁序列集中获取与所述目标文本匹配的目标频繁序列”,可以包括:
对所述目标文本进行分词处理,得到所述目标文本的至少一个文本单元;
基于所述文本单元在所述目标文本中的顺序,对所述文本单元进行组合,得到所述目标文本的文本序列;
从预设频繁序列集中选择满足预设长度条件的文本序列作为与所述目标文本匹配的目标频繁序列。
通常,文本是由多个词语构成的,对文本进行分词处理便可以得到多个词语,待语义识别的目标文本单元可以是该多个词语中的任一个。通过对分词得到的文本单元进行组合,可以得到目标文本的至少一个文本序列。
其中,目标文本包含其文本序列的每一个元素(具体即文本单元),并且这些元素在目标文本中的先后顺序和在文本序列中的先后顺序一致。例如,若用英文字母表示元素,假设目标文本是“ADBCE”,则该目标文本的一个文本序列可以是“ABC”,而序列“ACB”不是目标文本的文本序列,因为目标文本“ADBCE”中是先出现文本单元“B”,再出现文本单元“C”。需要说明的是,文本序列在目标文本中可以不是连续的,也可以是连续的,本实施例对此不作限制。
其中,预设长度条件可以根据实际情况进行设置,比如,可以将存在于所述预设频繁序列集中、且满足预设长度条件的文本序列确定为与所述目标文本匹配的目标频繁序列,具体地,将存在于所述预设频繁序列集中的文本序列确定为候选文本序列,再将序列长度最长的候选文本序列确定为与所述目标文本匹配的目标频繁序列。
其中,若干个(一个或多个)元素(即文本单元)顺序排列组成一个序列。一个序列所包含的元素的数量,可以记为这个序列的序列长度,例如,包含5个元素的序列,其序列长度为5。
本实施例中,目标频繁序列可以包含待语义识别的目标文本单元。
其中,构建预设频繁序列集的方式可以有多种,例如可以通过序列模式挖掘算法构建样本文本集对应的频繁序列和频繁序列对应的支持的;可选地,可以采用PrefixSpan(Prefix-Projected Pattern Growth)算法,即前缀投影的模式挖掘算法,基于样本文本集中的序列,构建样本文本集对应的频繁序列,该算法可以提高构建频繁序列的准确性。
具体地,Prefixspan算法可以从大量的由序列组成的样本文本集中挖掘出所有大于或等于支持度阈值的频繁序列。
可选的,本实施例中,所述频繁序列包括频繁词序列;所述基于主题的语义识别方法还可以包括:
获取样本文本集,并对所述样本文本集中每个样本文本进行分词处理,得到所述样本文本集中每个样本文本的至少一个样本文本单元;
针对每个样本文本单元,统计包含所述样本文本单元的样本文本的样本数量;
将所述样本数量大于预设数量的样本文本单元作为所述样本文本集的初始频繁单元;
基于所述初始频繁单元,构建所述样本文本集对应的频繁词序列和所述频繁词序列对应的支持度,得到预设频繁序列集。
其中,该预设数量可以根据实际情况进行设置,本实施例对此不作限制。如可以将其设置为上述实施例中预设的支持度阈值,假设样本文本集中包含4个样本文本,最小支持率为1/3,则支持度阈值为4/3,也就是说,样本文本单元至少要在2个样本文本中出现才可以作为该样本文本集的初始频繁单元。通过统计包含样本文本单元的样本文本的样本数量,可以过滤掉小于或等于预设支持度阈值的样本文本单元。
其中,本实施例中,是基于样本文本对应的词序列,挖掘出样本文本集中大于支持度阈值的频繁词序列。
其中,该样本文本集中的样本文本具体可以是通过预处理后得到的,该预处理可以包括分句、正则过滤标点符号等。其中,分句可以基于从同一句中的词语序列中获取序列模式的原则,在以断句分隔符分割的句子中进行频繁词序列模式挖掘。
可选的,包含多个样本文本的样本文本集的获取过程如下:
获得初始文本集合,其中,所述初始文本集合包括至少一个文本;
针对每一个文本,检测得到所述文本中的每一个语句分隔符,并将每两个相邻的语句分隔符之间的文本作为一个待过滤语句;
将每一个待过滤语句包含的数字、字母和特殊符号删除,得到对应的过滤后的语句,并从所有所述过滤后的语句中筛选得到所述样本文本集,每个筛选得到的过滤后的语句作为一个样本文本。
需要说明的是,上述过滤字母,是指,在汉语的应用环境中,删除待过滤语句中不属于汉字的其他文字,例如英语的字母,日语的假名等。在将本申请提供的方法应用于其他语种时,上述过滤字母可以替换为,过滤掉不属于当前语种的文字,例如,应用英语时,对待过滤语句的过滤就可以变更为过滤掉数字、特殊符号和其他语言的文字(例如汉字)。
可选的,本实施例中,步骤“基于所述初始频繁单元,构建所述样本文本集对应的频繁词序列和所述频繁词序列对应的支持度”,可以包括:
基于所述初始频繁单元,对所述样本文本进行过滤处理,得到处理后样本文本;
将所述初始频繁单元作为前缀,并确定在所述处理后样本文本中所述前缀对应的后缀;
当所述后缀包含有所述初始频繁单元时,基于所述后缀构建所述样本文本集对应的频繁词序列;
统计包含所述频繁词序列的样本文本的数量,得到所述频繁词序列对应的支持度。
其中,“基于所述初始频繁单元,对所述样本文本进行过滤处理,得到处理后样本文本”具体可以是将所述样本文本中不属于初始频繁单元的文本单元进行删除,得到处理后样本文本。
其中,对于某一个前缀,序列里前缀后面剩下的子序列即为后缀,后缀也可称为投影。例如,处理后样本文本为序列“FGJKDR”,初始频繁单元为“J”,则处理后样本文本中,前缀“J”对应的后缀为“KDR”。
其中,一个样本文本包含频繁词序列,该频繁词序列在样本文本中可以不是连续的,也可以是连续的,但频繁词序列中各文本单元在样本文本中的先后顺序和在频繁词序列中的先后顺序一致。
可选的,本实施例中,步骤“当所述后缀包含有所述初始频繁单元时,基于所述后缀构建所述样本文本集对应的频繁词序列”,可以包括:
当所述后缀包含有所述初始频繁单元时,将所述后缀中的初始频繁单元与所述后缀对应的前缀进行合并处理,得到新的前缀,并确定在所述处理后样本文本中所述新的前缀对应的新的后缀;
针对获取到的各个前缀,统计包含所述前缀的样本文本的数量;
基于所述数量,从各个前缀中确定所述样本文本集对应的频繁词序列。
其中,对于包含前缀的样本文本,前缀在样本文本中可以不是连续的,也可以是连续的,本实施例对此不作限制。但前缀中各文本单元在样本文本中的先后顺序和在前缀中的先后顺序是一致的。
其中,步骤“基于所述数量,从各个前缀中确定所述样本文本集对应的频繁词序列”,具体可以包括:
将所述数量大于预设数量的前缀确定为所述样本文本集对应的频繁词序列。
其中,该预设数量可以根据实际情况进行设置。
其中,步骤“当所述后缀包含有所述初始频繁单元时,将所述后缀中的初始频繁单元与所述后缀对应的前缀进行合并处理,得到新的前缀,并确定在所述处理后样本文本中所述新的前缀对应的新的后缀”,可以包括:
当所述后缀包含有所述初始频繁单元时,将所述后缀中的初始频繁单元与所述后缀对应的前缀进行合并处理,得到新的前缀;
确定在所述处理后样本文本中所述新的前缀对应的新的后缀;
返回执行所述当所述后缀包含有所述初始频繁单元时,将所述后缀中的初始频繁单元与所述后缀对应的前缀进行合并处理,得到新的前缀的步骤,直到前缀不存在对应的后缀。
其中,合并处理可以是拼接等,具体可以将所述后缀中的初始频繁单元拼接在所述后缀对应的前缀后面,得到拼接后的序列,拼接后的序列即新的前缀。
具体地,步骤“基于所述初始频繁单元,构建所述样本文本集对应的频繁词序列”,包括:
从所述样本文本集中删除每一个支持度小于所述支持度阈值的文本单元,得到过滤后的样本文本集;
将所述过滤后的样本文本集中每一个支持度大于或等于所述支持度阈值的文本单元,均确定为1级频繁词序列,并将序列级别N设定为2;
获得每一个N-1级频繁词序列对应的投影语料集,其中,所述N-1级频繁词序列对应的投影语料集,包括从所述过滤后的样本文本集的每一个语句中截取得到的所述N-1级频繁词序列的后缀;
将每一个在对应的所述投影语料集中的支持度大于或等于所述支持度阈值的文本单元和所述投影语料集对应的N-1级频繁词序列组合为N级频繁词序列,并使N递增1后返回执行所述获得每一个N-1级频繁词序列对应的投影语料集,直至不存在在对应的投影语料集中的支持度大于或等于所述支持度阈值的文本单元为止;
从获得的每一级的频繁词序列中筛选得到所述样本文本集对应的频繁词序列。
具体地,获得包括多个语句(即样本文本)的样本文本集,并对所述样本文本集进行频繁序列模式挖掘,得到频繁词序列;其中,每一个语句可以包括至少一个预先指定的文本单元,频繁词序列指代包含所述指定的文本单元、且支持度大于或等于预设的支持度阈值的序列,所述序列由至少一个文本单元组成。
本实施例的词序列具体还可以是字序列,频繁词序列可以包括频繁字序列。
在一实施例中,采用prefixspan算法挖掘样本文本集中满足支持度阈值的各个长度的频繁词序列的具体操作步骤如下:
1.找出单位长度为1的词序列前缀和对应投影语料集;
2.统计词序列前缀出现频率,并将支持度高于预设的支持度阈值的前缀添加到数据集,获取一项频繁词序列;
3.对所有长度为i且满足预设的支持度阈值要求的前缀递归挖掘:
1)挖掘前缀的投影语料集(即后缀),如果投影语料集为空集合,则返回递归;
2)统计对应投影语料集中各单项的支持度,将满足支持度的各单项与当前前缀合并,得到新前缀,不满足支持度要求则递归返回;
3)令i=i+1,前缀为合并单项后的各个新前缀,分别递归执行第3步;
4.返回该样本文本集中所有的频繁词序列。
其中,单项即前面实施例所述的初始频繁单元。
为了方便理解,下面结合一个具体的例子进行说明。假设样本文本集由如下表1中的四个样本文本(一个样本文本为一个语句)组成,其中目标文本单元为“苹果”:
Figure 718136DEST_PATH_IMAGE001
其中,可以设置最小支持率为1/3,对应的支持度阈值就等于样本文本集中的语句数量4乘以最小支持率,即4/3,也就是说,对于任意一个序列,若上述四个语句中有两个及以上的语句包含该序列,则这个序列就是这个样本文本集的一个频繁序列,反之则不是频繁序列。
针对上述样本文本集中的每一个文本单元,统计样本文本集中包含这个文本单元的语句的数量,若数量为1,则删除该文本单元,反之则保留该文本单元;通过删除后得到的过滤后的样本文本集如下表2所示:
Figure 182747DEST_PATH_IMAGE002
通过过滤删除,可以确保过滤后的样本文本集中的每一个文本单元的支持度均大于或等于支持度阈值,因此,过滤后的样本文本集中的每一个文本单元均可以认为是样本文本集的一个1级频繁词序列。在过滤不满足预设支持度阈值的词语后,过滤后的样本文本集如表3所示:
Figure 228063DEST_PATH_IMAGE003
然后,可以获取每一个N-1级频繁词序列对应的后缀,具体如下所述:
对于任意一个频繁词序列,从过滤后的样本文本集中找出每一个包含这个频繁词序列的语句,然后针对每一个包含这个频繁词序列的语句,提取出该语句中位于这个频繁词序列的最后一个文本单元之后的文本作为这个频繁词序列的一个后缀,组合这个频繁词序列的每一个后缀,就得到这个频繁词序列的投影语料集。
满足支持度阈值的一项前缀与其对应后缀如表4所示:
Figure 154431DEST_PATH_IMAGE004
以一项前缀“苹X”为例进行下一轮迭代,挖掘二项前缀和对应后缀,其他一项前缀挖掘对应二项前缀和后缀与其方法一致,此处不一一列举,结果如表5所示:
Figure 499961DEST_PATH_IMAGE005
以二项前缀“苹X公司”为例进行下一轮迭代,挖掘三项前缀和对应后缀,其他二项前缀挖掘方法一致,结果如表6所示:
Figure 588003DEST_PATH_IMAGE006
以三项前缀“苹X公司发布”为例进行下一轮迭代,挖掘四项前缀和对应后缀,其他三项前缀挖掘方法一致,结果如表7所示:
Figure 139857DEST_PATH_IMAGE007
以四项前缀“苹X公司发布最新”为例进行下一轮迭代,挖掘五项前缀和对应后缀,其他四项前缀挖掘方法一致,结果如表8所示:
Figure 869915DEST_PATH_IMAGE008
以五项前缀“苹X公司发布最新版本”为例进行下一轮迭代,挖掘六项前缀和对应后缀,其他五项前缀挖掘方法一致,结果如表9所示:
Figure 69953DEST_PATH_IMAGE009
进行下一轮迭代,挖掘七项前缀和对应后缀,结果如表10所示:
Figure 594475DEST_PATH_IMAGE010
迭代结束,得到各个长度的频繁词序列及对应的支持度,最终结果示例如表11所示:
Figure 614384DEST_PATH_IMAGE011
可选的,本实施例中,所述频繁序列还包括频繁词性序列;所述基于主题的语义识别方法还可以包括:
获取样本文本集,所述样本文本集包括至少一个样本文本;
对所述样本文本中的每个文本单元进行词性分析,得到所述样本文本对应的词性序列,所述词性序列包括所述样本文本中每个文本单元对应的词性;
针对每种词性,统计包含所述词性的样本文本的样本数量;
将所述样本数量大于预设数量的词性作为所述样本文本集的初始频繁词性;
基于所述初始频繁词性,构建所述样本文本集对应的频繁词性序列和所述频繁词性序列对应的支持度,得到预设频繁序列集。
其中,对样本文本中每个文本单元的词性分析,具体是为样本文本中每个文本单元进行词性标注;该词性标注具体为对样本文本集中的每一样本文本中的词语添加词性标签,即注明各个词语的词性,确定各个词语是名词、副词或者形容词等等,例如,对某样本文本为“房间价格不便宜”进行词性标注,得到“房间/n,价格/n,不/d,便宜/a”的词性标注结果,该n代表名词、该d代表副词以及该a代表形容词。
其中,可以通过频繁序列挖掘算法对词性标注序列的词性进行挖掘,得到满足预设支持度阈值的频繁词性序列,该频繁序列挖掘算法包括prefixspan算法。具体地,频繁词性序列为由多个词性组成的序列,例如为/n,/d,/a等等,也就是频繁出现的子序列,该子序列可以理解为公共规则,如/n,/d,/a即可为公共规则,该频繁词性序列为在样本文本集中出现次数大于预设支持度阈值的词性序列,该预设支持度阈值为衡量词性序列是否为频繁词性序列的临界值,例如样本文本集包含100句样本文本,该预设支持度阈值为20,词性序列为/n,/d,/a,那么在包含该词性序列的分句大于20条以上时,将该词性序列/n,/d,/a确定为频繁词性序列,该频繁词性序列代表在所有样本文本的词性标注序列中的公共规则,且该公共规则出现的次数达到预设的支持度阈值,该频繁词性序列具有一定的代表性。
其中,可以通过prefixspan算法对该样本文本集的词性序列进行挖掘,得到该样本文本集的词性标注序列相应的公共规则,如/n/d/a等,确定包含满足该公共规则的词性标注序列的样本文本的数量,根据该数量确定出相应的支持度,当该支持度大于预设支持度阈值时,将该公共规则确定为频繁词性序列。频繁词性序列的挖掘过程具体可以参考频繁词序列的挖掘过程,此处不再详细赘述。
其中,步骤“基于所述初始频繁词性,构建所述样本文本集对应的频繁词性序列和所述频繁词性序列对应的支持度,得到预设频繁序列集”,可以包括:
基于所述初始频繁词性,对所述样本文本的词性序列进行过滤处理,得到所述样本文本对应的处理后词性序列;
将所述初始频繁词性作为前缀,并确定在所述处理后词性序列中所述前缀对应的后缀;
当所述后缀包含有所述初始频繁词性时,基于所述后缀构建所述样本文本集对应的频繁词性序列;
统计包含所述频繁词性序列的样本文本的数量,得到所述频繁词性序列对应的支持度。
其中,步骤“当所述后缀包含有所述初始频繁词性时,基于所述后缀构建所述样本文本集对应的频繁词性序列”,可以包括:
当所述后缀包含有所述初始频繁词性时,将所述后缀中的初始频繁词性与所述后缀对应的前缀进行合并处理,得到新的前缀,并确定在所述处理后词性序列中所述新的前缀对应的新的后缀;
针对获取到的各个前缀,统计包含所述前缀的样本文本的数量;
基于所述数量,从各个前缀中确定所述样本文本集对应的频繁词性序列。
可选的,本实施例中,所述频繁序列还包括频繁语法序列;所述基于主题的语义识别方法还可以包括:
获取样本文本集,所述样本文本集包括至少一个样本文本;
对所述样本文本中的每个文本单元进行语法分析,得到所述样本文本对应的语法序列,所述语法序列包括所述样本文本中每个文本单元对应的语法关系;
针对每种语法关系,统计包含所述语法关系的样本文本的样本数量;
将所述样本数量大于预设数量的语法关系作为所述样本文本集的初始频繁语法;
基于所述初始频繁语法,构建所述样本文本集对应的频繁语法序列和所述频繁语法序列对应的支持度,得到预设频繁序列集。
其中,语法分析具体可以包括对样本文本中每个文本单元的语法关系标注。文本单元对应的语法关系包括文本单元所在上下文构成的依存句法关系、语义依存关系等等,本实施例对此不作限制。语义依存(Semantic Dependency Parsing,SDP)可以分析句子各个语言单位之间的语义关联,并将语义关联以依存结构呈现。
其中,步骤“基于所述初始频繁语法,构建所述样本文本集对应的频繁语法序列和所述频繁语法序列对应的支持度,得到预设频繁序列集”,可以包括:
基于所述初始频繁语法,对所述样本文本的语法序列进行过滤处理,得到所述样本文本对应的处理后语法序列;
将所述初始频繁语法作为前缀,并确定在所述处理后语法序列中所述前缀对应的后缀;
当所述后缀包含有所述初始频繁语法时,基于所述后缀构建所述样本文本集对应的频繁语法序列;
统计包含所述频繁语法序列的样本文本的数量,得到所述频繁语法序列对应的支持度。
其中,步骤“当所述后缀包含有所述初始频繁语法时,基于所述后缀构建所述样本文本集对应的频繁语法序列”,可以包括:
当所述后缀包含有所述初始频繁语法时,将所述后缀中的初始频繁语法与所述后缀对应的前缀进行合并处理,得到新的前缀,并确定在所述处理后语法序列中所述新的前缀对应的新的后缀;
针对获取到的各个前缀,统计包含所述前缀的样本文本的数量;
基于所述数量,从各个前缀中确定所述样本文本集对应的频繁语法序列。
频繁语法序列的挖掘过程具体可以参考频繁词序列的挖掘过程,此处不再详细赘述。
在一具体实施例中,以表12的样本文本为例说明:
Figure 633286DEST_PATH_IMAGE012
如图1c和图1d所示,为上述样本文本的词性标注,句法分析,语义依存关系标注说明图。
在词性标注中,n表示一般名词,nt表示时间名词,ns表示地理名词,d表示副词,v表示动词,u表示助词;r表示代词,q表示量词,a表示形容词。
在句法分析中,SBV表示主谓关系;VOB表示动宾关系;ATT表示定中关系;HED表示核心关系;RAD表示右附加关系;ADV表示状中结构; COO表示并列关系。比如,图1c的文本1中,“公司”和“发布”是主谓关系,二者之间的依存句法关系标记为SBV。
在语义依存关系标注中,AGT表示施事关系,FEAT表示修饰,CONT表示客事关系,mDEPD表示依附标记,SCO表示范围,MEAS表示度量,EXP表示当事关系,Root表示词根,TIME表示时间,eCOO表示并列关系,LOC表示空间。比如,图1d中,“多”和“充足”是并列关系,二者之间的语义依存关系标记为eCOO;“x地”和“苹X”是空间关系,二者之间的语义依存关系标记为LOC。
将以上获取的词性、语法关系进行标准化,即把各种词性、语法关系中规则进行统一,包括:词性标注名词统一标注为n(一些词性标注工具会标注为ns\nt等,都标准化为n);不同句法工具、词性标注工具结果有差异,要用统一的分词和词性标注工具。
经过标准化,词性关系序列标注结果如表13所示:
Figure 687830DEST_PATH_IMAGE013
一些实施例中,句法分析序列标注遵循从前到后,先远后近的标注原则。在进行序列转换时,先从前到后标注序列,到“苹X”有两个句法关系,ATT和RAD,则遵循先远后近的原则,ATT为“苹X”与“产量”的句法关系,RAD为“苹X”与“的”的句法关系,因此ATT关系较RAD关系更远,放前面,按照这个原则,整个句法关系序列转化为:HED ATT* ATT RAD SBV COOSBV ADV,其他同理进行转化。
句法分析标注结果如表14所示:
Figure 648833DEST_PATH_IMAGE014
语义依存关系按照同样方法进行获取和标注,结果如表15所示:
Figure 421617DEST_PATH_IMAGE015
本实施例中,各种模式下序列的支持度都可以通过下式计算得到:
模式支持度=该模式下序列出现样本数/总样本数,
其中,各种模式可以包括词序列模式、词性标注序列模式、句法关系序列模式、语义依存关系序列模式等,频繁序列可以包括频繁词序列、频繁词性序列、频繁句法序列以及频繁语义序列等,其中,频繁句法序列和频繁语义序列可以统称为频繁语法序列。
103、基于所述目标频繁序列的支持度,确定所述目标文本中参考文本单元对应的支持度,所述参考文本单元为所述目标文本中除所述目标文本单元以外的其他文本单元。
可选的,本实施例中,步骤“基于所述目标频繁序列的支持度,确定所述目标文本中参考文本单元对应的支持度”,可以包括:
确定所述目标文本中与所述目标频繁序列匹配的目标文本序列;
对于所述目标文本序列中的参考文本单元,将所述目标频繁序列的支持度作为所述参考文本单元的支持度;
对于所述目标文本中不属于所述目标文本序列的参考文本单元,将预设支持度作为所述参考文本单元的支持度。
具体地,目标文本序列中的每个文本单元与目标频繁序列中的每个文本单元一一对应,且其中文本单元的先后顺序一致。目标文本序列在目标文本中可以是连续的,也可以是不连续的,本实施例对此不作限制,需要说明的是。目标文本序列中文本单元的先后顺序与目标文本中对应的文本单元的先后顺序一致。
其中,参考文本单元的支持度可以视为参考文本单元的权重。
基于以上步骤可以获取目标文本单元的上下文窗口内符合长度阈值的目标文本序列,将目标频繁序列的支持度,作为目标文本序列中所包含的文本单元的权重,从而在特征提取过程中对这部分序列中的文本单元更加关注;目标文本中其他非目标文本序列的文本单元的权重设置为预设支持度,该预设支持度具体可以是步骤102中所述的最小支持率a,从权重上非目标文本序列的文本单元低于目标文本序列中的文本单元。
104、采用所述参考文本单元的特征信息和支持度对所述目标文本单元进行特征提取,得到所述目标文本单元的目标特征信息。
其中,参考文本单元的特征信息具体可以是参考文本单元的词向量。一些实施例中,可以对参考文本单元的特征信息进行向量初始化,再进行特征提取;其中,向量初始化具体可以包括设定向量的维度,使用服从均匀分布的数据填充向量的每一维度等。
可选的,本实施例中,步骤“采用所述参考文本单元的特征信息和支持度对所述目标文本单元进行特征提取,得到所述目标文本单元的目标特征信息”,可以包括:
将所述参考文本单元的特征信息和支持度进行融合,得到所述目标文本的上下文特征信息;
根据所述上下文特征信息对所述目标文本单元进行特征提取,得到所述目标文本单元的目标特征信息。
其中,参考文本单元的特征信息和支持度的融合方式有多种,本实施例对此不作限制,比如可以是相乘等。例如,针对各个参考文本单元,可以将参考文本单元的特征信息和其对应的支持度进行相乘;再将各个参考文本单元的相乘结果进行相加,得到目标文本的上下文特征信息。
其中,目标文本单元可能包含有多种语义,也即目标文本单元可以对应有多个词向量,每一个所述词向量唯一对应于一种语义;在不同语境中,目标文本单元的含义不同,因此,根据目标文本单元的上下文的特征信息,可以确定目标文本单元在目标文本中的语义。
可选的,本实施例中,步骤“采用所述参考文本单元的特征信息和支持度对所述目标文本单元进行特征提取,得到所述目标文本单元的目标特征信息”,可以包括:
通过训练后的语义模型,采用所述参考文本单元的特征信息和支持度对所述目标文本单元进行特征提取,得到所述目标文本单元的目标特征信息;
其中,该语义模型可以有多种,本实施例对此不作限制。该语义模型具体可以是词向量模型,如Word2vec(word to vector,单词转换成向量)模型。
词向量模型是一类神经网络模型,其主要包括输入层(input layer),投影层(projection layer)和输出层(output layer)三层结构。
如图1e所示,Word2vec中用的两个重要模型—CBOW模型(Continuous Bag-of- Words Model,连续词袋模型)和Skip-gram模型(Continuous Skip-gram Model,连续性跳 字模型),两个模型都包含三层:输入层、投影层和输出层;具体地,前者是在已知待语义识 别的文本单元
Figure 713052DEST_PATH_IMAGE016
(当前词)的上下文
Figure 887681DEST_PATH_IMAGE017
Figure 754006DEST_PATH_IMAGE018
Figure 14086DEST_PATH_IMAGE019
Figure 358480DEST_PATH_IMAGE020
的前提下(假设窗口 为2),预测当前词
Figure 138348DEST_PATH_IMAGE016
的语义,而后者恰恰相反,是在已知当前词
Figure 441153DEST_PATH_IMAGE016
的前提下,预测上下 文
Figure 922950DEST_PATH_IMAGE017
Figure 71035DEST_PATH_IMAGE018
Figure 702480DEST_PATH_IMAGE019
Figure 176187DEST_PATH_IMAGE020
。对于这两个模型,Word2vec给出了两套框架,分别基于 Hierarchical softmax和Negative Sampling(负采样)来设计。其中,Hierarchical Softmax(分层软体)是利用哈夫曼树结构来减少计算量的一种方式。
本实施例可以加入目标文本中目标频繁序列的支持度,融入目标文本单元的目标特征信息的预测时局部上下文加权整合的过程,以CBOW模型为例,如图1f所示。
其中,
Figure 879700DEST_PATH_IMAGE019
表示第t+1个窗口词,即中心词后的第一个文本单元,而
Figure 831476DEST_PATH_IMAGE021
则表 示第t+1个窗口词对应的频繁序列的支持度,也即第t+1个窗口词的权重;
Figure 835204DEST_PATH_IMAGE018
表示第t-1 个窗口词,即中心词前的第一个文本单元,而
Figure 230544DEST_PATH_IMAGE022
则表示第t-1个窗口词对应的频繁序列 的支持度,以此类推。其中,中心词具体可以是待语义识别的目标文本单元。
以样本文本
Figure 421354DEST_PATH_IMAGE023
为例(假设
Figure 442400DEST_PATH_IMAGE024
由w前后各n个文本 单元构成),对语义模型做简要说明,其中w为中心词。
1.输入层(Input Layer):选择窗口词并抽取每个窗口词所对应的词向量
Figure 769476DEST_PATH_IMAGE025
Figure 335718DEST_PATH_IMAGE026
,…,
Figure 13824DEST_PATH_IMAGE027
2.投影层(Projection Layer):将输入的2n个词向量根据上述实施例获取的频繁序列对应的支持度权重进行加权,然后求和累加,如式子(2)所示:
Figure 572981DEST_PATH_IMAGE028
(2)
其中,
Figure 285722DEST_PATH_IMAGE029
表示各个窗口词的词向量(即上述实施例中参考文本 单元的特征信息),
Figure 6554DEST_PATH_IMAGE030
表示各个窗口词分别对应的支持度权重(即上述实 施例中参考文本单元的支持度),
Figure 188267DEST_PATH_IMAGE031
表示中心词的上下文特征信息。
3.输出层(Output Layer):可以构建Huffman树(哈夫曼树),利用Huffman树上每 一个分支为一次二分类,最终得到
Figure 19957DEST_PATH_IMAGE032
,即根据上下文窗口
Figure 852784DEST_PATH_IMAGE033
预测得到的中心词
Figure 744516DEST_PATH_IMAGE034
语义的概率分布。
其中,哈夫曼树是一种给定N个叶子节点以及每一个叶子节点对应的权值之后,根据这N个权值按一定的规则构造得到的二叉树,其中每个叶子节点的权值用于决定叶子节点在哈夫曼树中的位置。
本实施例中,目标频繁序列可以包括目标频繁词序列、目标频繁词性序列和目标频繁语法序列等。
其中,根据目标频繁词序列对应的支持度,来确定目标文本中参考文本单元的支持度,进而采用参考文本单元的特征信息和支持度对目标文本单元进行特征提取,可以得到词序列模式加权后的词向量(具体可以是上述实施例中目标文本单元的目标特征信息)。
其中,根据目标频繁词性序列对应的支持度,来确定目标文本中参考文本单元的支持度,进而采用参考文本单元的特征信息和支持度对目标文本单元进行特征提取,可以得到词性标注序列模式加权后的词向量(具体可以是上述实施例中目标文本单元的目标特征信息),该词向量融合有上下文的文本单元的词性关系。
其中,根据目标频繁语法序列对应的支持度,来确定目标文本中参考文本单元的支持度,进而采用参考文本单元的特征信息和支持度对目标文本单元进行特征提取,可以得到语法序列模式加权后的词向量(具体可以是上述实施例中目标文本单元的目标特征信息),该词向量可以融合有上下文的语法关系。
其中,该语义模型的训练过程可以如图1g所示,获取训练语料,对训练语料进行预处理,如对其进行多义词识别标记,将多义词标记为中心词,并对训练语料中各个词语进行向量初始化,具体可以获取训练语料中各个词语标准化后的词向量;然后,根据匹配的频繁序列的支持度,将训练语料中中心词的上下文窗口内词语对应的词向量进行加权融合,得到中心词的实际特征信息,根据中心词实际特征信息和标准化后的词向量之间的误差,对语义模型的参数进行调整;再通过调整后的语义模型对训练语料中中心词的上下文窗口内词语对应的词向量进行加权融合,直到中心词实际特征信息和标准化后的词向量之间的误差小于阈值,得到训练后的语义模型;通过训练后的语义模型可以根据中心词的上下文信息,确定中心词的目标特征信息,即获取中心词对应的词向量,将该词向量应用到各种语义识别场景中。
在一具体实施例中,如图1h所示,将训练语料中词语输入到语义模型中,初始化训练语料中词语对应的词向量;根据匹配的频繁序列的支持度,对中心词的上下文窗口内的词语向量进行加权求和,得到上下文特征信息,再通过语义模型中的哈夫曼树子模型根据上下文特征信息,预测中心词的实际特征信息,根据中心词的实际特征信息和标准特征信息之间的误差,对语义模型进行训练,直到中心词的实际特征信息和标准特征信息之间的误差达到阈值,这样可以通过训练后语义模型获取中心词的词向量。
需要说明的是,该语义模型由多个带有标签的训练数据训练而成,本实施例的训练数据包括多个样本文本中参考样本文本单元的特征信息和支持度,该标签是指样本文本中待语义识别的目标样本文本单元的标准特征信息;该语义模型具体可以由其他设备进行训练后,提供给该基于主题的语义识别装置,或者,也可以由该基于主题的语义识别装置自行进行训练。
若由该基于主题的语义识别装置自行进行训练,则步骤“通过训练后的语义模型,采用所述参考文本单元的特征信息和支持度对所述目标文本单元进行特征提取,得到所述目标文本单元的目标特征信息”之前,还可以包括:
获取训练数据,所述训练数据包括样本文本中待语义识别的目标样本文本单元的标准特征信息,以及参考样本文本单元的特征信息和支持度,所述参考样本文本单元为所述样本文本中除所述目标样本文本单元以外的其他文本单元;
通过语义模型,对所述参考样本文本单元的特征信息和支持度进行融合,得到所述样本文本的上下文特征信息;
根据所述上下文特征信息对所述目标样本文本单元进行特征提取,得到所述目标样本文本单元的实际特征信息;
基于所述目标样本文本单元的标准特征信息和实际特征信息之间的损失值,调整所述语义模型的参数,直到所述损失值满足预设损失条件,得到训练后的语义模型。
其中,该训练过程是先计算出目标样本文本单元的实际特征信息,然后使用反向传播算法对语义模型的参数进行调整,基于目标样本文本单元的标准特征信息和实际特征信息,优化语义模型的参数,使目标样本文本单元的实际特征信息趋近于标准特征信息,得到训练后的语义模型。具体地,可以使计算得到的目标样本文本单元的实际特征信息和标准特征信息之间的损失值小于预设值,该预设值可以根据实际情况进行设置。
105、根据所述目标特征信息和所述目标文本的主题特征信息,对所述目标文本单元进行语义识别,得到所述目标文本单元在所述目标文本中的语义。
其中,一些实施例中,可以将目标特征信息和主题特征信息进行融合,根据融合后的特征信息预测所述目标文本单元在目标文本中的语义。
其中,目标文本的主题特征信息可以是通过对目标文本进行主题分析得到的。具体地,可以获取目标文本的主题分布信息,再根据主题分布信息确定目标文本的主题特征信息。
其中,可以采用LDA文档主题模型抽取出文本的主题分布信息,具体地,可以基于LDA文档主题模型进行文本主题词抽取并编码作为文本的主题特征信息。
其中,LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,它是一种统计模型,用来从文档集中找出一组潜在的包含特定概率的主题,包含词、主题和文档三层结构,即形成词语-主题-文档三层结构。
具体地,主题的特征由词语的分布进行表征,反映了文本的主题分布。LDA文档主题模型的核心公式如下式(3)所示:
Figure 428175DEST_PATH_IMAGE035
(3)
其中,p表示概率,
Figure 329135DEST_PATH_IMAGE036
为文本
Figure 485310DEST_PATH_IMAGE037
中的词语,
Figure 813523DEST_PATH_IMAGE038
为文本所隐含的主题,n表示主题的 个数,
Figure 953517DEST_PATH_IMAGE039
表示文本的主题分布信息。
具体地,LDA生成文本的思想为:通过文本(如文章)以一定概率选择某个主题,再以一定的概率从该主题中选择某个词语,不循环这两个步骤直至生成整篇文本,即一篇文本的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到。
具体地,上述的LDA文档主题模型可以是基于期望最大化算法训练得到的,即基于期望最大化算法训练得到的文档主题生成模型,来确定待语义识别词所在文本的主题分布,并将待语义识别词所在文本的主题分布作为待语义识别词的全局主题分布。其中,基于期望最大化算法训练得到的LDA文档主题模型,只需要经过较小的迭代就可以收敛,从而快速得到文本-主题的分布矩阵,该文本-主题的分布矩阵即为文本的主题分布。文本的主题分布表示词语所在文本属于每个主题的概率,语义相近的词语具有相似的主题分布;主题分布具体即为文本的主题分布向量。
在一个具体的实施例中,假如词语W1所在的文本为T1,在根据T1的整个文本内容确定T1的主题分布的过程中,可以根据T1的整个文本内容确定T1属于至少一个预定类型的主题(比如科技主题、财经主题、游戏主题、体育主题及餐饮主题等)的至少一个概率,再根据至少一个概率确定T1的主题分布。假如T1属于科技主题的概率为Q1、T1属于财经主题的概率为Q2、T1属于游戏主题的概率为Q3、T1属于体育主题的概率为Q4、T1属于餐饮主题的概率为Q5,则可以根据Q1、Q2、Q3、Q4及Q5确定T1的主题分布,比如将概率最大值(例如Q2)对应的主题作为T1的主题,从而得到T1的主题分布为概率最大值对应的主题,又比如将较大的2个概率值(例如Q2与Q5)对应的主题均作为T1的主题,从而得到T1的主题分布为较大的2个概率值对应的主题。
可选的,本实施例中,步骤“根据所述目标特征信息和所述目标文本的主题特征信息,对所述目标文本单元进行语义识别,得到所述目标文本单元在所述目标文本中的语义”,可以包括:
确定所述目标文本单元的至少一种候选语义;
基于所述目标特征信息,从所述目标文本单元的至少一种候选语义中选取第一预测语义;
基于所述目标文本的主题特征信息,从所述目标文本单元的至少一种候选语义中选取第二预测语义;
根据所述第一预测语义和所述第二预测语义,确定所述目标文本单元在所述目标文本中的语义。
其中,本实施例中,可以预先得知目标文本单元的一个或多个候选语义,具体可以得知目标文本单元的所有语义,再根据目标特征信息和目标文本的主题特征信息,从这些候选语义中选取一个语义作为目标文本单元在目标文本中的语义。
可选地,步骤“基于所述目标特征信息,从所述目标文本单元的至少一种候选语义中选取第一预测语义”,可以包括:
计算所述目标特征信息和所述目标文本单元的至少一种候选语义之间的相似度;
根据所述相似度,从所述目标文本单元的至少一种候选语义中选取第一预测语义。
其中,具体可以将相似度最大的候选语义作为第一预测语义。
可选地,步骤“基于所述目标文本的主题特征信息,从所述目标文本单元的至少一种候选语义中选取第二预测语义”,可以包括:
计算所述目标文本的主题特征信息和所述目标文本单元的至少一种候选语义之间的相似度;
根据所述相似度,从所述目标文本单元的至少一种候选语义中选取第二预测语义。
其中,具体可以将相似度最大的候选语义作为第二预测语义。
本实施例中,目标特征信息具体可以包括通过目标频繁词序列的支持度计算得到的目标特征信息、通过目标频繁词性序列的支持度计算得到的目标特征信息,通过目标频繁语法序列的支持度计算得到的目标特征信息等,本实施例对此不作限制。
其中,可以将通过目标频繁词序列的支持度计算得到的目标特征信息记为词语序列模式加权向量;将通过目标频繁词性序列的支持度计算得到的目标特征信息记为词性序列模式加权向量;将通过目标频繁语法序列的支持度计算得到的目标特征信息记为语法序列模式加权向量。
可选地,步骤“基于所述目标特征信息,从所述目标文本单元的至少一种候选语义中选取第一预测语义”,可以包括:
基于词语序列模式加权向量,从所述目标文本单元的至少一种候选语义中选取第一词语预测语义;
基于词性序列模式加权向量,从所述目标文本单元的至少一种候选语义中选取第一词性预测语义;
基于语法序列模式加权向量,从所述目标文本单元的至少一种候选语义中选取第一语法预测语义。
可选地,本实施例中,步骤“根据所述第一预测语义和所述第二预测语义,确定所述目标文本单元在所述目标文本中的语义”中,具体可以是根据聚类集成的思想,采用投票法作为一致性函数对聚类结果进行集成;第一预测语义即为根据目标特征信息对候选语义进行投票的结果,第二预测语义为根据目标文本的主题特征信息对候选语义进行投票的结果。
其中,目标特征信息和目标文本的主题特征信息为聚类成员,目标文本单元的每个候选语义可以作为一个簇;可以根据聚类成员对目标文本单元的语义划分进行投票,计算目标文本单元被分到每个簇的投票比例,具体也可以是目标文本单元的每个候选语义的得票数。依据多数投票超过一定阈值来将目标文本单元在目标文本中的语义划分到这个簇中。也就是说,把几部分的特征信息当成几部分的聚类成员,根据这几部分特征信息划分的一词多义进行投票,计算目标文本单元被分到各个候选语义的投票比例,哪个候选语义的票数多就把目标文本单元归属到哪个候选语义下。
其中,集成聚类可以通过集成多个不同的学习器来解决同一个问题,与单一聚类算法相比,集成聚类提高了聚类结果的质量和聚类的健壮性。能检测和处理孤立点、噪音;并且可以并行处理数据集,对于大规模的数据集,能够提高时间效率。
需要说明的是,本实施例可以以投票法作为一致性函数进行集成聚类,但同样适用于其他一致性函数进行集成聚类。投票法的基本思想是尽可能多地共享聚类成员对数据对象(具体即目标文本单元)的分类信息,根据聚类成员对数据对象的划分进行投票,计算数据对象被分到每个簇的投票比例,依据多数投票超过一定阈值(一般大于等于0.5)来将其划分到这个簇中。
可选地,本实施例还可以用于确定某个文本单元是否是多义词,具体还可以确定该文本单元具有多少种语义,即文本单元的语义种类数量。
其中,目标文本具体可以有至少一个,每个目标文本中包含待语义识别的目标文本单元,目标文本单元为需要确定语义种类数量的文本单元;本实施例可以通过上述方法获取多个目标文本的主题特征信息、以及对应目标文本下目标文本单元的目标特征信息,其中,目标特征信息可以包括词语序列模式加权向量、词性序列模式加权向量、语法序列模式加权向量等。
其中,本实施例中,所述基于主题的语义识别方法还可以包括:
对所述目标文本的主题特征信息和所述目标文本中目标文本单元的目标特征信息进行聚类处理,得到所述目标文本中所述目标文本单元的语义种类数量。
其中,聚类处理使用的聚类算法具体可以是Kmeans( K均值算法)等,本实施例对此不作限制。通过Kmeans聚类算法对各部分特征信息(包括目标特征信息和主题特征信息)进行聚类,生成各部分特征信息的聚类分布。
其中,步骤“对所述目标文本的主题特征信息和所述目标文本中目标文本单元的目标特征信息进行聚类处理,得到所述目标文本中所述目标文本单元的语义种类数量”,可以包括:
对各个目标文本的主题特征信息进行聚类处理,得到第一聚类结果;
对各个目标文本中目标文本单元的目标特征信息进行聚类处理,得到第二聚类结果;
根据第一聚类结果和第二聚类结果,确定所述目标文本中所述目标文本单元的语义种类数量。
例如,目标文本有5个,目标文本单元为这5个目标文本中出现的“苹X”,将这5个对象分别标记为{a,b,c,d,e},此外,假设获得的目标特征信息有两部分,分别是词语序列模式加权向量、词性序列模式加权向量,可以理解的是,目标特征信息也可以包含其他部分,如可以是三部分,包括词语序列模式加权向量、词性序列模式加权向量、语法序列模式加权向量,此处仅仅作为举例。将词语序列模式加权向量记为C1,将词性序列模式加权向量记为C2,将主题特征信息记为C3,针对每种特征信息,可以将聚类的不同类别用不同的数字区分,例如标记为:1、2、3…。
将5个“苹X”对象根据不同的特征信息进行聚类,获取得到的各个特征信息各自的聚类结果如表16所示:
Figure 143321DEST_PATH_IMAGE040
其中,C1和C2的聚类结果是一致的,都把“苹X”分为2个簇:{{a,b},{c,d,e}},而C3特征向量分为3个簇:{{a },{b},{c,d,e}}。
由表16可知,5个“苹X”对象在C1和C2中的聚类簇生成结果一致,即这两个聚类结果中每个对象所归属到同一类的结果是相同的,在三个特征信息C1、C2、C3集成聚类结果中{{a,b},{c,d,e}}超过0.5,因此最终的聚类结果为{{a,b},{c,d,e}},即将5个对象的“苹X”语义分为两类,其中对象a和对象b为一类,对象c和对象d、对象e为一类,从而识别一词多义。
可选地,本实施例中,所述基于主题的语义识别方法还可以包括:
对所述目标文本的主题特征信息和所述目标文本中目标文本单元的目标特征信息进行融合,得到所述目标文本单元的融合后特征;
通过预设聚类算法对各个目标文本中目标文本单元的融合后特征进行聚类处理,得到所述目标文本中所述目标文本单元的语义种类数量。
其中,可以通过不同的聚类算法对各个目标文本中目标文本单元的融合后特征进行聚类处理,得到不同聚类算法对应的聚类结果,根据不同聚类算法对应的聚类结果,确定所述目标文本中所述目标文本单元的语义种类数量。
其中,聚类算法可以包括K-means聚类算法,K-medoids(K-中心点)算法、DBSCAN(基于密度的聚类算法)、层次聚类算法或者自组织映射聚类算法等等,以上举例不应理解为对本申请的限制。
例如,目标文本有5个,目标文本单元为这5个目标文本中出现的“苹X”,将这5个对象分别标记为{a,b,c,d,e},获取不同的聚类算法,如选择三种不同的聚类算法——Kmeans聚类算法,DBSCAN聚类算法和层次聚类算法,将Kmeans聚类算法记为M1,将DBSCAN聚类算法记为M2,将层次聚类算法记为M3,针对每种聚类算法,可以将聚类的不同类别用不同的数字区分,例如标记为:1、2、3…。
将5个“苹X”对象根据不同的聚类算法进行聚类,获取得到的各个聚类算法各自的聚类结果如表17所示:
Figure 685161DEST_PATH_IMAGE041
其中,M1和M2的聚类结果是一致的,都把“苹X”分为2个簇:{{a,b},{c,d,e}},而M3聚类算法分为3个簇:{{a },{b},{c,d,e}}。
由表17可知,5个“苹X”对象在M1和M2中的聚类簇生成结果一致,即这两个聚类结果中每个对象所归属到同一类的结果是相同的,在三个聚类算法M1、M2、M3集成聚类结果中{{a,b},{c,d,e}}超过0.5,因此最终的聚类结果为{{a,b},{c,d,e}},即将5个对象的“苹X”语义分为两类,其中对象a和对象b为一类,对象c和对象d、对象e为一类,从而识别一词多义。
具体地,识别一词多义的流程如图1i所示,
1001、挖掘频繁序列,其中频繁序列可以包括频繁词序列、频繁词性序列以及频繁语法序列;
1002、基于频繁序列的支持度,加权训练词语的上下文特征信息;
1003、获取文本的主题词并编码作为文本的主题特征信息;
1004、利用集成学习将各部分特征信息进行集成聚类。
其中,若集成聚类得到的聚类结果为1个簇,则该目标文本单元不是多义词,若集成聚类得到的聚类结果为2个或2个以上的簇,则该目标文本单元为多义词。
本申请可以基于频繁序列模式挖掘频繁词序列、频繁词性序列和频繁语法序列等,从而基于频繁序列的支持度更好地针对词语所在上下文结构加权训练上下文特征信息,在词向量训练时能够融合语法关系和词语顺序到词向量模型的训练中;另外,本申请可以获取文本的主题词并编码作为文本的主题特征信息,主题词描述了该词所在上下文的全局主题,引入主题特征信息区分不同主题下的一词多义,能够对局部分布向量进行修正。
而且,本申请利用集成学习的方法,对词语序列模式加权向量、词性序列模式加权向量、语法序列模式加权向量、主题特征信息等几部分特征信息进行集成聚类,与单一聚类算法相比,聚类集成有以下优点:1)提高了聚类结果的质量和聚类的健壮性。不同的聚类结果,从不同方面反映了词语结构,聚类集成反映了多个聚类算法的综合特性;2)能检测和处理孤立点和噪音,若一个数据对象不属于任何一个簇或聚类成员,则无法对其得到一致划分,聚类集成将此数据对象划为单独的一个簇,不会影响聚类结果;3)能并行处理数据集,大规模的数据集,对数据并行地进行聚类,然后再集成,提高了时间效率。
本申请提出的融合频繁序列和主题集成聚类的一词多义识别方法,该方法能够更好地融合词的上下文词语词法句法关系和全局主题信息进行集成聚类词向量学习。
本申请提出的基于主题的语义识别方法及装置,可以广泛应用于多义词识别、语义消歧、词向量学习等领域,适用于自然语言理解、问答系统等场景。例如智能客服应用场景中,引入语义消歧算法模型,能够提高问答系统的准确度,如区分根据用户问题上下文区分多义词的具体含义和场景;在情感分析等技术应用场景中,通过多义词识别和引入能够提高文本向量表征的精确性,从而提高分类效果。在论坛等词条构建领域,通过场景识别语义更好地构建结合场景相关的词条,防止出现语境错误的现象。本申请具有广泛的应用场景,除以上场景外,对于多义词进行识别和消歧义,都属于该申请的潜在应用场景。
由上可知,本实施例可以获取目标文本中待语义识别的目标文本单元;从预设频繁序列集中获取与所述目标文本匹配的目标频繁序列,所述预设频繁序列集包括频繁序列和所述频繁序列对应的支持度,所述支持度表征样本文本集中所述频繁序列的出现次数;基于所述目标频繁序列的支持度,确定所述目标文本中参考文本单元对应的支持度,所述参考文本单元为所述目标文本中除所述目标文本单元以外的其他文本单元;采用所述参考文本单元的特征信息和支持度对所述目标文本单元进行特征提取,得到所述目标文本单元的目标特征信息;根据所述目标特征信息和所述目标文本的主题特征信息,对所述目标文本单元进行语义识别,得到所述目标文本单元在所述目标文本中的语义。本申请可以基于与目标文本匹配的频繁序列和主题特征信息进行多义词的识别,有利于提高一词多义识别的准确性和效率。
根据前面实施例所描述的方法,以下将以该基于主题的语义识别装置具体集成在服务器举例作进一步详细说明。
本申请实施例提供一种基于主题的语义识别方法,如图2所示,该基于主题的语义识别方法的具体流程可以如下:
201、服务器获取目标文本中待语义识别的目标文本单元。
其中,目标文本为包含待语义识别的文本单元的文本,具体可以是一句话、段落或是一篇文章等。目标文本单元可以包含至少一种语义,具体地,目标文本单元可以是多义词。其中,文本单元可以为语句中单个的词或字等。
202、服务器从预设频繁序列集中获取与所述目标文本匹配的目标频繁序列,所述预设频繁序列集包括频繁序列和所述频繁序列对应的支持度,所述支持度表征样本文本集中所述频繁序列的出现次数。
其中,频繁序列,也可以称为序列模式,频繁序列具体可以指样本文本集中,支持度大于或等于预设的支持度阈值的序列;该序列可以是词序列、也可以是词性序列或语法序列等。频繁序列可以包括频繁词序列、频繁词性序列和频繁语法序列等等,本实施例对此不作限制。支持度表征样本文本集中所述频繁序列的出现次数,具体可以是样本文本集中包含所述频繁序列的样本文本的数量。其中,预设频繁序列集包括频繁序列和支持度之间的映射关系。
可选的,本实施例中,步骤“从预设频繁序列集中获取与所述目标文本匹配的目标频繁序列”,可以包括:
对所述目标文本进行分词处理,得到所述目标文本的至少一个文本单元;
基于所述文本单元在所述目标文本中的顺序,对所述文本单元进行组合,得到所述目标文本的文本序列;
从预设频繁序列集中选择满足预设长度条件的文本序列作为与所述目标文本匹配的目标频繁序列。
其中,预设长度条件可以根据实际情况进行设置,比如,可以将存在于所述预设频繁序列集中、且满足预设长度条件的文本序列确定为与所述目标文本匹配的目标频繁序列,具体地,将存在于所述预设频繁序列集中的文本序列确定为候选文本序列,再将序列长度最长的候选文本序列确定为与所述目标文本匹配的目标频繁序列。
本实施例中,目标频繁序列可以包含待语义识别的目标文本单元。
203、服务器基于所述目标频繁序列的支持度,确定所述目标文本中参考文本单元对应的支持度,所述参考文本单元为所述目标文本中除所述目标文本单元以外的其他文本单元。
可选的,本实施例中,步骤“基于所述目标频繁序列的支持度,确定所述目标文本中参考文本单元对应的支持度”,可以包括:
确定所述目标文本中与所述目标频繁序列匹配的目标文本序列;
对于所述目标文本序列中的参考文本单元,将所述目标频繁序列的支持度作为所述参考文本单元的支持度;
对于所述目标文本中不属于所述目标文本序列的参考文本单元,将预设支持度作为所述参考文本单元的支持度。
具体地,目标文本序列中的每个文本单元与目标频繁序列中的每个文本单元一一对应,且其中文本单元的先后顺序一致。目标文本序列在目标文本中可以是连续的,也可以是不连续的,本实施例对此不作限制,需要说明的是。目标文本序列中文本单元的先后顺序与目标文本中对应的文本单元的先后顺序一致。
其中,参考文本单元的支持度可以视为参考文本单元的权重。
204、服务器将所述参考文本单元的特征信息和支持度进行融合,得到所述目标文本的上下文特征信息。
其中,参考文本单元的特征信息和支持度的融合方式有多种,本实施例对此不作限制,比如可以是相乘等。例如,针对各个参考文本单元,可以将参考文本单元的特征信息和其对应的支持度进行相乘;再将各个参考文本单元的相乘结果进行相加,得到目标文本的上下文特征信息。
205、服务器根据所述上下文特征信息对所述目标文本单元进行特征提取,得到所述目标文本单元的目标特征信息。
206、服务器根据所述目标特征信息和所述目标文本的主题特征信息,对所述目标文本单元进行语义识别,得到所述目标文本单元在所述目标文本中的语义。
其中,目标文本的主题特征信息可以是通过对目标文本进行主题分析得到的。具体地,可以获取目标文本的主题分布信息,再根据主题分布信息确定目标文本的主题特征信息。
其中,可以采用LDA文档主题模型抽取出文本的主题分布信息,具体地,可以基于LDA文档主题模型进行文本主题词抽取并编码作为文本的主题特征信息。
可选的,本实施例中,步骤“根据所述目标特征信息和所述目标文本的主题特征信息,对所述目标文本单元进行语义识别,得到所述目标文本单元在所述目标文本中的语义”,可以包括:
确定所述目标文本单元的至少一种候选语义;
基于所述目标特征信息,从所述目标文本单元的至少一种候选语义中选取第一预测语义;
基于所述目标文本的主题特征信息,从所述目标文本单元的至少一种候选语义中选取第二预测语义;
根据所述第一预测语义和所述第二预测语义,确定所述目标文本单元在所述目标文本中的语义。
可选地,步骤“基于所述目标特征信息,从所述目标文本单元的至少一种候选语义中选取第一预测语义”,可以包括:
计算所述目标特征信息和所述目标文本单元的至少一种候选语义之间的相似度;
根据所述相似度,从所述目标文本单元的至少一种候选语义中选取第一预测语义。
其中,具体可以将相似度最大的候选语义作为第一预测语义。
可选地,步骤“基于所述目标文本的主题特征信息,从所述目标文本单元的至少一种候选语义中选取第二预测语义”,可以包括:
计算所述目标文本的主题特征信息和所述目标文本单元的至少一种候选语义之间的相似度;
根据所述相似度,从所述目标文本单元的至少一种候选语义中选取第二预测语义。
其中,具体可以将相似度最大的候选语义作为第二预测语义。
本申请提出了一种融合频繁序列和主题集成聚类的一词多义识别方法及装置,本申请方法通过融合频繁词序列、频繁词性序列、频繁语法序列加权获取的目标文本单元的目标特征信息,以及文本的主题特征信息,进行集成聚类,可以准确地进行多义词识别。该方法适用于自然语言处理技术的相关应用场景,如文本翻译、问答系统、情感分析等,具有广泛的实践意义。
本申请公开了一种基于主题的语义识别方法及装置,该方法首先基于频繁序列模式挖掘频繁词序列、频繁词性序列和频繁语法序列,然后利用频繁序列支持度加权训练上下文特征信息,从而融合语法关系到词向量模型的训练中,接下来获取文本的主题词并编码作为文本的主题特征信息,最终利用集成学习的方法将各部分的特征信息进行集成聚类。与现有方法相比,本申请方法能更好地训练得到更准确的词向量模型,并且能够进行多义词识别和消歧义,具有较高的实践价值和参考意义。
由上可知,本实施例可以通过服务器获取目标文本中待语义识别的目标文本单元;从预设频繁序列集中获取与所述目标文本匹配的目标频繁序列,所述预设频繁序列集包括频繁序列和所述频繁序列对应的支持度,所述支持度表征样本文本集中所述频繁序列的出现次数;基于所述目标频繁序列的支持度,确定所述目标文本中参考文本单元对应的支持度,所述参考文本单元为所述目标文本中除所述目标文本单元以外的其他文本单元;将所述参考文本单元的特征信息和支持度进行融合,得到所述目标文本的上下文特征信息;根据所述上下文特征信息对所述目标文本单元进行特征提取,得到所述目标文本单元的目标特征信息;根据所述目标特征信息和所述目标文本的主题特征信息,对所述目标文本单元进行语义识别,得到所述目标文本单元在所述目标文本中的语义。本申请可以基于与目标文本匹配的频繁序列和主题特征信息进行多义词的识别,有利于提高一词多义识别的准确性和效率。
为了更好地实施以上方法,本申请实施例还提供一种基于主题的语义识别装置,如图3a所示,该基于主题的语义识别装置可以包括获取单元301、序列获取单元302、确定单元303、提取单元304和识别单元305,如下:
(1)获取单元301;
获取单元301,用于获取目标文本中待语义识别的目标文本单元。
(2)序列获取单元302;
序列获取单元302,用于从预设频繁序列集中获取与所述目标文本匹配的目标频繁序列,所述预设频繁序列集包括频繁序列和所述频繁序列对应的支持度,所述支持度表征样本文本集中所述频繁序列的出现次数。
可选的,在本申请的一些实施例中,所述序列获取单元302可以包括分词子单元3021、组合子单元3022和选择子单元3023,参见图3b,如下:
所述分词子单元3021,用于对所述目标文本进行分词处理,得到所述目标文本的至少一个文本单元;
组合子单元3022,用于基于所述文本单元在所述目标文本中的顺序,对所述文本单元进行组合,得到所述目标文本的文本序列;
选择子单元3023,用于从预设频繁序列集中选择满足预设长度条件的文本序列作为与所述目标文本匹配的目标频繁序列。
(3)确定单元303;
确定单元303,用于基于所述目标频繁序列的支持度,确定所述目标文本中参考文本单元对应的支持度,所述参考文本单元为所述目标文本中除所述目标文本单元以外的其他文本单元。
可选的,在本申请的一些实施例中,所述确定单元303可以包括序列确定子单元3031、第一支持度确定子单元3032和第二支持度确定子单元3033,参见图3c,如下:
所述序列确定子单元3031,用于确定所述目标文本中与所述目标频繁序列匹配的目标文本序列;
第一支持度确定子单元3032,用于对于所述目标文本序列中的参考文本单元,将所述目标频繁序列的支持度作为所述参考文本单元的支持度;
第二支持度确定子单元3033,用于对于所述目标文本中不属于所述目标文本序列的参考文本单元,将预设支持度作为所述参考文本单元的支持度。
(4)提取单元304;
提取单元304,用于采用所述参考文本单元的特征信息和支持度对所述目标文本单元进行特征提取,得到所述目标文本单元的目标特征信息。
可选的,在本申请的一些实施例中,所述提取单元304可以包括融合子单元3041和提取子单元3042,参见图3d,如下:
所述融合子单元3041,用于将所述参考文本单元的特征信息和支持度进行融合,得到所述目标文本的上下文特征信息;
提取子单元3042,用于根据所述上下文特征信息对所述目标文本单元进行特征提取,得到所述目标文本单元的目标特征信息。
可选的,在本申请的一些实施例中,所述提取单元304具体可以用于通过训练后的语义模型,采用所述参考文本单元的特征信息和支持度对所述目标文本单元进行特征提取,得到所述目标文本单元的目标特征信息。
可选的,在本申请的一些实施例中,所述提取单元304还可以包括训练子单元3043,所述训练子单元3043可以用于训练语义模型,参见图3e,如下:
所述训练子单元3043具体可以用于获取训练数据,所述训练数据包括样本文本中待语义识别的目标样本文本单元的标准特征信息,以及参考样本文本单元的特征信息和支持度,所述参考样本文本单元为所述样本文本中除所述目标样本文本单元以外的其他文本单元;通过语义模型,对所述参考样本文本单元的特征信息和支持度进行融合,得到所述样本文本的上下文特征信息;根据所述上下文特征信息对所述目标样本文本单元进行特征提取,得到所述目标样本文本单元的实际特征信息;基于所述目标样本文本单元的标准特征信息和实际特征信息之间的损失值,调整所述语义模型的参数,直到所述损失值满足预设损失条件,得到训练后的语义模型。
(5)识别单元305;
识别单元305,用于根据所述目标特征信息和所述目标文本的主题特征信息,对所述目标文本单元进行语义识别,得到所述目标文本单元在所述目标文本中的语义。
可选的,在本申请的一些实施例中,所述识别单元305可以包括候选语义确定子单元3051、第一选取子单元3052、第二选取子单元3053和语义确定子单元3054,参见图3f,如下:
所述候选语义确定子单元3051,用于确定所述目标文本单元的至少一种候选语义;
第一选取子单元3052,用于基于所述目标特征信息,从所述目标文本单元的至少一种候选语义中选取第一预测语义;
第二选取子单元3053,用于基于所述目标文本的主题特征信息,从所述目标文本单元的至少一种候选语义中选取第二预测语义;
语义确定子单元3054,用于根据所述第一预测语义和所述第二预测语义,确定所述目标文本单元在所述目标文本中的语义。
可选的,在本申请的一些实施例中,所述基于主题的语义识别装置还可以包括序列集构建单元306;所述序列集构建单元306可以用于构建样本文本集对应的频繁序列和所述频繁序列对应的支持度,得到预设频繁序列集。
可选的,在本申请的一些实施例中,所述频繁序列包括频繁词序列;所述序列集构建单元306可以包括分词处理子单元3061、第一统计子单元3062、第一确定子单元3063和第一构建子单元3064,参见图3g,如下:
所述分词处理子单元3061,用于获取样本文本集,并对所述样本文本集中每个样本文本进行分词处理,得到所述样本文本集中每个样本文本的至少一个样本文本单元;
第一统计子单元3062,用于针对每个样本文本单元,统计包含所述样本文本单元的样本文本的样本数量;
第一确定子单元3063,用于将所述样本数量大于预设数量的样本文本单元作为所述样本文本集的初始频繁单元;
第一构建子单元3064,用于基于所述初始频繁单元,构建所述样本文本集对应的频繁词序列和所述频繁词序列对应的支持度,得到预设频繁序列集。
可选的,在本申请的一些实施例中,所述第一构建子单元3064具体可以用于基于所述初始频繁单元,对所述样本文本进行过滤处理,得到处理后样本文本;将所述初始频繁单元作为前缀,并确定在所述处理后样本文本中所述前缀对应的后缀;当所述后缀包含有所述初始频繁单元时,基于所述后缀构建所述样本文本集对应的频繁词序列;统计包含所述频繁词序列的样本文本的数量,得到所述频繁词序列对应的支持度。
可选的,在本申请的一些实施例中,步骤“当所述后缀包含有所述初始频繁单元时,基于所述后缀构建所述样本文本集对应的频繁词序列”,可以包括:
当所述后缀包含有所述初始频繁单元时,将所述后缀中的初始频繁单元与所述后缀对应的前缀进行合并处理,得到新的前缀,并确定在所述处理后样本文本中所述新的前缀对应的新的后缀;
针对获取到的各个前缀,统计包含所述前缀的样本文本的数量;
基于所述数量,从各个前缀中确定所述样本文本集对应的频繁词序列。
可选的,在本申请的一些实施例中,所述频繁序列还包括频繁词性序列;所述序列集构建单元306可以包括第一获取子单元3065、词性分析子单元3066、第二统计子单元3067、第二确定子单元3068和第二构建子单元3069,参见图3h,如下:
所述第一获取子单元3065,用于获取样本文本集,所述样本文本集包括至少一个样本文本;
词性分析子单元3066,用于对所述样本文本中的每个文本单元进行词性分析,得到所述样本文本对应的词性序列,所述词性序列包括所述样本文本中每个文本单元对应的词性;
第二统计子单元3067,用于针对每种词性,统计包含所述词性的样本文本的样本数量;
第二确定子单元3068,用于将所述样本数量大于预设数量的词性作为所述样本文本集的初始频繁词性;
第二构建子单元3069,用于基于所述初始频繁词性,构建所述样本文本集对应的频繁词性序列和所述频繁词性序列对应的支持度,得到预设频繁序列集。
可选的,在本申请的一些实施例中,所述频繁序列还包括频繁语法序列;所述序列集构建单元306可以包括第二获取子单元30610、语法分析子单元30611、第三统计子单元30612、第三确定子单元30613和第三构建子单元30614,参见图3i,如下:
所述第二获取子单元30610,用于获取样本文本集,所述样本文本集包括至少一个样本文本;
语法分析子单元30611,用于对所述样本文本中的每个文本单元进行语法分析,得到所述样本文本对应的语法序列,所述语法序列包括所述样本文本中每个文本单元对应的语法关系;
第三统计子单元30612,用于针对每种语法关系,统计包含所述语法关系的样本文本的样本数量;
第三确定子单元30613,用于将所述样本数量大于预设数量的语法关系作为所述样本文本集的初始频繁语法;
第三构建子单元30614,用于基于所述初始频繁语法,构建所述样本文本集对应的频繁语法序列和所述频繁语法序列对应的支持度,得到预设频繁序列集。
可选的,在本申请的一些实施例中,所述基于主题的语义识别方法还可以包括聚类单元307,参见图3j,如下:
所述聚类单元307具体可以用于对所述目标文本的主题特征信息和所述目标文本中目标文本单元的目标特征信息进行聚类处理,得到所述目标文本中所述目标文本单元的语义种类数量。
由上可知,本实施例可以由获取单元301获取目标文本中待语义识别的目标文本单元;通过序列获取单元302从预设频繁序列集中获取与所述目标文本匹配的目标频繁序列,所述预设频繁序列集包括频繁序列和所述频繁序列对应的支持度,所述支持度表征样本文本集中所述频繁序列的出现次数;通过确定单元303基于所述目标频繁序列的支持度,确定所述目标文本中参考文本单元对应的支持度,所述参考文本单元为所述目标文本中除所述目标文本单元以外的其他文本单元;由提取单元304采用所述参考文本单元的特征信息和支持度对所述目标文本单元进行特征提取,得到所述目标文本单元的目标特征信息;通过识别单元305根据所述目标特征信息和所述目标文本的主题特征信息,对所述目标文本单元进行语义识别,得到所述目标文本单元在所述目标文本中的语义。本申请可以基于与目标文本匹配的频繁序列和主题特征信息进行多义词的识别,有利于提高一词多义识别的准确性和效率。
本申请实施例还提供一种电子设备,如图4所示,其示出了本申请实施例所涉及的电子设备的结构示意图,该电子设备可以是终端或者服务器等,具体来讲:
该电子设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图4中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
电子设备还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该电子设备还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,该电子设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,电子设备中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
获取目标文本中待语义识别的目标文本单元;从预设频繁序列集中获取与所述目标文本匹配的目标频繁序列,所述预设频繁序列集包括频繁序列和所述频繁序列对应的支持度,所述支持度表征样本文本集中所述频繁序列的出现次数;基于所述目标频繁序列的支持度,确定所述目标文本中参考文本单元对应的支持度,所述参考文本单元为所述目标文本中除所述目标文本单元以外的其他文本单元;采用所述参考文本单元的特征信息和支持度对所述目标文本单元进行特征提取,得到所述目标文本单元的目标特征信息;根据所述目标特征信息和所述目标文本的主题特征信息,对所述目标文本单元进行语义识别,得到所述目标文本单元在所述目标文本中的语义。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
由上可知,本实施例可以获取目标文本中待语义识别的目标文本单元;从预设频繁序列集中获取与所述目标文本匹配的目标频繁序列,所述预设频繁序列集包括频繁序列和所述频繁序列对应的支持度,所述支持度表征样本文本集中所述频繁序列的出现次数;基于所述目标频繁序列的支持度,确定所述目标文本中参考文本单元对应的支持度,所述参考文本单元为所述目标文本中除所述目标文本单元以外的其他文本单元;采用所述参考文本单元的特征信息和支持度对所述目标文本单元进行特征提取,得到所述目标文本单元的目标特征信息;根据所述目标特征信息和所述目标文本的主题特征信息,对所述目标文本单元进行语义识别,得到所述目标文本单元在所述目标文本中的语义。本申请可以基于与目标文本匹配的频繁序列和主题特征信息进行多义词的识别,有利于提高一词多义识别的准确性和效率。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本申请实施例所提供的任一种基于主题的语义识别方法中的步骤。例如,该指令可以执行如下步骤:
获取目标文本中待语义识别的目标文本单元;从预设频繁序列集中获取与所述目标文本匹配的目标频繁序列,所述预设频繁序列集包括频繁序列和所述频繁序列对应的支持度,所述支持度表征样本文本集中所述频繁序列的出现次数;基于所述目标频繁序列的支持度,确定所述目标文本中参考文本单元对应的支持度,所述参考文本单元为所述目标文本中除所述目标文本单元以外的其他文本单元;采用所述参考文本单元的特征信息和支持度对所述目标文本单元进行特征提取,得到所述目标文本单元的目标特征信息;根据所述目标特征信息和所述目标文本的主题特征信息,对所述目标文本单元进行语义识别,得到所述目标文本单元在所述目标文本中的语义。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的指令,可以执行本申请实施例所提供的任一种基于主题的语义识别方法中的步骤,因此,可以实现本申请实施例所提供的任一种基于主题的语义识别方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述基于主题的语义识别方面的各种可选实现方式中提供的方法。
以上对本申请实施例所提供的一种基于主题的语义识别方法、装置、电子设备和存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (15)

1.一种基于主题的语义识别方法,其特征在于,包括:
获取目标文本中待语义识别的目标文本单元;
从预设频繁序列集中获取与所述目标文本匹配的目标频繁序列,所述预设频繁序列集包括频繁序列和所述频繁序列对应的支持度,所述支持度表征样本文本集中所述频繁序列的出现次数;
基于所述目标频繁序列的支持度,确定所述目标文本中参考文本单元对应的支持度,所述参考文本单元为所述目标文本中除所述目标文本单元以外的其他文本单元;
采用所述参考文本单元的特征信息和支持度对所述目标文本单元进行特征提取,得到所述目标文本单元的目标特征信息;
根据所述目标特征信息和所述目标文本的主题特征信息,对所述目标文本单元进行语义识别,得到所述目标文本单元在所述目标文本中的语义。
2.根据权利要求1所述的方法,其特征在于,所述从预设频繁序列集中获取与所述目标文本匹配的目标频繁序列,包括:
对所述目标文本进行分词处理,得到所述目标文本的至少一个文本单元;
基于所述文本单元在所述目标文本中的顺序,对所述文本单元进行组合,得到所述目标文本的文本序列;
从预设频繁序列集中选择满足预设长度条件的文本序列作为与所述目标文本匹配的目标频繁序列。
3.根据权利要求1所述的方法,其特征在于,所述频繁序列包括频繁词序列;所述方法还包括:
获取样本文本集,并对所述样本文本集中每个样本文本进行分词处理,得到所述样本文本集中每个样本文本的至少一个样本文本单元;
针对每个样本文本单元,统计包含所述样本文本单元的样本文本的样本数量;
将所述样本数量大于预设数量的样本文本单元作为所述样本文本集的初始频繁单元;
基于所述初始频繁单元,构建所述样本文本集对应的频繁词序列和所述频繁词序列对应的支持度,得到预设频繁序列集。
4.根据权利要求3所述的方法,其特征在于,所述基于所述初始频繁单元,构建所述样本文本集对应的频繁词序列和所述频繁词序列对应的支持度,包括:
基于所述初始频繁单元,对所述样本文本进行过滤处理,得到处理后样本文本;
将所述初始频繁单元作为前缀,并确定在所述处理后样本文本中所述前缀对应的后缀;
当所述后缀包含有所述初始频繁单元时,基于所述后缀构建所述样本文本集对应的频繁词序列;
统计包含所述频繁词序列的样本文本的数量,得到所述频繁词序列对应的支持度。
5.根据权利要求4所述的方法,其特征在于,所述当所述后缀包含有所述初始频繁单元时,基于所述后缀构建所述样本文本集对应的频繁词序列,包括:
当所述后缀包含有所述初始频繁单元时,将所述后缀中的初始频繁单元与所述后缀对应的前缀进行合并处理,得到新的前缀,并确定在所述处理后样本文本中所述新的前缀对应的新的后缀;
针对获取到的各个前缀,统计包含所述前缀的样本文本的数量;
基于所述数量,从各个前缀中确定所述样本文本集对应的频繁词序列。
6.根据权利要求1所述的方法,其特征在于,所述频繁序列还包括频繁词性序列;所述方法还包括:
获取样本文本集,所述样本文本集包括至少一个样本文本;
对所述样本文本中的每个文本单元进行词性分析,得到所述样本文本对应的词性序列,所述词性序列包括所述样本文本中每个文本单元对应的词性;
针对每种词性,统计包含所述词性的样本文本的样本数量;
将所述样本数量大于预设数量的词性作为所述样本文本集的初始频繁词性;
基于所述初始频繁词性,构建所述样本文本集对应的频繁词性序列和所述频繁词性序列对应的支持度,得到预设频繁序列集。
7.根据权利要求1所述的方法,其特征在于,所述频繁序列还包括频繁语法序列;所述方法还包括:
获取样本文本集,所述样本文本集包括至少一个样本文本;
对所述样本文本中的每个文本单元进行语法分析,得到所述样本文本对应的语法序列,所述语法序列包括所述样本文本中每个文本单元对应的语法关系;
针对每种语法关系,统计包含所述语法关系的样本文本的样本数量;
将所述样本数量大于预设数量的语法关系作为所述样本文本集的初始频繁语法;
基于所述初始频繁语法,构建所述样本文本集对应的频繁语法序列和所述频繁语法序列对应的支持度,得到预设频繁序列集。
8.根据权利要求1所述的方法,其特征在于,所述基于所述目标频繁序列的支持度,确定所述目标文本中参考文本单元对应的支持度,包括:
确定所述目标文本中与所述目标频繁序列匹配的目标文本序列;
对于所述目标文本序列中的参考文本单元,将所述目标频繁序列的支持度作为所述参考文本单元的支持度;
对于所述目标文本中不属于所述目标文本序列的参考文本单元,将预设支持度作为所述参考文本单元的支持度。
9.根据权利要求1所述的方法,其特征在于,所述采用所述参考文本单元的特征信息和支持度对所述目标文本单元进行特征提取,得到所述目标文本单元的目标特征信息,包括:
将所述参考文本单元的特征信息和支持度进行融合,得到所述目标文本的上下文特征信息;
根据所述上下文特征信息对所述目标文本单元进行特征提取,得到所述目标文本单元的目标特征信息。
10.根据权利要求1所述的方法,其特征在于,所述采用所述参考文本单元的特征信息和支持度对所述目标文本单元进行特征提取,得到所述目标文本单元的目标特征信息,包括:
通过训练后的语义模型,采用所述参考文本单元的特征信息和支持度对所述目标文本单元进行特征提取,得到所述目标文本单元的目标特征信息;
在所述通过训练后的语义模型,采用所述参考文本单元的特征信息和支持度对所述目标文本单元进行特征提取,得到所述目标文本单元的目标特征信息之前,所述方法还包括:
获取训练数据,所述训练数据包括样本文本中待语义识别的目标样本文本单元的标准特征信息,以及参考样本文本单元的特征信息和支持度,所述参考样本文本单元为所述样本文本中除所述目标样本文本单元以外的其他文本单元;
通过语义模型,对所述参考样本文本单元的特征信息和支持度进行融合,得到所述样本文本的上下文特征信息;
根据所述上下文特征信息对所述目标样本文本单元进行特征提取,得到所述目标样本文本单元的实际特征信息;
基于所述目标样本文本单元的标准特征信息和实际特征信息之间的损失值,调整所述语义模型的参数,直到所述损失值满足预设损失条件,得到训练后的语义模型。
11.根据权利要求1所述的方法,其特征在于,所述根据所述目标特征信息和所述目标文本的主题特征信息,对所述目标文本单元进行语义识别,得到所述目标文本单元在所述目标文本中的语义,包括:
确定所述目标文本单元的至少一种候选语义;
基于所述目标特征信息,从所述目标文本单元的至少一种候选语义中选取第一预测语义;
基于所述目标文本的主题特征信息,从所述目标文本单元的至少一种候选语义中选取第二预测语义;
根据所述第一预测语义和所述第二预测语义,确定所述目标文本单元在所述目标文本中的语义。
12.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对所述目标文本的主题特征信息和所述目标文本中目标文本单元的目标特征信息进行聚类处理,得到所述目标文本中所述目标文本单元的语义种类数量。
13.一种基于主题的语义识别装置,其特征在于,包括:
获取单元,用于获取目标文本中待语义识别的目标文本单元;
序列获取单元,用于从预设频繁序列集中获取与所述目标文本匹配的目标频繁序列,所述预设频繁序列集包括频繁序列和所述频繁序列对应的支持度,所述支持度表征样本文本集中所述频繁序列的出现次数;
确定单元,用于基于所述目标频繁序列的支持度,确定所述目标文本中参考文本单元对应的支持度,所述参考文本单元为所述目标文本中除所述目标文本单元以外的其他文本单元;
提取单元,用于采用所述参考文本单元的特征信息和支持度对所述目标文本单元进行特征提取,得到所述目标文本单元的目标特征信息;
识别单元,用于根据所述目标特征信息和所述目标文本的主题特征信息,对所述目标文本单元进行语义识别,得到所述目标文本单元在所述目标文本中的语义。
14.一种电子设备,其特征在于,包括存储器和处理器;所述存储器存储有应用程序,所述处理器用于运行所述存储器内的应用程序,以执行权利要求1至12任一项所述的基于主题的语义识别方法中的操作。
15.一种存储介质,其特征在于,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至12任一项所述的基于主题的语义识别方法中的步骤。
CN202110635915.XA 2021-06-08 2021-06-08 基于主题的语义识别方法、装置、电子设备和存储介质 Active CN113095080B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110635915.XA CN113095080B (zh) 2021-06-08 2021-06-08 基于主题的语义识别方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110635915.XA CN113095080B (zh) 2021-06-08 2021-06-08 基于主题的语义识别方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN113095080A CN113095080A (zh) 2021-07-09
CN113095080B true CN113095080B (zh) 2021-08-06

Family

ID=76664469

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110635915.XA Active CN113095080B (zh) 2021-06-08 2021-06-08 基于主题的语义识别方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN113095080B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113343248A (zh) * 2021-07-19 2021-09-03 北京有竹居网络技术有限公司 一种漏洞识别方法、装置、设备和存储介质
CN113609864B (zh) * 2021-08-06 2022-02-11 珠海市鸿瑞信息技术股份有限公司 一种基于工业控制系统的文本语义识别处理系统及方法
CN114330310A (zh) * 2021-08-11 2022-04-12 腾讯科技(深圳)有限公司 文本处理方法、装置以及计算机可读存储介质
CN114330359A (zh) * 2021-11-30 2022-04-12 青岛海尔科技有限公司 语义识别方法、装置及电子设备
CN117474013B (zh) * 2023-12-27 2024-03-22 卓世科技(海南)有限公司 一种大语言模型知识增强方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8630989B2 (en) * 2011-05-27 2014-01-14 International Business Machines Corporation Systems and methods for information extraction using contextual pattern discovery
CN111859974A (zh) * 2019-04-22 2020-10-30 广东小天才科技有限公司 一种结合知识图谱的语义消歧方法和装置、智能学习设备
CN111651581A (zh) * 2020-06-05 2020-09-11 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN113095080A (zh) 2021-07-09

Similar Documents

Publication Publication Date Title
CN113095080B (zh) 基于主题的语义识别方法、装置、电子设备和存储介质
CN112084337B (zh) 文本分类模型的训练方法、文本分类方法及设备
CN111143576A (zh) 一种面向事件的动态知识图谱构建方法和装置
CN110619051B (zh) 问题语句分类方法、装置、电子设备及存储介质
CN111353303B (zh) 词向量构建方法、装置、电子设备及存储介质
CN111159409B (zh) 基于人工智能的文本分类方法、装置、设备、介质
CN111414763A (zh) 一种针对手语计算的语义消歧方法、装置、设备及存储装置
CN111291195A (zh) 一种数据处理方法、装置、终端及可读存储介质
Liu et al. A novel aspect-based sentiment analysis network model based on multilingual hierarchy in online social network
Golpar-Rabooki et al. Feature extraction in opinion mining through Persian reviews
CN114997288A (zh) 一种设计资源关联方法
CN113919360A (zh) 语义理解方法、语音交互方法、装置、设备及存储介质
Roman et al. Exploiting contextual word embedding of authorship and title of articles for discovering citation intent classification
Shabbir et al. Nubot: Embedded knowledge graph with rasa framework for generating semantic intents responses in roman urdu
CN113407738B (zh) 一种相似文本检索方法、装置、电子设备和存储介质
CN112926308B (zh) 匹配正文的方法、装置、设备、存储介质以及程序产品
Lee et al. Detecting suicidality with a contextual graph neural network
CN114328800A (zh) 文本处理方法、装置、电子设备和计算机可读存储介质
CN114239828A (zh) 一种基于因果关系的供应链事理图谱构建方法
WO2023137903A1 (zh) 基于粗糙语义的回复语句确定方法、装置及电子设备
CN113569578B (zh) 一种用户意图识别方法、装置和计算机设备
KR102560521B1 (ko) 지식 그래프 생성 방법 및 장치
CN115017425A (zh) 地点检索方法、装置、电子设备以及存储介质
Wadawadagi et al. A multi-layer approach to opinion polarity classification using augmented semantic tree kernels
Chen et al. The Application of Unsupervised Learning TF-IDF Algorithm in Word Segmentation of Ideological and Political Education

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40048382

Country of ref document: HK