CN113010642B - 语义关系的识别方法、装置、电子设备及可读存储介质 - Google Patents
语义关系的识别方法、装置、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN113010642B CN113010642B CN202110287327.1A CN202110287327A CN113010642B CN 113010642 B CN113010642 B CN 113010642B CN 202110287327 A CN202110287327 A CN 202110287327A CN 113010642 B CN113010642 B CN 113010642B
- Authority
- CN
- China
- Prior art keywords
- sequence
- relation
- grammar
- sample
- rule
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 75
- 238000005065 mining Methods 0.000 claims abstract description 73
- 238000004458 analytical method Methods 0.000 claims abstract description 42
- 230000011218 segmentation Effects 0.000 claims description 25
- 238000012545 processing Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 14
- 238000002372 labelling Methods 0.000 claims description 14
- 238000001914 filtration Methods 0.000 claims description 10
- 230000000692 anti-sense effect Effects 0.000 claims description 5
- 239000000203 mixture Substances 0.000 abstract description 19
- 238000009472 formulation Methods 0.000 abstract description 3
- 238000004422 calculation algorithm Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 238000000605 extraction Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000010276 construction Methods 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000001419 dependent effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000009411 base construction Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 229910052573 porcelain Inorganic materials 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例提供了一种语义关系的识别方法、装置、电子设备及可读存储介质,涉及大数据以及云技术领域。该方法包括:获取待处理文本;对待处理文本进行上下文分析,得到待处理文本中包含的语法关系序列;将语法关系序列与特定语义关系的类序列规则库进行匹配,基于匹配结果,确定待处理文本是否包含特定语义关系;其中,类序列规则库中包括特定语义关系对应的语法关系序列规则,语法关系序列规则是通过对包含特定语义关系的多个样本文本进行语法关系的类序列规则挖掘得到的。在本申请实施例中,由于语法关系序列规则是对进行语法关系的类序列规则挖掘得到的,此时不依赖于规则和制定模式,提高了模型识别语义关系的泛化能力,具备良好的可操作性。
Description
技术领域
本申请涉及大数据以及云技术的技术领域,具体而言,本申请涉及一种语义关系的识别方法、装置、电子设备及可读存储介质。
背景技术
随着语言的发展和互联网用语的不断变化衍生,特定语义关系识别对于自然语言理解是个重要的任务,包括知识图谱构建、领域知识库构建、关系链识别、词条标签自动化构建等在内的诸多应用场景都离不开特定语义关系识别。特定语义关系包括上下义关系、总分关系、同义关系、反义关系等,以及从其他逻辑关系定义中的种属关系、组成关系等,涵盖访问很广。
目前在进行语义关系识别时,主要采用的方式为基于模式匹配的语义关系识别方法和基于机器学习或深度学习的语义关系识别方法。但是经研究发现,基于模式匹配的语义关系识别方法只能够抽取具有人工指定规则的显示关系,而许多的语义关系隐含模式是灵活变化的,该方法极大降低了关系抽取的覆盖率,同时规则扩展要依赖专家和先验知识库,提高了人力成本和耗时,线上更新不够及时;而基于机器学习的方法主要依赖于特征工程,特征工程往往要进行繁琐的特征选择和特征提取,计算开销大且容易存在错误传播的问题。因此,如何快速有效的进行语义关系识别是一个需要解决的重要问题。
发明内容
本申请实施例提供一种语义关系的识别方法、装置、电子设备及可读存储介质,能够快速有效的进行语义关系识别。
一方面,本申请实施例提供了一种语义关系的识别方法,该方法包括:
获取待处理文本;
对待处理文本进行上下文分析,得到待处理文本中包含的语法关系序列;
将语法关系序列与特定语义关系的类序列规则库进行匹配,基于匹配结果,确定待处理文本是否包含特定语义关系;
其中,类序列规则库中包括特定语义关系对应的语法关系序列规则,语法关系序列规则是通过对包含特定语义关系的多个样本文本进行语法关系的类序列规则挖掘得到的。
另一方面,本申请实施例提供了一种语义关系的识别装置,包括:
文本获取模块,用于获取待处理文本;
文本分析模块,用于对待处理文本进行上下文分析,得到待处理文本中包含的语法关系序列;
语法关系匹配模块,用于将语法关系序列与特定语义关系的类序列规则库进行匹配,基于匹配结果,确定待处理文本是否包含特定语义关系;
其中,类序列规则库中包括特定语义关系对应的语法关系序列规则,语法关系序列规则是通过对包含特定语义关系的多个样本文本进行语法关系的类序列规则挖掘得到的。
再一方面,本申请实施例提供了一种电子设备,该电子设备包括处理器以及存储器:
存储器被配置用于存储计算机程序,该计算机程序在由处理器执行时,使得处理器执行本申请任一方面所提供的方法。
又一方面,本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,当该计算机程序在计算机上运行时,使得计算机可以执行本申请任一方面所提供的方法。
本申请实施例提供的技术方案带来的有益效果是:
在本申请实施例中,可以通过待处理文本包含的语法关系序列与特定语义关系的类序列规则库进行匹配,然后基于匹配结果,确定待处理文本是否包含特定语义关系。在此过程中,由于语法关系序列规则是通过对包含特定语义关系的多个样本文本进行语法关系的类序列规则挖掘得到的,此时不依赖于规则和制定模式,能够随着样本文本的变化而变化,提高了模型识别语义关系的泛化能力,且挖掘得到的类序列规则泛化性能较好,可以有效的减少人力维护规则的成本,并且不需要神经网络模型等复杂网络训练也能够高效且灵活地识别出特定语义关系,具备良好的可操作性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的一种语义关系的识别方法的流程示意图;
图2为本申请实施例提供的一种句法依存关系标注的示意图;
图3为本申请实施例提供的另一种语义关系的识别方法示意图;
图4a为本申请实施例提供的一种语义依存关系标注的示意图;
图4b为本申请实施例提供的再一种语义依存关系标注的示意图;
图4c为本申请实施例提供的又一种语义依存关系标注的示意图;
图4d为本申请实施例提供的另一种语义依存关系标注的示意图;
图5为本申请实施例提供的一种语义关系的识别装置的结构示意图;
图6为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本申请实施例提供一种语义关系的识别方法、装置、电子设备及可读存储介质,该方法中所涉及到的数据处理/计算可以基于云计算(cloud computing)的方式进行处理。其中,云计算是一种计算模式,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费。
作为云计算的基础能力提供商,会建立云计算资源池(简称云平台,一般称为IaaS(Infrastructure as a Service,基础设施即服务)平台,在资源池中部署多种类型的虚拟资源,供外部客户选择使用。云计算资源池中主要包括:计算设备(为虚拟化机器,包含操作系统)、存储设备、网络设备。
按照逻辑功能划分,在IaaS(Infrastructure as a Service,基础设施即服务)层上可以部署PaaS(Platform as a Service,平台即服务)层,PaaS层之上再部署SaaS(Software as a Service,软件即服务)层,也可以直接将SaaS部署在IaaS上。PaaS为软件运行的平台,如数据库、web容器等。SaaS为各式各样的业务软件,如web门户网站、短信群发器等。一般来说,SaaS和PaaS相对于IaaS是上层。
可选的,本申请实施例中所涉及到的数据可以为大数据,而大数据(Big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。随着云时代的来临,大数据也吸引了越来越多的关注,大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。
可选的,本申请实施例中的方案涉及到的各种数据(比如包含特定语义关系的多个样本文本)的存储可以采用云存储(cloud storage)的方式进行存储。其中,云存储是在云计算概念上延伸和发展出来的一个新的概念,分布式云存储系统(以下简称存储系统)是指通过集群应用、网格技术以及分布存储文件系统等功能,将网络中大量各种不同类型的存储设备(存储设备也称之为存储节点)通过应用软件或应用接口集合起来协同工作,共同对外提供数据存储和业务访问功能的一个存储系统。
目前,存储系统的存储方法为:创建逻辑卷,在创建逻辑卷时,就为每个逻辑卷分配物理存储空间,该物理存储空间可能是某个存储设备或者某几个存储设备的磁盘组成。客户端在某一逻辑卷上存储数据,也就是将数据存储在文件系统上,文件系统将数据分成许多部分,每一部分是一个对象,对象不仅包含数据而且还包含数据标识(ID,ID entity)等额外的信息,文件系统将每个对象分别写入该逻辑卷的物理存储空间,且文件系统会记录每个对象的存储位置信息,从而当客户端请求访问数据时,文件系统能够根据每个对象的存储位置信息让客户端对数据进行访问。
存储系统为逻辑卷分配物理存储空间的过程,具体为:按照对存储于逻辑卷的对象的容量估量(该估量往往相对于实际要存储的对象的容量有很大余量)和独立冗余磁盘阵列(RAID,Redundant Array of Independent Disk)的组别,预先将物理存储空间划分成分条,一个逻辑卷可以理解为一个分条,从而为逻辑卷分配了物理存储空间。
在本申请实施例中,还涉及到自然语言处理方面。自然语言处理(NatureLanguage processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
语义识别是自然语言理解中必不可少的,在知识图谱构建、领域知识库构建、关系链识别、词条标签自动化构建等在内的诸多应用场景中有着非常重要的作用,也是现有语言处理技术必须突破的难题,目前进行语义关系识别的方法主要有基于模式匹配的语义关系识别方法、以及基于机器学习的方法。下面对这几种方法进行简单介绍。
1、基于语言模型的新词发现方法:该方法为通过人工指定特定语义关系规则模板进行文本模板匹配和语义关系抽取和识别,对于不同的语义关系的识别,根据专家知识编写规则库,例如种属关系词语满足一定的规则和语法,基于总结后的语法转化成规则如正则表达式,进行匹配抽取。
2、基于切分的新词发现算法:该方法利用词向量对词语进行表征,构成语义关系的词语往往是空间距离比较接近的,基于此判断两个词的关系程度,另一方面,对文本是否含有特定语义关系词语进行分类,通过结合开放类标记的特征与上下文信息语义特征训练分类器,具有特定语义关系则结合条件随机场等路径规划方法进行语义关系词的识别和抽取。
但是,现有上述中的方法存在以下问题需要改进:
1.基于模式匹配的语义关系识别方法只能够抽取具有人工指定规则的显示关系,而许多的语义关系隐含模式是灵活变化的,固定模式极大降低了关系抽取的覆盖率,同时规则扩展要依赖专家和先验知识库,提高了人力成本和耗时,线上更新不够及时;
2.基于机器学习的方法主要依赖于特征工程,特征工程往往要进行繁琐的特征选择和特征提取,计算开销大且容易存在错误传播的问题。
本申请发明人研究方法,现有的语义关系识别方法都忽略了语法中具有隐含的模式规则,这种模式规则对于定位和抽取特定语义关系能够起到至关重要的作用。
基于此,本申请提供一种语义关系识别方法、装置、电子设备和计算机可读存储介质,旨在解决现有技术中的至少一个技术问题。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述至少一项技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
本申请实施例所提供的语义关系的识别方法,可以用于任何电子设备中,如智能手机、平板电脑、智能家居、可穿戴电子设备、VR/AR设备、车载计算机等产品中。当然,该方法可以还应用于服务器中(包括但不限于物理服务器、云服务器),服务器可以基于本申请实施例所提供的该方法确定待处理文本是否包含特定语义关系。
图1示出了本申请实施例中所提供的一种语义关系的识别方法的流程示意图。如图1所示,该方法包括:
步骤S101,获取待处理文本。
其中,待处理文本指的是需要进行语义关系识别的文本,获取到的待处理文本的具体形式本申请实施例不做限定。例如,待处理文本可以为存在多个分句的一段文章,也可以是单独的句子,也就是说,待处理文本的粒度本申请实施例不做限定,可以根据实际应用需要配置。作为一可选方式,由于待处理文本可以是单独的句子或单独的句子,而当待处理文本为一篇文章或者文本片段时,此时可以对该文章或者文本片段进行分句处理,将每一个待处理文本。
步骤S102,对待处理文本进行上下文分析,得到待处理文本中包含的语法关系序列。
其中,对待处理文本进行上下文分析可以指的是对待处理文本中包括的各词进行语法分析,如可以指的是对各词的词性分析、各词之间的句法依存关系分析以及各词之间的语义依存关系分析等,然后可以根据得到的分析结果得到待处理文本中包含的语法关系序列。
步骤S103,将语法关系序列与特定语义关系的类序列规则库进行匹配,基于匹配结果,确定待处理文本是否包含特定语义关系。
其中,类序列规则库中包括特定语义关系对应的语法关系序列规则,语法关系序列规则是通过对包含特定语义关系的多个样本文本进行语法关系的类序列规则挖掘得到的。
可选的,特定语法关系包括上下义关系、总分关系、同义关系、反义关系等特定语义关系,而特定语义关系的类序列规则库内包括有特定语义关系对应的语法关系序列规则,如可以包括上下义关系、总分关系、同义关系、反义关系等特定语义关系的类序列规则,一种特定语义关系的类序列规则可以反映出该语义关系的规律,在进行特定语义关系识别时,可以基于待处理文本的语法关系序列与特定语义关系的类序列规则库进行匹配,基于匹配结果,可以确定待处理文本是否包含特定语义关系。可选的,对于每种特定语义关系对应的语法关系序列规则可以基于对包含该特定语义关系的多个样本文本进行语法关系的类序列规则挖掘得到。例如,当特定语义关系为上下位关系时,可以基于多个包含上下位关系的样本文本进行语法关系的类序列规则挖掘得到。
可选的,类序列规则(Class Sequential Rules,CSR)是由类别标签和序列数据组成的规则,这两者构成一种映射关系,形式化表述为:X→Y。其中,X为一个序列,表述为<S1x1S2x2...Sixi>,其中S指的是序列数据库,为一系列元组<sid,s>组成的集合,如表1所示,sid(即表1中的Sequence id)为一个序列的标号,而s(即表1中的Sequence)指的是序列,<S1x1S2x2...Sixi>中的xi表示的是这个序列对应的可能的类别;
表1序列数据库示例
Sequence id | Sequence |
1 | <abdC1gh> |
2 | <abeghk> |
3 | <C2kea> |
4 | <dC2kb> |
5 | <abC1fgh> |
Y为另一个序列,可以表述为<S1c1S2c2...Sicr>,(cr∈C,1≤i≤r),S定义同上,cr为确定的类别标签,而C={c1,c2,...,cr}为类别标签的集合。由此,CSR要求序列必须带有指定的类别信息。
确定指定类别信息以后,CSR可以将满足支持度阈值和置信度阈值的序列挖掘出来作为类序列规则,其中,支持度表示同时包含A和B的事务占所有事务的比例,置信度表示使用包含A的事务中同时包含B事务的比例。以表1为例,该序列数据库中含有5条带有类别信息的序列数据,按照以上定义,可以挖掘的类序列规则为<<ab>x<gh>>→<<ab>c1<gh>>,即同时包含≤ab≥和≤gh≥的序列的类别为c1,显然,序列标号为1和5的序列包含了该规则,类别都是c1,而序列标号为1,2和5的序列都覆盖了该规则,序列id为2的序列没有确定的类别信息。故在这5条数据元组里,故该类序列规则的支持度为2/5,置信度为2/3。这两个指标作为挖掘类序列规则的衡量标准,将满足最小支持度阈值和置信度阈值的序列提取出来作为该序列数据库的类序列规则。
而根据类序列规则的定义,CSR先确定了类,再根据类别来挖掘规则,与传统序列模式挖掘有很大的区别。在类序列规则中,左侧是序列模式,右侧是对应的类别标签,通过这种对应的映射关系将序列模式和类别信息绑定在一起。CSR挖掘的目标是找到与类别信息具有高度相关性的序列模式,挖掘序列模式和类别之间对应的规则。由此可见,类序列规则的特点是有监督和事先给定类别。序列模式挖掘算法有GSP(Generalized SequentialPattern mining algorithm,关联规则之序列模式挖掘)、Prefixspan(Prefix-ProjectedPattern Growth,前缀投影的模式挖掘)等,都可以用于CSR的挖掘。通过prefixspan算法来挖掘满足最小支持度的频繁序列模式,同时考虑到在各个序列模式中序列长度的差别较大,使用单一固定的最小支持度进行类序列规则挖掘并不合适,若要挖掘低频序列,需要将支持度阈值降低,这样会引入大量由高频词产生的规则,引入噪音。为此,可以使用多最小支持度策略,规则最小支持度的计算方法通过最小支持率a乘以训练集序列长度n,得到最小支持度min_sup。可选的,设置较高的支持度可以保证挖掘规则的精度、以及再次迭代挖掘保证查全率。
在本申请实施例中,可以通过待处理文本包含的语法关系序列与特定语义关系的类序列规则库进行匹配,然后基于匹配结果,确定待处理文本是否包含特定语义关系。在此过程中,由于语法关系序列规则是通过对包含特定语义关系的多个样本文本进行语法关系的类序列规则挖掘得到的,此时不依赖于规则和制定模式,能够随着样本文本的变化而变化,提高了模型识别语义关系的泛化能力,且挖掘得到的类序列规则泛化性能较好,可以有效的减少人力维护规则的成本,并且不需要神经网络模型等复杂网络训练也能够高效且灵活地识别出特定语义关系,具备良好的可操作性。
在本申请可选的实施例中,类序列规则库中包括词性关系序列规则、句法关系序列规则或语义关系序列规则中的至少一种,语法关系序列包括词性关系序列、句法关系序列或语义关系序列中的至少一种;
对待处理文本进行上下文分析,得到待处理文本中包含的语法关系序列,包括以下至少一项:
对待处理文本进行分词,对得到的分词结果中的各词进行词性标注,并基于各词的上下文关系,得到待处理文本对应的词性关系序列;
对待处理文本进行句法依存分析,得到待处理文本对应的句法关系序列;
对待处理文本进行语义依存分析,得到待处理文本对应的语义关系序列。
可选的,特定语义关系的类序列规则库中可以包括特定语义关系对应的词性关系序列规则、句法关系序列规则或语义关系序列中的至少一种;相应的,在对待处理文本进行上下文分析,所得到的待处理文本中包含的语法关系序列可以指的是词性关系序列、句法关系序列或语义关系序列中的至少一种。其中,类序列规则库中的规则种类和分析得到的待处理文本的语法关系序列的种类是相对应的,如类序列规则库中的里有词性关系序列规则和B句法关系序列规则,此时可以对述待处理文本进行上下文分析,得到待处理文本中包含的词性关系序列和句法关系序列。
可选的,对应词性关系序列,可以先对获取到的待处理文本进行分词处理,得到对应的分词结果。其中,对待处理文本进行分词的具体实现方式可以预先配置,本申请实施例不限定,如可以采用现有分词工具(如jieba等分词工具)对待处理文本进行分词。在一示例中,假设待处理文本为“A的作曲是B”,其中,A表示一个歌曲名,B表示一个人名。此时可以对该待处理文本进行分词处理,得到A、的、作曲、是、B等分词。
相应的,可以确定分词结果中的各词的词性并进行标注,并根据各词的上下文关系,得到待处理文本对应的词性关系序列。可选的,各词的上下文关系可以指的是各词之间的顺序关系,如分词结果包括词语A、词语B和词语C,各词的上下文关系则指的是词语A在词语B之前,词语B在词语C之前。而根据各词的上下文关系,得到待处理文本对应的词性关系序列指的是根据每个分词的词性对得到的每个分词进行标注,然后根据每个词的词性标注结果将待处理文本转为词性关系序列。
在一示例中,假设待处理文本为“A的作曲是B”其中,A表示一个歌曲名,B表示一个人名,此时可以对该待处理文本进行分词处理,得到A、的、作曲、是、B各词,然后对得到的各词进行词性标注,然后基于各词的上下文关系,得到待处理文本对应的词性关系序列。例如,在进行词性标注时,可采用“/”分隔每个分词,此时得到的待识别文本为“A/的/作曲/是/B”,由于“A”、“作曲”和“B”为名词,则可以将“A”、“作曲”和“B”标注为n,由于“的”为助词,则可以将“的”标注为u,而“是”为动词,则可以将“是”标注为v,此时得到的词性关系序列为“/n/u/n/v/n”。
可选的,若语法关系序列包括句法关系序列,可以对待处理文本进行句法依存分析,确定待处理文本中包括的句法依存关系,并根据包括的句法依存关系,得到待处理文本对应的语义关系序列。可选的,在确定待处理文本中包括的句法依存关系时,可以先对待处理文本进行分词,基于得到的分词结果确定待处理文本中包括的句法依存关系。
在一示例中,假设待处理文本为“A的作曲是B”,A表示一个歌曲名,B表示一个人名,此时可以对该待处理文本进行分词处理,得到A、的、作曲、是、B各词,进一步的,可以对包括的各词进行句法依存分析,如图2所示,此时“是”与ROOT(根节点)存在HED(rightadjunct,后附加关系)句法依存关系,“A”与“作曲”存在ATT(attribute,定中关系)句法依存关系,“作曲”与“是”存在RAD(right adjunct,后附加关系)句法依存关系,“作曲”与“是”存在SBV(subject-verb,主谓关系)句法依存关系,“是”与“B”存在VOB(verb-object,动宾关系)句法依存关系,而遵循先远后近的原则,ATT关系较RAD关系更远,因此ATT放RAD前面,此时得到的待处理文本对应的句法关系序列为HED ATT RAD SBV VOB。
可选的,在语法关系序列包括句法关系序列时,可以对待处理文本进行语义依存分析,确定待处理文本中包括的语义依存关系,并根据包括的语义依存关系,得到待处理文本对应的语义关系序列。可选的,在确定待处理文本中包括的语义关系时,可以先对待处理文本进行分词,基于得到的分词结果确定待处理文本中包括的语义依存关系。
延续上一示例中,假设待处理文本得到包括歌曲A、的、作曲、是、作曲人B各词,进一步的,可以对包括的各词进行语义依存分析,此时“歌曲A”与“的”存在mDEPD(attribute,定中关系)语义依存关系,“青花瓷”与“作曲”存在FEAT(feature,修饰关系)语义依存关系,“作曲”与“是”存在EXP(Experiencer,当事关系)语义依存关系,“是”与“作曲人B”存在LINK(link,系事关系)语义依存关系,此时得到的语义关系序列为Root FEAT mDEPD EXP LINK。
在本申请可选的实施例中,将语法关系序列与特定语义关系的类序列规则库进行匹配,基于匹配结果,确定待处理文本是否包含特定语义关系,包括:
将语法关系序列中的各序列与类序列规则库中对应的语法关系序列规则分别进行匹配,若语法关系序列中至少一种序列与类序列规则库相对应的语法关系序列规则匹配,则确定待处理文本含特定语义关系。
可选的,在将语法关系序列与特定语义关系的类序列规则库进行匹配时,是将语法关系序列中的各序列与类序列规则库中对应的语法关系序列规则分别进行匹配。例如,若语法关系序列中包括词性关系序列、句法关系序列和语义关系序列,此时可以将包括的词性关系序列与词性关系序列规则进行匹配,将句法关系序列与句法关系序列规则进行匹配,以及将语义依存关系序列与语义关系序列规则进行匹配。
相应的,若语法关系序列中的至少一种序列与特定语义关系类序列规则库相对应的语法关系序列规则相匹配,则说明待处理文本含该特定语义关系。其中,语法关系序列中的至少一种序列与特定语义关系类序列规则库相对应的语法关系序列规则相匹配,则确定待处理文本含特定语义关系可以根据实际需要预先配置。例如,可以根据实际应用场景可以设置较宽松或者较严格的判断条件,如严格的判断条件为:语法关系序列中的每种序列与特定语义关系类序列规则库相对应的语法关系序列规则均匹配,则判定该待处理文本包含该特定语义关系,而宽松的判断条件可以为:语法关系序列中的有一种或两种序列与特定语义关系类序列规则库相对应的语法关系序列规则相匹配,则可以判定该待处理文本包含该特定语义关系。
在本申请可选的实施例中,对于类序列规则库中的任一语法关系序列规则,若语法关系序列规则包括至少两个规则,将语法关系序列中的各序列与类序列规则库中对应的语法关系序列规则分别进行匹配,包括:
对于包含至少两个规则的语法关系序列规则,将语法关系序列中该语法关系序列规则对应的序列分别与至少两个规则进行匹配,若该序列与至少两个规则中的任一规则匹配,则确定该序列与该语法关系序列规则匹配。
可选的,对于类序列规则库中的任一语法关系序列规则,该语法关系序列规则可以包括至少两个规则,此时在将语法关系序列中的各序列与类序列规则库中对应的语法关系序列规则分别进行匹配时,对于存在至少两种规则的语法关系序列规则,可以将该语法关系序列规则对应的序列分别与该至少两个规则进行匹配,若与至少两个规则中的任一规则匹配成功,则确定该序列与该语法关系序列规则匹配。
在一示例中,假设类序列规则库中存在上下位语义关系的词性关系序列规则,该上下位语义关系的词性关系序列规则包括两个规则,此时可以将语法关系序列中词性关系序列与上下位的词性关系序列规则的两个规则进行匹配,若该词性关系序列与两个规则中的任一规则匹配,则确定该词性关系序列与上下位的词性关系序列规则相匹配。
在本申请可选的实施例中,语法关系序列规则所包含的每个规则还带有标注信息,对于任一规则,标注信息表征了特定语义关系在该规则中对应的位置信息;该方法还包括:
若确定待处理文本中包含特定语义关系,根据语法关系序列规则中与语法关系序列相匹配的规则中的标注信息,确定特定语义关系在待处理文本中对应的位置。
可选的,特定语义关系的语法关系序列规则所包含的每个规则还带有标注信息,基于该标注信息可以知晓该特定语义关系在该规则中对应的位置;相应的,在确定待处理文本中包含该特定语义关系后,对于与语法关系序列相匹配的语法关系序列规则的规则,可以根据该规则中的标注信息,知晓该特定语义关系在待处理文本的具体位置信息,其中,该特定语义关系在待处理文本的具体位置与该特定语义关系在相匹配的规则中的位置相对应。
在本申请实施例中,由于类序列规则本身带有类别信息和模式信息,并且序列是由有序的元素组成,利用类别信息标注具有特定语法关系词语、确定语义关系所在位置,并且通过多轮迭代挖掘能够确保模式不断扩充解决查全率,并通过支持度的设置提高模型召回的准确率。
在本申请可选的实施例中,特定语义关系的类序列规则库是通过以下方式得到的:
获取样本集,样本集包括包含特定语义关系的多个样本文本;
基于多个样本文本进行至少一种语法关系的类序列挖掘,得到对应于每种语法关系的包含特定语义关系的各频繁序列;
对于每种语法关系,对语法关系的各频繁序列中的子序列进行删除处理,将处理后的各频繁序列确定为语法关系对应的语法关系序列规则;
基于各语法关系对应的语法关系序列规则,构建得到特定语义关系的类序列规则库。
可选的,对于特定语义关系的类序列规则库中包括的语法关系序列规则,可以通过对获取到的样本集进行语法关系的类序列规则挖掘得到。其中,获取到的样本集中包括多个样本文本,该样本集中的每个样本文本包含该特定语义关系,如当特定语义关系为上下位语义关系时,每个样本文本中均包含有上下位语义关系。
在实际应用中,在获取到样本集后,可以对样本集中所包括的多个样本文本进行至少一种语法关系的类序列挖掘,得到对应于每种语法关系的包含特定语义关系的各频繁序列。例如,可以对多个样本文本分别进行词性关系的类序列挖掘、句法依存关系的类序列挖掘以及语义依存关系的类序列挖掘,得到对应于词性关系、且包含该特定语义关系的各频繁序列、对应于句法依存关系、且包含该特定语义关系的各频繁序列以及对应于语义依存关系、且包含该特定语义关系的各频繁序列。
进一步的,对于每种语法关系,可以确定该语法关系对应的各频繁序列中的超序列和子序列,由于挖掘得到的各频繁序列的长度是不同的,可能会存在某些频繁序列中的序列元素均包含在其它频繁序列中的情况,此时为保证信息完整,减少后续的数据处理量,可以将子序列进行删除处理,将处理后的各频繁序列确定为该语法关系对应的语法关系序列规则。
其中,频繁序列指的是在样本集频繁出现的序列元素。而在实际应用中,如果某个频繁序列A所有的序列元素在频繁字序列B中的项集都可以找到,则频繁序列A就是频繁序列B的子序列。根据该定义,假设对于频繁序列A={a1,a2,...an}和频繁序列B={b1,b2,...bm},n≤m,如果存在数字序列1≤j1≤j2≤...≤jm≤m,满足则称频繁序列A是频繁序列B的子序列,反过来,频繁序列B则是频繁序列A的超序列。。
其中,确定出频繁序列中的各超序列的实现方式可以预先配置,本申请实施例对此不限定。如确定了超序列为“/p/n/u/n/n/v”、子序列为“/p/n/u/n/n”,此时由于超序列“/p/n/u/n/n/v”在子序列“/p/n/u/n/n”的基础上还包含“/v”,此时可以删除子序列“/p/n/u/n/n”。
在本申请实施例中,对于特定语义关系的类序列规则库是可以不断迭代更新的,在存在新的语义关系后,可以进行自动化扩充和更新特定语义关系的类序列规则库,从而可以确保可识别是特定语法关系的准确度和召回率。
在本申请可选的实施例中,基于多个样本文本进行至少一种语法关系的类序列挖掘,得到对应于每种语法关系的包含特定语义关系的各频繁序列,包括:
对样本集中的每个样本文本进行上下文分析,得到每个样本文本对应的至少一种样本语法关系序列;
对于每种样本语法关系序列中包含的每种长度的序列元素,确定多个样本文本对应的每种样本语法关系序列中包含该长度的序列元素的序列的数量;
基于每种样本语法关系序列所包含的每种长度的序列元素所对应的数量,对多个样本文本对应的该种样本语法关系序列中包括的序列元素进行过滤,得到该种样本语法关系序列对应的处理后的各样本语法关系序列;
对每种样本语法关系序列对应的处理后的各样本语法关系序列分别进行类序列挖掘,得到对应于每种语法关系的包含特定语义关系的各频繁序列。
其中,对样本集进行类序列挖掘指的是对样本集对应的样本语法关系序列中包括的序列元素的挖掘,而序列元素指的是样本语法关系序列所包括的元素。例如,若样本语法关系序列为词性关系序列,则序列元素指的是样本语法关系序列中对应于样本文本中每个分词的词性,不同的词性为不同的序列元素,如名词“n”和动词“v”即为不同的序列元素;若样本语法关系序列为句法关系序列,则序列元素指的是样本语法关系序列中包含的句法依存关系,不同的句法依存关系为不同的序列元素,如主谓关系“SBV”和定中关系“ATT”即为不同的序列元素;若样本语法关系序列为语义关系序列,则序列元素指的是样本语法关系序列中包含的语义依存关系,不同的语义依存关系为不同的序列元素,如当事关系“EXP”和施式关系“AGT”即为不同的序列元素。
可选的,长度指的是频繁序列中所包括的序列元素的数量,例如,当某个频繁序列为“/n/u/v”,该频繁序列包括序列元素“/n”、“/u”和“v”这三个序列元素,此时该频繁序列“/n/u/v”的长度即为3。可选的是,本申请实施例中的各长度可以指的是一个序列元素的长度到最长的频繁序列所包含的序列元素的长度,也可以是从设定的起始长度(如包含1个序列元素的长度或包含两个序列元素的长度)到最长的频繁序列所包含的序列元素的长度,本申请实施例不限定。
可选的,可以对样本集中的每个样本文本上下文分析,得到每个样本文本对应的至少一种样本语法关系序列,如得到每个样本文本对应的样本词性关系序列、样本句法关系序列和样本语义关系序列;而对于每种样本语法关系序列中包含的每种长度的序列元素,确定多个样本文本对应的该种样本语法关系序列中包含该序列元素的序列的数量。需要说明的是,对于一种每种序列元素,当同一个样本语法关系序列中存在多个该序列元素时,此时该样本仍算作一个样本,即数量加1。
例如,假设样本集包括的每个样本文本对应的样本词性关系序列分别为“/n/u/n/v/n”和“/n/u/n/d/v/n”,此时可以统计样本词性关系序列中包含各长度的序列元素的序列的数量,如序列元素“/n”在“/n/u/n/v/n”和“/n/u/n/d/v/n”中存在,此时多个样本文本对应的样本词性关系序列中包含序列元素“/n”的序列的数量即为2,而序列元素“/d”仅在/n/u/n/d/v#/n”中出现,则多个样本文本对应的样本词性关系序列中包含序列元素“/d”的序列的数量即为1,同理可以得到包含序列元素“/u”所对应的序列的数量为2、包含序列元素“/v”所对应的序列的数量为2。
相应的,对于每种语法关系,可以基于每种样本语法关系序列所包含的每种长度的序列元素所对应的数量,对多个样本文本对应的该种样本语法关系序列中包含的序列元素进行过滤,得到每个样本文本对应于该种语法关系的各处理后的样本语法关系序列,然后可以对处理后的各样本语法关系序列进行类序列挖掘,得到对应于该语法关系的包含特定语义关系的各频繁序列。
在本申请可选的实施例中,基于每种长度的序列元素的序列的数量,对多个样本文本对应的该种样本语法关系序列中包括的各长度的序列元素进行过滤,得到多个样本文本对应于该种样本语法关系序列的各处理后样本语法关系序列,包括:
对于每种样本语法关系序列所包含的每种长度的序列元素,若该序列元素对应的数量满足设定条件,则从对多个样本文本对应的该种样本语法关系序列中删除该种长度的序列元素;
该数量满足设定条件包括以下至少一项:
该数量小于设定值或者该数量的占比小于预设值;
其中,对于任一长度的序列元素,数量的占比是指包括该长度的样本语法序列所对应的样本数量与样本集中包括的样本文本的数量的比值。
在实际应用中,对于一种长度的序列元素,可以确定该序列元素对应的数量是否满足设定条件,若满足预设条件,此时对多个样本文本对应的该种样本语法关系序列中删除该种长度的序列元素。其中,该数量满足设定条件可以包括数量小于设定值或者数量的占比小于预设值中的至少一项,而数量的占比是指包括个该长度的序列元素的样本语法序列所对应的样本数量与样本文本集中包括的样本文本的数量的比值,例如,包括某种序列元素的样本语法序列为4个,而样本集中包括4个样本文本,此时该长度的序列元素所对应的数量的占比即为4/4=1。
在一示例中,假设样本文本对应的样本词性关系序列如表2所示,每种序列元素所对应的数量如表3所示,样本集中共存在4个样本文本,序列元素所对应的数量满足设定条件为数量的占比小于预设值0.4。
表2
样本词性关系序列 |
/n/u*/n/v#/n |
/n/u*/n/d/v#/n |
/p/n/u*/n/f/w#/n/d/v/n |
/p/n/u*/n/w#/n/v/n |
表3
序列元素 | 样本数 |
/n | 4 |
/u | 4 |
/v | 4 |
/d | 2 |
/w | 2 |
/p | 2 |
/f | 1 |
通过表2可知,序列元素“/n”、“/u”和“/v”所对应的数量的占比为1,序列元素“/d”、“/w”和“/p”所对应的数量的占比为2/4=0.5,序列元素“/d”所对应的的占比为1/4=0.25,此时序列元素“/d”所对应的的占比小于0.4,则可以则从各样本词性关系序列中删除该种序列元素“/d”,得到处理后的各样本词性关系序列,具体如表4所示。
表4
处理后的各样本词性关系序列 |
/n/u*/n/v#/n |
/n/u*/n/d/v#/n |
/p/n/u*/n/w#/n/d/v/n |
/p/n/u*/n/w#/n/v/n |
在本申请可选的实施例中,基于多个样本文本进行至少一种语法关系的类序列挖掘,得到对应于每种语法关系的包含特定语义关系的各频繁序列,包括:
基于PrefixSpan算法,对多个样本文本对应于每种样本语法关系序列的各处理后的样本语法关系序列进行类序列挖掘,得到对应于每种语法关系的包含特定语义关系的各频繁序列。
在实际应用中,可以预设最小支持度阈值,然后采用PrefixSpan算法对多个样本文本对应于每种样本语法关系序列的各处理后的样本语法关系序列进行类序列挖掘,得到对应于每种语法关系的包含特定语义关系的各频繁序列。其中,最小支持度的计算方法如下所示。
min_sup=a×n
其中,n为样本数,a为最小支持率,最小支持率可以根据样本文本集的量级进行调整,min_sup为最小支持度。
可选的,对于多个样本文本对应于任一种样本语法关系序列的各处理后的样本语法关系序列,基于PrefixSpan算法进行字序列挖掘的具体操作步骤如下:
1、找出单位长度为1的字序列前缀和对应投影数据集;
2、统计字序列前缀出现频率并将支持度高于最小支持度阈值的前缀添加到数据集,获取一项集的频繁序列;
3、对所有长度为i且满足最小支持度阈值要求的前缀递归挖掘:
4、挖掘前缀的投影数据集,如果投影数据为空集合,则返回递归;
5、统计对应投影数据集中各项的最小支持度,将满足支持度的各单项与当前前缀合并,得到新前缀,不满足支持度要求则递归返回;
6、令i=i+1,前缀为合并单项后的各个新前缀,分别递归执行第3步,直至前缀的投影数据集中均小于最小支持度;
7、返回该序列数据集中所有的频繁序列;
8、对所有的频繁序列中不包含特定语义关系的频繁序列删除,将保留的频繁序列作为该语法关系的包含特定语义关系的各频繁序列。
本申请实施例提供的方法包括但不限于应用在词语关系挖掘和知识库构建等应用场景中。例如,在浏览器词条构建的场景中,可以通过挖掘语义关系的词语构建知识库,达到丰富和完善人物画像等结构化信息的目的;而在构建金融知识图谱的画像场景中,通过挖掘语法关系,能够梳理出事物的关系图谱,从而更好地应用到各种场景中等。
可选的,为了更好理解本申请实施例中所提供的方法,下面对该方法进行详细说明。在本示例中,以特定语义关系为上下位语义关系、语法关系包括词性关系、句法依存关系和语义依存关系为例进行说明。可选的,如图3所示,该方法具体可以包括:
步骤S301,获取样本集,构建每个样本文本对应的样本词性关系序列、样本句法关系序列和样本语义关系序列。
可选的,针对上下位语义关系,可以获取匹配高质量文本(如新闻资讯等文本)作为样本集中的各样本文本,此时样本集中的每个样本文本同时包含该上下位语义关系的,各样本文本如表5所示。
表5、样本文本示例
歌曲的作曲是张三 |
dDBz的作词人居然是李四 |
除了M的高管外,小明也发表观点 |
作为N的董事,海峰提出建议 |
其中,表5中的dDBz表示一个歌名,M表示一个公司名,N表示另一个公司名,各样本文本包含的上位词和下位词如表6所示:
表6
语义关系 | 上位词 | 下位词 |
上下位 | 作曲 | 张三 |
上下位 | 作词人 | 李四 |
上下位 | 高管 | 小明 |
上下位 | 董事 | 海峰 |
进一步,可以对每个样本文本进行分词,此时得到的分词结果中的各词进行词性标注。其中,可以采用“/”分隔每个分词,此时每个样本文进行词性标注后的结果如表7所示。
表7
进一步的,可以根据词性标注结果、各分词之间的上下文关系得到每个样本文本对应的样本词性关系序列。可选的,为了知晓上位词和下位词在每个样本文本中的位置,可以对上位词和下位词的位置进行标注,如将上位词用*标注,下位词用#标注,此时可以得到每个样本文本对应于词性关系的各样本词性关系序列,具体如表8所示。
表8
样本词性关系序列 |
/n/u*/n/v#/n |
/n/u*/n/d/v#/n |
/p/n/u*/n/f/w#/n/d/v/n |
/p/n/u*/n/w#/n/v/n |
相应的,可以对每个样本文本进行句法依存分析,确定每个样本文本中包括的句法依存关系,然后遵循先远后近的原则,并将上位词用*标注,下位词用#标注,得到每个样本文本对应于依存关系的样本句法关系序列,具体如表9所示。
表9
样本句法关系序列 |
HED ATT RAD*SBV VOB# |
HED ATT RAD*SBV ADV(adverbial,状中结构)VOB# |
HED ADV ATT RAD*ATT ADV WP(WH-pronoun,WH代词)#SBV ADV VOB |
HED ADV WP POB(preposition-object,介宾关系)*ATT RAD#SBV VOB |
可选的,可以对每个样本文本进行语义依存分析,确定每个样本文本中包括的语义依存关系。例如,如图4a所示,样本文本“歌曲的作曲是张三”中的“是”存在Root(根节点)关系,“歌曲”和和“的”存在mDEPD(mark dependency,依附标记)关系,“歌曲”和“作曲”存在FEAT关系,“是”和“作曲”存在EXP关系,“是”和“张三”存在LINK关系;如图4b所示,样本文本“dDBz的作词人居然是李四”中的“是”存在Root关系、“d”和“D”存在MEAS,“D”和“Bz”、“D”和“的”、“居然”和“是”存在mDEPD关系,“D”和“作词人”存在LOC(Location,空间角色)关系,“是”和“作词人”存在EXP关系,“是”和“李四”存在LINK关系;如图4c所示,样本文本“除了M的高管外,小明也发表观点”中的“发表”存在Root关系、“除了”和“高管”存在mRELA(markrelation,关系标记)关系,“高管”和“外”、“M”和“的”、“也”和“发表”存在mDEPD关系,“M”和“高管”存在FEAT关系,“高管”和“,”存在mPUNC(Punctuation Marker,标点标记)关系,“高管”和“发表”存在DATV(Dative,涉事关系)关系,“小明”和“发表”存在AGT关系,“发表”和“观点”存在CONT(Content,客事关系)关系;如图4d所示,样本文本“作为N的董事,海峰提出建议”中的“提出”存在Root关系、“作为”和“董事”存在mRELA关系,“N”和“的”存在mDEPD关系,“N”和“董事”存在FEAT关系,“董事”和“,”存在mPUNC关系,“董事”和“提出”存在DATV关系,“海峰”和“提出”存在AGT关系,“提出”和“建议”存在CONT关系。相应的,可以基于每个样本文本包含的语义依存关系、以及将上位词用*标注,下位词用#标注,得到每个样本文本对应于语义依存关系的样本语义关系序列,具体如表10所示。
表10
步骤S302,基于每个样本文本对应的样本词性关系序列、样本句法关系序列和样本语义关系序列,构建上下位语义关系的类序列规则库。
可选的,可以对每个样本文本对应的样本词性关系序列、样本句法关系序列和样本语义关系序列进行对应的语法关系的类序列挖掘,得到对应于每种语法关系的包含上下位语义关系的各频繁序列。下面以得到词性关系对应的各频繁序列为例进行详细说明。
在本示例中,每个样本文本对应于词性关系的各样本词性关系序列如表8所示,所设定的最小支持率阈值为0.4,此时可以首先确定每个词性序列元素的出现样本数(即前文中的序列的数量)如表11所示:
表11
相应的,基于表8和表10所示可知,可以将出现样本数小于最小支持率阈值的词性序列元素从各样本文本对应于的各样本词性关系序列中删除,此时处理后的各样本词性关系序列如表12所示:
表12
处理后的各样本词性关系序列 |
/n/u*/n/v#/n |
/n/u*/n/d/v#/n |
/p/n/u*/n/w#/n/d/v/n |
/p/n/u*/n/w#/n/v/n |
进一步,基于prefixspan算法算法对处理后的各样本词性关系序列进行挖掘。可以先对长度为1的前缀(即一项前缀)进行挖掘,此时可以确定满足最小支持度阈值的各一项前缀与其对应的相邻后缀(即前缀在样本文本中相邻的后续部分所包括的序列元素)。例如,对于一项前缀“/n”,其在样本词性关系序列“/n/u*/n/v#/n”的相邻后缀为“/u*/n/v#/n”,在样本词性关系序列“/n/u*/n/d/v#/n”的相邻后缀为“/u*/n/d/v#/n”,在样本词性关系序列“/p/n/u*/n/w#/n/d/v/n”的相邻后缀为“/u*/n/w#/n/d/v/n”,在样本词性关系序列“/p/n/u*/n/w#/n/v/n”的相邻后缀为“/u*/n/w#/n/v/n”。其中,每次挖掘迭代时,只保留前缀加后缀中带有上下位标识*和#的词性关系序列,并将符合最小支持率阈值的词性序列元素构造一项前缀与其对应后缀。同理可以得到满足要求的一项前缀所对应的相邻后缀,具体如表13所示:
表13
进一步的,基于挖掘一项前缀同样的道理,以一项前缀为“/n”为例,继续挖掘满足最小支持度阈值、且前缀加后缀中带有上下位标识*和#的词性关系序列的二项前缀和对应后缀如表14所示:
表14
进一步的,基于挖掘一项前缀同样的道理,以二项前缀为“/n/u”为例,继续挖掘满足最小支持度阈值、且前缀加后缀中带有上下位标识*和#的词性关系序列的三项前缀和对应后缀如表15所示:
表15
进一步的,基于挖掘一项前缀同样的道理,以三项前缀为“/n/u*/n”为例,继续挖掘满足最小支持度阈值、且前缀加后缀中带有上下位标识*和#的词性关系序列的四项前缀和对应后缀如表16所示:
表16
进一步的,基于挖掘一项前缀同样的道理,继续挖掘满足最小支持度阈值、且前缀加后缀中带有上下位标识*和#的词性关系序列的五项前缀和对应后缀如表17所示,其中,在各样本词性关系序列均不存在的相邻后缀(表中均采用“无”表示):
表17
进一步的,基于挖掘一项前缀同样的道理,继续挖掘满足最小支持度阈值、且前缀加后缀中带有上下位标识*和#的词性关系序列的六项前缀和对应后缀如表18所示,其中,在各样本词性关系序列均不存在的相邻后缀(表中均采用“无”表示):
表18
进一步的,基于挖掘一项前缀同样的道理,继续挖掘满足最小支持度阈值、且前缀加后缀中带有上下位标识*和#的词性关系序列的七四项前缀和对应后缀如表19所示,其中,在各样本词性关系序列均不存在的相邻后缀(表中均采用“无”表示):
表19
七项前缀 | 对应后缀 |
/n/u*/n/w#/n/v/n | 无 |
进一步,由于七项前缀的对应后缀中的序列元素均不满最小支持度阈值,此时将不会存在八项前缀,至此挖掘迭代结束,并将以上各个前缀作为词性关系的各频繁序列。
进一步的,对词性关系的各频繁序列中的子序列进行删除处理,将处理后的各频繁序列确定为词性关系对应的词性关系序列规则,具体如表20所示:
表20
/n/u*/n/v#/n |
n/u*/n/w#/n/v/n |
可选的,基于上述中挖掘词性关系对应的词性关系序列规则同样的方法,对每个样本文本对应的样本句法关系序列和样本语义关系序列进行挖掘,得到句法依存关系对应的句法依存关系序列规则和语义依存关系对应的语义依存关系序列规则,然后基于词性关系序列规则、句法依存关系序列规则和语义依存关系对应的语义依存关系序列规则,构建得到上下位语义关系的类序列规则库,具体如表21所示。
表21
步骤S303,获取待处理文本,然后对待处理文本进行上下文分析,得到待处理文本中包含的性关系序列、句法关系序列和语义关系序列。
可选的,可以对待处理文本进行分词,对得到的分词结果中的各词进行词性标注,并基于各词的上下文关系,得到待处理文本对应的词性关系序列,对待处理文本进行句法依存分析,得到待处理文本对应的句法关系序列,以及对待处理文本进行语义依存分析,得到待处理文本对应的语义关系序列。
步骤S304,将语法关系序列与特定语义关系的类序列规则库进行匹配,基于匹配结果,确定待处理文本是否包含特定语义关系。
可选的,将语法关系序列中的各序列与类序列规则库中对应的语法关系序列规则(如表21所示)分别进行匹配,若语法关系序列中至少一种序列与类序列规则库相对应的语法关系序列规则匹配,则确定待处理文本含特定语义关系。
本申请实施例中利用词语所在上下文构成的依存句法关系、词性组合关系、语义依存关系,挖掘其中隐含的类序列规则,从而根据序列规则和类别标签确定和挖掘特定语义关系,并且通过支持度和置信度对类序列规则的准确性进行校验,通过多轮迭代挖掘能够确保召回率,在实际应用中具有广泛的应用价值和参考意义。
本申请实施例提供了一种语义关系的识别装置,如图5所示,该语义关系的识别装置60可以包括:文本获取模块601、文本分析模块602以及语法关系匹配模块603,其中,
文本获取模块601,用于获取待处理文本;
文本分析模块602,用于对待处理文本进行上下文分析,得到待处理文本中包含的语法关系序列;
语法关系匹配模块603,用于将语法关系序列与特定语义关系的类序列规则库进行匹配,基于匹配结果,确定待处理文本是否包含特定语义关系;
其中,类序列规则库中包括特定语义关系对应的语法关系序列规则,语法关系序列规则是通过对包含特定语义关系的多个样本文本进行语法关系的类序列规则挖掘得到的。
可选的,类序列规则库中包括词性关系序列规则、句法关系序列规则或语义关系序列规则中的至少一种,语法关系序列包括词性关系序列、句法关系序列或语义关系序列中的至少一种;
文本分析模块在对待处理文本进行上下文分析,得到待处理文本中包含的语法关系序列时,具体用于以下至少一项:
对待处理文本进行分词,对得到的分词结果中的各词进行词性标注,并基于各词的上下文关系,得到待处理文本对应的词性关系序列;
对待处理文本进行句法依存分析,得到待处理文本对应的句法关系序列;
对待处理文本进行语义依存分析,得到待处理文本对应的语义关系序列。
可选的,语法关系匹配模块在将语法关系序列与特定语义关系的类序列规则库进行匹配,基于匹配结果,确定待处理文本是否包含特定语义关系时,具体用于:
将语法关系序列中的各序列与类序列规则库中对应的语法关系序列规则分别进行匹配,若语法关系序列中至少一种序列与类序列规则库相对应的语法关系序列规则匹配,则确定待处理文本含特定语义关系。
可选的,对于类序列规则库中的任一语法关系序列规则,若语法关系序列规则包括至少两个规则,语法关系匹配模块在将语法关系序列中的各序列与类序列规则库中对应的语法关系序列规则分别进行匹配时,具体用于:
对于包含至少两个规则的语法关系序列规则,将语法关系序列中该语法关系序列规则对应的序列分别与至少两个规则进行匹配,若该序列与至少两个规则中的任一规则匹配,则确定该序列与该语法关系序列规则匹配。
可选的,语法关系序列规则所包含的每个规则还带有标注信息,对于任一规则,标注信息表征了特定语义关系在该规则中对应的位置信息;
该装置包括位置确定模块,用于:
若确定待处理文本中包含特定语义关系,根据语法关系序列规则中与语法关系序列相匹配的规则中的标注信息,确定特定语义关系在待处理文本中对应的位置。
可选的,该装置规则挖掘模块,特定语义关系的类序列规则库是规则挖掘模块通过以下方式得到的:
获取样本集,样本集包括包含特定语义关系的多个样本文本;
基于多个样本文本进行至少一种语法关系的类序列挖掘,得到对应于每种语法关系的包含特定语义关系的各频繁序列;
对于每种语法关系,对语法关系的各频繁序列中的子序列进行删除处理,将处理后的各频繁序列确定为语法关系对应的语法关系序列规则;
基于各语法关系对应的语法关系序列规则,构建得到特定语义关系的类序列规则库。
可选的,所规则挖掘模块在基于多个样本文本进行至少一种语法关系的类序列挖掘,得到对应于每种语法关系的包含特定语义关系的各频繁序列时,具体用于:
对样本集中的每个样本文本进行上下文分析,得到每个样本文本对应的至少一种样本语法关系序列;
对于每种样本语法关系序列,确定多个样本文本对应的该种样本语法关系序列中包含每种长度的序列元素的序列的数量;
基于每种样本语法关系序列所包含的每种长度的序列元素所对应的数量,对多个样本文本对应的该种样本语法关系序列中包含的序列元素进行过滤,得到该种样本语法关系序列对应的处理后的各样本语法关系序列;
对每种样本语法关系序列对应的处理后的各样本语法关系序列分别进行类序列挖掘,得到对应于每种语法关系的包含特定语义关系的各频繁序列。
可选的,规则挖掘模块在基于每种长度的序列元素的序列的数量,对多个样本文本对应的该种样本语法关系序列中包括的各长度的序列元素进行过滤,得到多个样本文本对应于该种样本语法关系序列的各处理后样本语法关系序列时,具体用于:
对于每种样本语法关系序列所包含的每种长度的序列元素,若该序列元素对应的数量满足设定条件,则从多个样本文本对应的该种样本语法关系序列中删除该种长度的序列元素;
数量满足设定条件包括以下至少一项:
数量小于设定值或者数量对应的占比小于预设值;
其中,对于任一长度的序列元素,数量的占比是指包括该长度的样本语法序列所对应的样本数量与样本集中包括的样本文本的数量的比值。
本申请实施例的语义关系的识别装置可执行本申请实施例提供的一种语义关系的识别方法,其实现原理相类似,此处不再赘述。
所述用户界面的显示装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该用户界面的显示装置为一个应用软件;该装置可以用于执行本申请实施例提供的方法中的相应步骤。
在一些实施例中,本申请实施例提供的语义关系的识别装置可以采用软硬件结合的方式实现,作为示例,本申请实施例提供的语义关系的识别装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本申请实施例提供的语义关系的识别方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,ApplicationSpecific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable LogicDevice)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件。
在另一些实施例中,本申请实施例提供的语义关系的识别装置可以采用软件方式实现,图5示出了语义关系的识别装置60,其可以是程序和插件等形式的软件,并包括一系列的模块,包括文本获取模块601、文本分析模块602以及语法关系匹配模块603;其中,文本获取模块601、文本分析模块602以及语法关系匹配模块603用于实现本申请实施例提供的语义关系的识别方法。
本申请实施例提供了一种电子设备,如图6所示,图6所示的电子设备2000包括:处理器2001和存储器2003。其中,处理器2001和存储器2003相连,如通过总线2002相连。可选地,电子设备2000还可以包括收发器2004。需要说明的是,实际应用中收发器2004不限于一个,该电子设备2000的结构并不构成对本申请实施例的限定。
其中,处理器2001应用于本申请实施例中,用于实现图5所示的各模块的功能。
处理器2001可以是CPU,通用处理器,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器2001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线2002可包括一通路,在上述组件之间传送信息。总线2002可以是PCI总线或EISA总线等。总线2002可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器2003可以是ROM或可存储静态信息和计算机程序的其他类型的静态存储设备,RAM或者可存储信息和计算机程序的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储或以数据结构形式的期望的计算机程序并能够由计算机存取的任何其他介质,但不限于此。
存储器2003用于存储执行本申请方案的应用程序的计算机程序,并由处理器2001来控制执行。处理器2001用于执行存储器2003中存储的应用程序的计算机程序,以实现图5所示实施例中的装置的动作。
本申请实施例提供了一种电子设备,包括处理器以及存储器:存储器被配置用于存储计算机程序,计算机程序在由处理器执行时,使得处理器上述实施例中的任一项方法。
本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质用于存储计算机程序,当计算机程序在计算机上运行时,使得计算机可以执行上述实施例中的任一项方法。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实现方式中提供的方法。
本申请中的一种计算机可读存储介质所涉及的名词及实现原理具体可以参照本申请实施例中的方法,在此不再赘述。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (8)
1.一种语义关系的识别方法,其特征在于,包括:
获取待处理文本;
对所述待处理文本进行上下文分析,得到所述待处理文本中包含的语法关系序列;
将所述语法关系序列中的各序列与类序列规则库中对应的语法关系序列规则分别进行匹配;
其中,所述类序列规则库是特定语义关系的类序列规则库,所述特定语义关系包括上下位关系、总分关系、同义关系、反义关系中的至少一项;
若所述语法关系序列中至少一种序列与所述类序列规则库相对应的语法关系序列规则匹配,则确定所述待处理文本包含所述特定语义关系;
其中,所述类序列规则库中包括所述特定语义关系对应的语法关系序列规则,所述语法关系序列规则是通过对包含所述特定语义关系的多个样本文本进行语法关系的类序列规则挖掘得到的;
所述类序列规则挖掘包括:基于每种样本语法关系序列所包含的每种长度的序列元素所对应的数量,对所述多个样本文本对应的该种样本语法关系序列中包含的序列元素进行过滤,得到该种样本语法关系序列对应的处理后的各样本语法关系序列;对每种样本语法关系序列对应的处理后的各样本语法关系序列分别进行类序列挖掘,得到对应于每种语法关系的包含所述特定语义关系的各频繁序列;对于每种所述语法关系,对所述语法关系的各频繁序列中的子序列进行删除处理,将处理后的各频繁序列确定为所述语法关系对应的语法关系序列规则;
其中,对于所述类序列规则库中的任一语法关系序列规则,若所述语法关系序列规则包括至少两个规则,所述将所述语法关系序列中的各序列与所述类序列规则库中对应的语法关系序列规则分别进行匹配,包括:对于包含至少两个规则的所述语法关系序列规则,将所述语法关系序列中该语法关系序列规则对应的序列分别与所述至少两个规则进行匹配,若该序列与所述至少两个规则中的任一规则匹配,则确定该序列与该语法关系序列规则匹配;
其中,所述基于每种样本语法关系序列所包含的每种长度的序列元素所对应的数量,对所述多个样本文本对应的该种样本语法关系序列中包含的序列元素进行过滤,得到该种样本语法关系序列对应的处理后的各样本语法关系序列,包括:对于每种样本语法关系序列所包含的每种长度的序列元素,确定多个样本文本对应的每种样本语法关系序列中包含该长度的序列元素的序列的数量;若所述每种长度的序列元素对应的序列的数量满足设定条件,则从所述多个样本文本对应的该种样本语法关系序列中删除所述每种长度的序列元素;
其中,所述数量满足设定条件包括以下至少一项:所述数量小于设定值或者所述数量的占比小于预设值;对于任一长度的序列元素,所述数量的占比是指包括该长度的样本语法序列所对应的样本数量与样本集中包括的样本文本的数量的比值。
2.根据权利要求1所述方法,其特征在于,所述类序列规则库中包括词性关系序列规则、句法关系序列规则或语义关系序列规则中的至少一种,所述语法关系序列包括所述词性关系序列、句法关系序列或语义关系序列中的至少一种;
所述对所述待处理文本进行上下文分析,得到所述待处理文本中包含的语法关系序列,包括以下至少一项:
对所述待处理文本进行分词,对得到的分词结果中的各词进行词性标注,并基于所述各词的上下文关系,得到所述待处理文本对应的词性关系序列;
对所述待处理文本进行句法依存分析,得到所述待处理文本对应的句法关系序列;
对所述待处理文本进行语义依存分析,得到所述待处理文本对应的语义关系序列。
3.根据权利要求1至2中任一项所述方法,其特征在于,所述语法关系序列规则所包含的每个规则还带有标注信息,对于任一规则,所述标注信息表征了所述特定语义关系在该规则中对应的位置信息;
所述方法还包括:
若确定所述待处理文本中包含所述特定语义关系,根据所述语法关系序列规则中与所述语法关系序列相匹配的规则中的标注信息,确定所述特定语义关系在待处理文本中对应的位置。
4.根据权利要求1至3任一项所述方法,其特征在于,所述特定语义关系的类序列规则库是通过以下方式得到的:
获取样本集,所述样本集包括包含所述特定语义关系的多个样本文本;
基于所述多个样本文本进行至少一种语法关系的类序列挖掘,得到对应于每种所述语法关系包含所述特定语义关系的各频繁序列;
对于每种所述语法关系,对所述语法关系的各频繁序列中的子序列进行删除处理,将处理后的各频繁序列确定为所述语法关系对应的语法关系序列规则;
基于各所述语法关系对应的语法关系序列规则,构建得到所述特定语义关系的类序列规则库。
5.根据权利要求4所述方法,其特征在于,所述基于所述多个样本文本进行至少一种语法关系的类序列挖掘,得到对应于每种所述语法关系的包含所述特定语义关系的各频繁序列,包括:
对所述样本集中的每个样本文本进行上下文分析,得到每个样本文本对应的至少一种样本语法关系序列;
对于每种样本语法关系序列,确定所述多个样本文本对应的该种样本语法关系序列中包含每种长度的序列元素的序列的数量;
基于每种样本语法关系序列所包含的每种长度的序列元素所对应的所述数量,对所述多个样本文本对应的该种样本语法关系序列中包含的序列元素进行过滤,得到该种样本语法关系序列对应的处理后的各样本语法关系序列;
对每种样本语法关系序列对应的处理后的各样本语法关系序列分别进行类序列挖掘,得到对应于每种语法关系的包含所述特定语义关系的各频繁序列。
6.一种语义关系的识别装置,其特征在于,包括:
文本获取模块,用于获取待处理文本;
文本分析模块,用于对所述待处理文本进行上下文分析,得到所述待处理文本中包含的语法关系序列;
语法关系匹配模块,用于将所述语法关系序列中的各序列与类序列规则库中对应的语法关系序列规则分别进行匹配;若所述语法关系序列中至少一种序列与所述类序列规则库相对应的语法关系序列规则匹配,则确定所述待处理文本包含特定语义关系;其中,所述类序列规则库是特定语义关系的类序列规则库,所述特定语义关系包括上下位关系、总分关系、同义关系、反义关系中的至少一项;
其中,所述类序列规则库中包括所述特定语义关系对应的语法关系序列规则,所述语法关系序列规则是通过对包含所述特定语义关系的多个样本文本进行语法关系的类序列规则挖掘得到的;
所述类序列规则挖掘包括:基于每种样本语法关系序列所包含的每种长度的序列元素所对应的数量,对所述多个样本文本对应的该种样本语法关系序列中包含的序列元素进行过滤,得到该种样本语法关系序列对应的处理后的各样本语法关系序列;对每种样本语法关系序列对应的处理后的各样本语法关系序列分别进行类序列挖掘,得到对应于每种语法关系的包含所述特定语义关系的各频繁序列;对于每种所述语法关系,对所述语法关系的各频繁序列中的子序列进行删除处理,将处理后的各频繁序列确定为所述语法关系对应的语法关系序列规则;
其中,对于所述类序列规则库中的任一语法关系序列规则,若所述语法关系序列规则包括至少两个规则,所述语法关系匹配模块,在将所述语法关系序列中的各序列与所述类序列规则库中对应的语法关系序列规则分别进行匹配时,具体用于:对于包含至少两个规则的所述语法关系序列规则,将所述语法关系序列中该语法关系序列规则对应的序列分别与所述至少两个规则进行匹配,若该序列与所述至少两个规则中的任一规则匹配,则确定该序列与该语法关系序列规则匹配;
其中,所述基于每种样本语法关系序列所包含的每种长度的序列元素所对应的数量,对所述多个样本文本对应的该种样本语法关系序列中包含的序列元素进行过滤,得到该种样本语法关系序列对应的处理后的各样本语法关系序列,包括:对于每种样本语法关系序列所包含的每种长度的序列元素,确定多个样本文本对应的每种样本语法关系序列中包含该长度的序列元素的序列的数量;若所述每种长度的序列元素对应的序列的数量满足设定条件,则从所述多个样本文本对应的该种样本语法关系序列中删除所述每种长度的序列元素;
其中,所述数量满足设定条件包括以下至少一项:所述数量小于设定值或者所述数量的占比小于预设值;对于任一长度的序列元素,所述数量的占比是指包括该长度的样本语法序列所对应的样本数量与样本集中包括的样本文本的数量的比值。
7.一种电子设备,其特征在于,包括处理器以及存储器:
所述存储器被配置用于存储计算机程序,所述计算机程序在由所述处理器执行时,使得所述处理器执行权利要求1-5任一项所述的方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机可以执行上述权利要求1-5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110287327.1A CN113010642B (zh) | 2021-03-17 | 2021-03-17 | 语义关系的识别方法、装置、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110287327.1A CN113010642B (zh) | 2021-03-17 | 2021-03-17 | 语义关系的识别方法、装置、电子设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113010642A CN113010642A (zh) | 2021-06-22 |
CN113010642B true CN113010642B (zh) | 2023-12-15 |
Family
ID=76409377
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110287327.1A Active CN113010642B (zh) | 2021-03-17 | 2021-03-17 | 语义关系的识别方法、装置、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113010642B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114330310A (zh) * | 2021-08-11 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置以及计算机可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105938495A (zh) * | 2016-04-29 | 2016-09-14 | 乐视控股(北京)有限公司 | 实体关系识别方法及装置 |
CN111680146A (zh) * | 2020-06-10 | 2020-09-18 | 腾讯科技(深圳)有限公司 | 确定新词的方法、装置、电子设备及可读存储介质 |
CN112287111A (zh) * | 2020-12-18 | 2021-01-29 | 腾讯科技(深圳)有限公司 | 一种文本处理方法和相关装置 |
CN112347767A (zh) * | 2021-01-07 | 2021-02-09 | 腾讯科技(深圳)有限公司 | 一种文本处理方法、装置及设备 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7809551B2 (en) * | 2005-07-01 | 2010-10-05 | Xerox Corporation | Concept matching system |
JP2012520528A (ja) * | 2009-03-13 | 2012-09-06 | インベンション マシーン コーポレーション | 自然言語テキストの自動的意味ラベリングのためのシステム及び方法 |
US11748414B2 (en) * | 2018-06-19 | 2023-09-05 | Priyadarshini Mohanty | Methods and systems of operating computerized neural networks for modelling CSR-customer relationships |
-
2021
- 2021-03-17 CN CN202110287327.1A patent/CN113010642B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105938495A (zh) * | 2016-04-29 | 2016-09-14 | 乐视控股(北京)有限公司 | 实体关系识别方法及装置 |
CN111680146A (zh) * | 2020-06-10 | 2020-09-18 | 腾讯科技(深圳)有限公司 | 确定新词的方法、装置、电子设备及可读存储介质 |
CN112287111A (zh) * | 2020-12-18 | 2021-01-29 | 腾讯科技(深圳)有限公司 | 一种文本处理方法和相关装置 |
CN112347767A (zh) * | 2021-01-07 | 2021-02-09 | 腾讯科技(深圳)有限公司 | 一种文本处理方法、装置及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113010642A (zh) | 2021-06-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110692050B (zh) | 语义图中元关系的自适应评估 | |
CN107220352B (zh) | 基于人工智能构建评论图谱的方法和装置 | |
CN111680173A (zh) | 统一检索跨媒体信息的cmr模型 | |
JP2020123318A (ja) | テキスト相関度を確定するための方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム | |
US20140250047A1 (en) | Authoring system for bayesian networks automatically extracted from text | |
CN112989055B (zh) | 文本识别方法、装置、计算机设备和存储介质 | |
Garg et al. | The structure of word co-occurrence network for microblogs | |
CN111353303B (zh) | 词向量构建方法、装置、电子设备及存储介质 | |
Parraga-Alava et al. | An unsupervised learning approach for automatically to categorize potential suicide messages in social media | |
CN114357117A (zh) | 事务信息查询方法、装置、计算机设备及存储介质 | |
CN115017303A (zh) | 基于新闻文本进行企业风险评估的方法、计算设备和介质 | |
CN113011126A (zh) | 文本处理方法、装置、电子设备及计算机可读存储介质 | |
CN115392492A (zh) | 面向实体抽取的联邦学习优化方法、系统、设备及终端 | |
CN113010642B (zh) | 语义关系的识别方法、装置、电子设备及可读存储介质 | |
CN113110843B (zh) | 合约生成模型训练方法、合约生成方法及电子设备 | |
CN112287111B (zh) | 一种文本处理方法和相关装置 | |
CN114358020A (zh) | 疾病部位识别方法、装置、电子设备及存储介质 | |
CN116402166B (zh) | 一种预测模型的训练方法、装置、电子设备及存储介质 | |
CN111680146A (zh) | 确定新词的方法、装置、电子设备及可读存储介质 | |
Agirre et al. | Ubc: Cubes for english semantic textual similarity and supervised approaches for interpretable sts | |
CN111274818B (zh) | 词向量的生成方法、装置 | |
CN117151089A (zh) | 新词发现方法、装置、设备和介质 | |
CN115062136A (zh) | 基于图神经网络的事件消歧方法及其相关设备 | |
Zhang et al. | A text mining based method for policy recommendation | |
CN111723188A (zh) | 用于问答系统的基于人工智能的语句显示方法、电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |