CN111368555B - 一种数据识别方法、装置、存储介质和电子设备 - Google Patents

一种数据识别方法、装置、存储介质和电子设备 Download PDF

Info

Publication number
CN111368555B
CN111368555B CN202010458280.6A CN202010458280A CN111368555B CN 111368555 B CN111368555 B CN 111368555B CN 202010458280 A CN202010458280 A CN 202010458280A CN 111368555 B CN111368555 B CN 111368555B
Authority
CN
China
Prior art keywords
word
sequence
words
text data
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010458280.6A
Other languages
English (en)
Other versions
CN111368555A (zh
Inventor
刘志煌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010458280.6A priority Critical patent/CN111368555B/zh
Publication of CN111368555A publication Critical patent/CN111368555A/zh
Application granted granted Critical
Publication of CN111368555B publication Critical patent/CN111368555B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种数据识别方法、装置、存储介质和电子设备,属于计算机技术领域,涉及人工智能和自然语言处理技术。本申请基于目标词和各个候选词所在的文本数据,从各个候选词中识别出目标词的相似词,得到目标词的相似词之后,可以分别确定目标词和相似词所在的文本数据的情感类别和词序列结构类别,将目标词所在的文本数据的情感类别和词序列结构类别与相似词所在的文本数据的情感类别和词序列结构类别进行比较,从而确定目标词与相似词是同义词或反义词。通过上述方法,可以在词语所在的文本数据的词序列结构相同或相似的情况下,对反义词和同义词进行区分,从而提高对文本数据的语义识别的准确度。

Description

一种数据识别方法、装置、存储介质和电子设备
技术领域
本申请涉及计算机技术领域,具体涉及一种数据识别方法、装置、存储介质和电子设备。
背景技术
在人机交互过程中,为了使电子设备能够理解人类的自然语言,以更好地服务用户,需要对自然语言进行识别。在人类自然语言中,同义词和反义词是常见的两种语义关系。区分同义词和反义词在电子设备理解自然语言的过程中具有重要作用。
目前,在自然语言识别过程中,通常基于词语所在的上下文构建用于表征该词语语义的词向量。由于同义词与反义词经常出现的相似的上下文环境中,因此区分同义词和反义词的难度较大。例如,两个语义相反的词语所在的上下文环境非常相似,基于词语所在的上下文得到的两个词语的词向量也非常相近,原本两个语义相反的词语被误识别为近义词,容易导致对词语所在的整个语句的语义识别错误。
发明内容
为解决现有存在的技术问题,本申请实施例提供一种数据识别方法、装置、存储介质和电子设备,可以对反义词和同义词进行区分,提高对文本数据的语义识别的准确度。
为达到上述目的,本申请实施例的技术方案是这样实现的:
第一方面,本申请实施例提供一种数据识别方法,包括:
基于目标词和各个候选词所在的文本数据,从所述各个候选词中识别出所述目标词的相似词;
分别识别所述目标词和相似词所在的文本数据的情感类别和词序列结构类别;所述情感类别用于标识文本数据表达的情感特征,所述词序列结构类别用于标识文本数据中的各个词组成的词序列结构特征;
当所述目标词和相似词所在的文本数据的情感类别不同但词序列结构类别相同时,将所述相似词识别为所述目标词的反义词;
当所述目标词和相似词所在的文本数据的情感类别相同且词序列结构类别相同时,将所述相似词识别为所述目标词的同义词。
第二方面,本申请实施例提供一种数据识别装置,包括:
相似词确定单元,用于基于目标词和各个候选词所在的文本数据,从所述各个候选词中识别出所述目标词的相似词;
类别确定单元,用于分别识别所述目标词和相似词所在的文本数据的情感类别和词序列结构类别;所述情感类别用于标识文本数据表达的情感特征,所述词序列结构类别用于标识文本数据中的各个词组成的词序列结构特征;
相似词区分单元,用于当所述目标词和相似词所在的文本数据的情感类别不同但词序列结构类别相同时,将所述相似词识别为所述目标词的反义词;当所述目标词和相似词所在的文本数据的情感类别相同且词序列结构类别相同时,将所述相似词识别为所述目标词的同义词。
在一种可选的实施例中,所述类别确定单元,具体用于:
分别确定所述目标词和所述相似词所在的文本数据的词序列结构;
对于每个文本数据,在获取的词序列结构类别中,查找与文本数据的词序列结构相匹配的词序列结构类别,并将查找到的词序列结构类别作为文本数据的词序列结构类别,所述词序列结构类别是根据训练文本数据的词序列结构确定的,所述训练文本数据是从历史文本数据中获得的。
在一种可选的实施例中,所述类别确定单元,还用于:获取包括多个训练文本数据的词序列结构的序列数据集;所述训练文本数据中包括所述目标词或候选词,部分或全部词序列结构中包含目标词或候选词的类别标签;
确定各个训练文本数据的词序列结构中的序列结构模式;
将在所有词序列结构中出现次数大于最小支持度的序列结构模式作为频繁序列模式;所述最小支持度是根据所述序列数据集中包括的词序列结构的数量确定的;
将频繁序列模式的置信度大于或等于设定置信度阈值的频繁序列模式作为词序列结构类别,所述频繁序列模式的置信度是根据所述频繁序列模式在包含类别标签的词序列结构中的出现次数以及所述频繁序列模式在所有词序列结构中出现的总次数的比值确定的。
在一种可选的实施例中,所述类别确定单元,还用于:确定所述序列数据集中包含的设定长度的每个词序列前缀及每个词序列前缀对应的投影数据集;所述词序列前缀由词序列结构中包含的分词按照分词在词序列结构中出现的顺序组成,所述词序列前缀对应的投影数据集由所述词序列前缀在各个词序列结构中对应的后缀组成,所述词序列前缀在各个词序列结构中对应的后缀包括所述各个词序列结构中位于所述词序列前缀之后的各个分词;
对于在各个词序列结构中的出现次数大于最小支持度的每个频繁词序列前缀,将频繁词序列前缀添加至频繁序列数据集,并将频繁词序列前缀与对应的投影数据集中的分词合并,得到迭代词序列前缀;
对于每个迭代词序列前缀,重复执行确定迭代词序列前缀对应的投影数据集,以及将在各个词序列结构中的出现次数大于最小支持度的频繁迭代词序列前缀添加至频繁序列数据集,并将频繁迭代词序列前缀与对应的投影数据集中的分词合并的步骤,直至所述迭代词序列前缀对应的投影数据集为空;
对得到的频繁序列数据集进行过滤,将过滤后频繁序列数据集中的词序列前缀作为频繁序列模式。
在一种可选的实施例中,所述类别确定单元,还用于:对得到的频繁序列数据集进行过滤,包括:
对于频繁序列数据集中的第一词序列前缀和第二词序列前缀,若所述第一词序列前缀包含所述第二词序列前缀,则从所述频繁序列数据集中删除所述第二词序列前缀。
第三方面,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时,实现第一方面的数据识别方法。
第四方面,本申请实施例还提供一种电子设备,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,当所述计算机程序被所述处理器执行时,实现第一方面的数据识别方法。
本申请实施例的数据识别方法、装置、存储介质和电子设备,基于目标词和各个候选词所在的文本数据,从各个候选词中识别出目标词的相似词,得到目标词的相似词之后,可以分别确定目标词和相似词所在的文本数据的情感类别和词序列结构类别,将目标词所在的文本数据的情感类别和词序列结构类别与相似词所在的文本数据的情感类别和词序列结构类别进行比较,从而确定目标词与相似词是同义词或反义词。通过上述方法,可以在词语所在的文本数据的词序列结构相同或相似的情况下,对反义词和同义词进行区分,从而提高对文本数据的语义识别的准确度。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种数据识别方法的应用场景示意图;
图2为本申请实施例提供的一种数据识别方法的流程示意图;
图3为本申请实施例提供的一种训练分类模型的流程示意图;
图4为本申请实施例提供的一种确定词序列结构类别的流程示意图;
图5为本申请实施例提供的一种数据识别场景的界面示意图;
图6为本申请实施例提供的另一种数据识别场景的界面示意图;
图7为本申请实施例提供的一种数据识别装置的结构框图;
图8为本申请实施例提供的另一种数据识别装置的结构框图;
图9为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
需要说明的是,本申请的文件中涉及的术语“包括”和“具有”以及它们的变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
以下对本申请实施例中的部分用语进行解释说明,以便于本领域技术人员理解。
(1)文本数据:指自然语言文本,如在人机交互过程中用户输入的包括一个或多个词语的语句。文本向量是用于描述自然语言文本所表达的语义特征的向量,是自然语言文本在机器中数值化的体现。
(2)词向量:也可以称为词向量特征,用于描述自然语言文本所包括的词语的语义特征,通常是指对自然语言表示的词语进行向量转换得到的机器能够理解的稠密向量(Dense Vector)或矩阵形式,词向量是自然语言文本中的词语在机器中数值化的体现。
(3)Word2Vec模型:Google的开源词向量工具,其可以利用文本数据中各个词语间的语义关系将词语转化为词向量,还可以利用词向量之间的语义距离关系识别出词语。
下文中所用的词语“示例性”的意思为“用作例子、实施例或说明性”。作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
文中的术语“第一”、“第二”仅用于描述目的,而不能理解为明示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征,在本申请实施例的描述中,除非另有说明,“多个”的含义是两个或两个以上。
本申请实施例涉及人工智能(Artificial Intelligence, AI)和机器学习技术,基于人工智能中的自然语言处理(natural language processing,NLP)技术和机器学习(Machine Learning, ML)而设计。
人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术主要包括计算机视觉技术、自然语言处理技术、以及机器学习/深度学习等几大方向。
随着人工智能技术研究和进步,人工智能在多个领域展开研究和应用,例如常见的智能家居、智能客服、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、机器人、智能医疗等,相信随着技术的发展,人工智能将在更多的领域得到应用,并发挥越来越重要的价值。
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。
自然语言处理技术,是计算机科学领域与人工智能领域中的一个重要方向。其研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
文本处理是自然语言处理技术中的主要过程,可以广泛应用于多种应用场景,例如,在电商的智能客服应用场景中,通过对用户发送的自然语言文本进行处理,将自然语言文本转换为机器可以理解的数字化向量,根据得到的数字化向量自动回复用户;在情感分析等应用场景中,通过对用户发送的自然语言文本进行处理,将自然语言文本转换为机器可以理解的数字化向量,根据得到的数字化向量对用户的情感进行分类。在网络论坛等词条构建领域,通过识别文本的语义可以构建与其相关的词条。由于同义词和反义词是人类自然语言中常见的两种语义关系,因此,在文本处理过程中,能否正确区分同义词和反义词直接影响对文本数据的语义识别的准确度。
相关技术在进行文本处理的过程中,通常基于词语所在的上下文构建用于表征该词语语义的词向量。由于同义词与反义词经常出现的相似的上下文环境中,因此区分同义词和反义词的难度较大。例如,对于文本数据“我喜欢这部手机”和文本数据“我讨厌这部手机”。由于词语“喜欢”和“讨厌”出现的上下文环境完全一致,因此,在分别基于上下文构建“喜欢”和“讨厌”的词向量,得到的两个词语的词向量非常接近,电子设备会将“喜欢”作为“讨厌”的同义词,从而将存在明显的语义差异的两个文本数据识别为相同或相近的语义,导致语义识别错误。
鉴于上述相关技术中存在的问题,本申请实施例提出了一种数据识别方法、装置、存储介质和电子设备,可以提高文本语义识别的准确性。其中,数据识别方法基于目标词和各个候选词所在的文本数据,从各个候选词中识别出目标词的相似词,得到目标词的相似词之后,可以分别确定目标词和相似词所在的文本数据的情感类别和词序列结构类别,将目标词所在的文本数据的情感类别和词序列结构类别与相似词所在的文本数据的情感类别和词序列结构类别进行比较,从而确定目标词与相似词是同义词或反义词。该方法可以在词语所在的文本数据的词序列结构相同或相似的情况下,对反义词和同义词进行区分,从而提高对文本数据的语义识别的准确度。
为更好地理解本申请实施例提供的技术方案,下面对本申请实施例提供的技术方案适用的应用场景做一些简单介绍,需要说明的是,以下介绍的应用场景仅用于说明本申请实施例而非限定。在具体实施时,可以根据实际需要灵活地应用本申请实施例提供的技术方案。
图1示出了本申请实施例提供的数据识别方法的一种应用场景,参见图1所示,该应用场景中包括多个终端设备11和数据处理服务器12。终端设备11与数据处理服务器12之间可以通过有线连接方式或无线连接方式进行连接并传输数据。例如,终端设备11与数据处理服务器12可以通过数据线连接或者通过有线网络连接;终端设备11与数据处理服务器12也可以通过射频模块、蓝牙模块或者无线网络连接。
其中,终端设备11可以是手机、掌上电脑(Personal DigitalAssistant,PDA)、计算机、笔记本、平板电脑、智能穿戴式设备(例如智能手表和智能头盔)等。用户可以通过终端设备11向数据处理服务器12发送待识别的文本数据。数据处理服务器12可以从各个终端设备11处收集文本数据,也可以通过网络收集文本数据。数据处理服务器12可以是一台服务器或由若干台服务器组成的服务器集群或云计算中心,或者是一个虚拟化平台,也可以是个人计算机、大中型计算机或计算机集群等。
为进一步说明本申请实施例提供的技术方案,下面结合附图以及具体实施方式对此进行详细的说明。虽然本申请实施例提供了如下述实施例或附图所示的方法操作步骤,但基于常规或者无需创造性的劳动在所述方法中可以包括更多或者更少的操作步骤。在逻辑上不存在必要因果关系的步骤中,这些步骤的执行顺序不限于本申请实施例提供的执行顺序。所述方法在实际的处理过程中或者装置执行时,可按照实施例或者附图所示的方法顺序执行或者并行执行。
图2示出了本申请实施例提供的一种数据识别方法,该方法可以由图1中的数据处理服务器12执行,也可以由终端设备或其它电子设备执行。示例性地,下文以数据处理服务器12作为执行主体,说明文本处理方法的具体实现过程。如图2所示,该数据处理方法包括如下步骤:
步骤S201,基于目标词和各个候选词所在的文本数据,从各个候选词中识别出目标词的相似词。
其中,目标词所在的文本数据可以是包含目标词的语句,候选词所在的文本数据可以是包含候选词的语句。识别得到的目标词的相似词可以是一个,也可以是多个。
在一些实施例中,可以通过词向量模型对目标词所在的文本数据进行处理,得到目标词的词向量。例如,可以采用Word2Vec模型对目标词所在的文本数据进行处理,确定目标词的词向量。Word2Vec模型可以基于词语所在的上下文语境确定该词语的词向量。Word2vec模型是一个简单的神经网络,有以下几个层组成:输入层、隐藏层以及个输出层;输入层输入的就是文本数据的数字向量表示,输出到隐藏层。隐藏层使用神经网络模型进行特征处理,输出层使用归一化分类函数操作,得到每一个预测结果的概率,也就是各个词语的词向量。同样,可以通过词向量模型分别对各个候选词所在的文本数据进行处理,得到各个候选词的词向量。
得到目标词的词向量和各个候选词的词向量之后,分别计算目标词的词向量与各个候选词的词向量之间的距离。示例性地,可以采用余弦距离算法或欧式距离算法计算两个词语的词向量之间的距离。根据目标词的词向量与各个候选词的词向量之间的距离,确定各个候选词与目标词的相似度,两个词语之间的相似度与两个词语的词向量之间的距离成正比,在一些实施例中,可以将某个候选词的词向量与目标词的词向量之间的距离直接作为该候选词与目标词的相似度。将与目标词的相似度满足预设条件的候选词作为目标词的相似词,在一些实施例中,预设条件可以是该候选词与目标词直接的距离小于或等于设定阈值范围。在另一些实施例中,也可以将与目标词的相似度最高的前N个候选词作为目标词的相似词,N为预先设定的整数值。
在实际应用中,如果两个词语所在的上下文环境相似,则通过词向量模型得到的两个词语的词向量之间的距离也很接近,可以认为两个词语是相似词。
步骤S202,分别识别目标词和相似词所在的文本数据的情感类别和词序列结构类别。
文本数据的情感类别用于标识文本数据表达的情感特征,在一些实施例中,可以通过已训练的分类模型分别确定目标词所在的文本数据的情感类别以及相似词所在的文本数据的情感类别。分类模型是以预先标注的训练文本为输入,以训练文本对应的情感类别标签为输出进行训练得到的。分类模型的训练过程将在下文中详细介绍。在另一些实施例中,文本数据的情感类别也可以由人工进行标注。
文本数据的词序列结构类别用于标识文本数据中的各个词组成的词序列结构特征。在确定目标词所在的文本数据的词序列结构类别时,可以先确定目标词所在的文本数据的词序列结构。一个文本数据的词序列结构可以是由该文本数据中各个词对应的词性标签按照各个词在文本数据中出现的顺序排列而成的,或者是由文本数据中各个词按照其在文本数据中出现的顺序排列而成的。然后,在获取的词序列结构类别中,查找与目标词所在的文本数据的词序列结构相匹配的词序列结构类别,并将查找到的词序列结构类别作为目标词所在的文本数据的词序列结构类别。其中,词序列结构类别是根据训练文本数据的词序列结构确定的,训练文本数据可以是从历史文本数据中获得的。
步骤S203,当目标词和相似词所在的文本数据的情感类别不同但词序列结构类别相同时,将相似词识别为目标词的反义词;当目标词和相似词所在的文本数据的情感类别相同且词序列结构类别相同时,将相似词识别为目标词的同义词。
根据目标词所在的文本数据的情感类别和词序列结构类别以及相似词所在的文本数据的情感类别和词序列结构类别,确定目标词与相似词是同义词还是反义词。对于目标词的任意一个相似词,如果该相似词所在的文本数据的词序列结构类别与目标词所在的文本数据的词序列结构类别相同但是情感类别不同,则认为该相似词为目标词的反义词;如果该相似词所在的文本数据的词序列结构类别与目标词所在的文本数据的词序列结构类别相同并且情感类别也相同,则认为该相似词为目标词的同义词。
通过上述方法,可以在词语所在的文本数据的词序列结构相同或相似的情况下,对反义词和同义词进行区分,从而提高对文本数据的语义识别的准确度。上述方法可以应用于电子客服、搜索引擎、情感分析等多种应用场景中。
示例性地,在一种实施例中,在将相似词识别为目标词的反义词或同义词之后,可以基于目标词的反义词或同义词,确定目标词所在的文本数据对应的文本向量,获取与文本向量相对应的关联文本;输出得到的关联文本。
例如,在电子客户应用场景中,终端设备将于用户输入的提问语句的文本数据发送至数据处理服务器,数据处理服务器对接收到的文本数据进行分词,根据各个分词的词性确定文本数据中的目标词,通过图2所示的方法确定目标词的同义词和反义词,基于目标词的同义词和反义词以及目标词所在的文本数据构建目标词的词向量,以使得到的目标词的词向量接近其同义词的词向量,并远离其反义词的词向量,基于得到的目标词的词向量及文本数据中其它分词的词向量,确定目标词所在的文本数据对应的文本向量。数据处理服务器中存储有关联文本库,关联文本库中包括不同文本向量对应的关联文本,可以从关联文本库中查找到与提问语句的文本数据相对应的关联文本,将找到的关联文本发送至终端设备。
如图5所示的应用场景中,用户在通过手机上的电子购物平台完成购物后,对商品进行评价,用户通过终端设备11向数据处理服务器12发送文本数据“我喜欢这款手机”,数据处理服务器12通过上述方法对文本数据进行识别,得到文本数据对应的文本向量,在关联文本库中查找到与该文本向量相对应的关联文本“非常感谢您对我们的支持,我们会继续努力”,将该关联文本发送至终端设备11,作为对用户的回应。相应地,如果用户发送的文本数据为“我讨厌这款手机”,通过本申请实施例的方法,得到的文本向量与“我喜欢这款手机”的文本向量相差较远,不会误将“非常感谢您对我们的支持,我们会继续努力”作为对“我讨厌这款手机”的回应。由于通过本申请实施例得到的文本向量的准确性提高,所以基于该文本向量得到的关联文本的准确性和有效性也可以提高。
又如,在搜索引擎应用场景中,终端设备将于用户输入的搜索关键词发送至数据处理服务器,数据处理服务器将接收到的搜索关键词作为目标词,基于预存的文本数据库或互联网中的文本数据,确定目标词的相似词,然后从相似词中区分出目标词的反义词并剔除得到的反义词。基于目标词的近义词进行搜索,将包含目标词及包含目标词的近义词的内容均反馈至终端设备,可以进行更全面地搜索,收集更多的相关信息。
如图6所示的应用场景中,用户在通过终端设备11上的搜索引擎向数据处理服务器12发送搜索关键词“图像识别”,数据处理服务器12将接收到的搜索关键词作为目标词,在预存的文本数据库中查找包括该目标词的文本数据,通过上述方法从目标词的相似词中确定目标词的同义词,剔除目标词的反义词,然后再在互联网中进行搜索,可以将包含目标词及包含目标词的同义词的内容全部检索到,并反馈至终端设备11。
下文进一步介绍本申请实施例提供的数据识别方法,在一些实施例中,上述步骤S201中,可以通过如下方法获取目标词对应的相似词:
可以预先在文本数据中标记出需要进行识别的词语,即目标词或候选词。具体地,在一种实施例中,可以根据文本数据中各个词语的词性,确定需要进行识别的词语。例如,将文本数据中的动词作为需要进行识别的词语,或者,将文本数据中的形容词作为需要进行识别的词语。在另一种实施例中,可以由用户预先标记需要进行识别的词语。
可选地,可以通过词向量模型对多个文本数据进行处理,例如,文本数据可以包括“我喜欢这部手机”、“我偏爱这款电脑”、“我讨厌那个房间”等等。对多个文本数据进行处理后,得到每个文本数据中需要进行识别的词语的词向量,计算每两个词语的词向量之间的距离,确定每两个词语的相似度。可以将上述的任意一个词语作为目标词,将其他词语作为该目标词的候选词,根据该目标词与每个候选词的相似度,确定与该目标词的相似度最高的前5个候选词作为目标词的相似词。
示例性地,在一种实施例中,对于目标词“喜欢”、“好”和“高”,可以分别得到如表1 中所记载的相似词。其中,每个目标词与对应的相似词可以组成相似词集合。
Figure 483044DEST_PATH_IMAGE001
在上述步骤S202中,可以通过如下方法分别确定目标词和相似词所在的文本数据的情感类别:
对于包括表1中的目标词和相似词在内的所有词语所在的文本数据,从所有文本数据中抽取部分文本数据,将抽取的文本数据划分为训练样本集和测试样本集。训练样本集中的文本数据可以称为训练文本,测试样本集中的文本数据可以称为测试文本,为训练文本和测试文本标注情感类别标签。在一种实施例中,文本数据的情感类别标签可以是二分类标签,比如褒义或贬义,标记情感类别标签时可以标记为1或-1。对应地,分类模型可以是二分类模型,如logit probit(逻辑回归)模型等。在另外的实施例中,文本数据的情感类别标签的类别也可以多于两类,本申请实施例对此不作限制。
采用上述训练样本集对分类模型进行训练,训练过程可以如图3所示,包括:
步骤S301,从训练样本集中抽取训练文本。
步骤S302,将抽取的训练文本输入待训练的分类模型,得到分类模型输出的训练文本的情感类别。
步骤S303,根据训练文本的情感类别与预先标记的训练文本的情感类别标签,确定损失值。
计算损失值时,可以采用预设的损失函数计算损失值,损失函数可以采用交叉熵损失函数,例如Sigmoid函数。通常,损失值是判定实际的输出与期望的输出的接近程度。损失值越小,说明实际的输出越接近期望的输出。
步骤S304,判断损失值是否收敛;如果是,执行步骤S306;如果否,执行步骤S305。
判断损失值是否收敛至预设的期望值,如果损失值小于或等于预设的期望值,或者,连续N次训练得到的损失值的变化幅度小于或等于预设的期望值时,认为损失值已收敛至预设的期望值,说明损失值收敛;否则,说明损失值尚未收敛。
步骤S305,根据损失值对分类模型的参数进行调整。
如果损失值尚未收敛,可以采用反向传播算法,根据损失值调整分类模型的参数,然后返回步骤S301继续抽取训练文本对分类模型进行训练。
步骤S306,将当前参数作为分类模型的参数,获得已训练的分类模型。
一轮训练完成后,可以采用测试样本集对得到的分类模型进行测试,测试过程与训练过程相似。如果分类模型输出的测试文本的情感类别与测试文本的情感类别标签之间的差异不满足期望值,则通过图3所示的方法重新对分类模型进行训练。如果分类模型输出的测试文本的情感类别与测试文本的情感类别标签之间的差异满足期望值,则已训练的分类模型可用,可用使用训练得到的分类模型确定未标记的文本数据的情感类别。
在另一些实施例中,也可以通过其它方式获取用于训练分类模型的训练样本集,训练样本集的训练文本中可以不包括目标词和候选词,但训练样本集中的训练文本需要预先标注情感类别标签。如果通过其它方式获取训练样本集,采用训练样本集训练得到分类模型后,可以采用分类模型对所有文本数据进行情感类别的判定,而不需要人工为部分文本数据标注情感类别标签。
在上述步骤S202中,根据训练文本数据的词序列结构确定词序列结构类别的过程可以如图4所示,包括如下步骤:
步骤S401,获取包括多个训练文本数据的词序列结构的序列数据集。
在一种可选的实施例中,可以将上文中已经标记出需要进行识别的词语的文本数据作为训练文本数据,训练文本数据中需要进行识别的词语可以是目标词、目标词的相似词或候选词,可以按照需要进行识别的词语所属的相似词集合为训练文本数据中需要进行识别的词语设置类别标签。训练文本数据的词序列结构可以由训练文本数据中各个词按照其在文本数据中出现的顺序排列而成,或者由训练文本数据中各个词对应的词性标签按照各个词在训练文本数据中出现的顺序排列而成。词序列结构中包含需要进行识别的词语的类别标签。需要说明的是,在一些实施例中,上述文本数据或训练文本数据中的词也可以是单个字。
例如,在一种实施例中,可以将“喜欢”及其相似词的类别标签标记为C1,将“好”及其相似词的类别标签标记为C2。对于训练文本数据“我偏爱这款电脑”,其中,“我”是代词,其词性标签为r,“偏爱”为需要识别的词语,其类别标签为C1,“这款”是代词,其词性标签为r,“电脑”是名词,其词性标签为n。将训练文本数据中各个词对应的词性标签按照各个词在训练文本数据中出现的顺序排列组成该训练文本数据的词序列结构,得到训练文本数据“我偏爱这款电脑”的词序列结构为“rC1rn”。
在另一种实施例中,可以将“喜欢”及其相似词的类别标签标记为“*”,将“好”及其相似词的类别标签标记为“#”,将“高”及其相似词的类别标签标记为“&”。对于训练文本数据“我喜欢香蕉”,将训练文本数据中各个词按照其在文本数据中出现的顺序排列组成该训练文本数据的词序列结构,得到训练文本数据“我喜欢香蕉”的词序列结构为“我*香蕉”。
可选地,部分训练文本数据也可以是随机获取的文本数据,其中可能不包括需要进行识别的词语,因此也不包括需要进行识别的词语的类别标签。
步骤S402,确定在各个训练文本数据的词序列结构中出现次数大于最小支持度的频繁序列模式。
其中,最小支持度可以是预先设定的值,或者是根据序列数据集中包括的词序列结构的数量确定的。
步骤S403,将频繁序列模式的置信度大于或等于设定置信度阈值的频繁序列模式作为词序列结构类别。
其中,频繁序列模式的置信度是根据频繁序列模式在包含类别标签的词序列结构中的出现次数以及频繁序列模式在所有词序列结构中出现的总次数的比值确定的。
示例性地,在一种实施例中,获取的序列数据集中的词序列结构如表2所示。其中,“a”代表形容词,“r”代表代词,“d” 代表副词,“n” 代表名词,“g”代表助词,“f”代表动词,“e”代表象声词,“k”代表虚词。
Figure 665763DEST_PATH_IMAGE002
可以采用CSR(Class Sequential Rules,类序列规则)挖掘序列数据集中的词序列结构的词序列结构类别。CSR的工作原理如下:
CSR是由类别标签和词性序列结构组成的规则,二者之间构成一种映射关系,可以 形式化表述为:
Figure 648763DEST_PATH_IMAGE003
,具体描述该映射关系如下:X为一个序列,表述为
Figure 637448DEST_PATH_IMAGE004
,其中S指的是序列数据集,为一系列元组<sid,s>组成的集 合,如上述表2所示的序列数据集。sid为一个序列的标号,而s指的是词性序列结构,
Figure 717399DEST_PATH_IMAGE005
表 示的是该词性序列结构对应的可能的类别。Y为另一个序列,表述为
Figure 743124DEST_PATH_IMAGE006
,其中
Figure 275736DEST_PATH_IMAGE007
S定义同上,
Figure 51800DEST_PATH_IMAGE008
为确定的类别 标签,如上述的C1、C2等,
Figure 986258DEST_PATH_IMAGE009
为类别标签的集合。CSR要求词性序列结 构带有类别标签。
CSR将满足最小支持度和置信度阈值的序列模式挖掘出来作为词序列结构类别。 以表2为例,该序列数据库中含有5条词性序列结构,对于编号为1的词性序列结构,其符合 的类序列规则为
Figure 182884DEST_PATH_IMAGE010
,编号为5的词性序列结构也 包含同样的类序列规则,并且,编号为1的词性序列结构和编号为5的词性序列结构的类别 标签均为C1,因此,在表2中的5条数据元组里,该类序列规则的支持度为2/5。而编号为1,2 和5的词性序列结构都覆盖了该类序列规则,但是编号为2的词性序列结构不包含类别标 签,因此,该类序列规则的置信度为2/3。
同理,可以确定其他类序列规则对于的支持度和置信度,将满足最小支持度和置信度阈值的类序列规则作为挖掘得到的词序列结构类别。其中,满足最小支持度的类序列规则可以称为频繁序列模式。
根据类序列规则的定义,CSR先确定了类,再根据类别来挖掘规则。在类序列规则
Figure 202793DEST_PATH_IMAGE011
中,左侧是序列模式,右侧是对应的类别标 签,通过上述对应的映射关系将序列模式和类别标签绑定在一起。CSR挖掘的目标是找到与 类别标签具有高度相关性的序列模式,挖掘序列模式和类别标签之间对应的规则。由此可 见,CSR的特点是有监督和预先给定类别。
在一些实施例中,也可以更细致的划分序列数据集,将同一相似词集合中的词语所在的训练文本数据的词序列结构组成一个序列数据集,如果包含多个相似词集合,可以对应生成多个序列数据集,分别挖掘每个序列数据集中的词序列结构类别。
考虑到各个序列数据集中所包含的词序列结构的数量差别较大,使用单一固定的最小支持度进行类序列规则挖掘并不合适,例如,如果要挖掘低频序列,需要将最小支持度阈值降低,但会引入大量由高频词产生的类序列规则,引入噪音。基于此,本申请实施例使用多最小支持度策略,即最小支持度可以动态调整。具体地,最小支持度min_sup可以根据序列数据集中包括的词序列结构的数量确定,可以采用公式min_sup=a*n表示,其中,n为序列数据集中包括的词序列结构的数量,a为设定的最小支持率。a可以是经过实验测试设定的值,例如,a可以设置为0.01到0.1之间的值,设置较高的最小支持度可以保证挖掘规则的精度,再次迭代挖掘保证查全率。
在一些实施例中,可以通过如下方法确定序列数据集中的频繁序列模式,具体包括如下步骤:
步骤一,确定序列数据集中包含的设定长度的每个词序列前缀及每个词序列前缀对应的投影数据集。
其中,词序列前缀由词序列结构中包含的分词按照分词在词序列结构中出现的顺序组成,词序列前缀对应的投影数据集由词序列前缀在各个词序列结构中对应的后缀组成,词序列前缀在各个词序列结构中对应的后缀包括各个词序列结构中位于词序列前缀之后的各个分词。如果序列数据集中的词序列结构是由训练文本数据中各个词对应的词性标签按照各个词在训练文本数据中出现的顺序排列而成的,如表2所示,则词序列前缀及其对应的后缀中的分词也可以由分词的词性标签代替。
在一种可选的实施例中,设定长度可以是1,即找出序列数据集中单位长度为1的所有词序列前缀及每个词序列前缀对应的投影数据集。序列数据集中包括属于同一相似词集合中的词语所在的训练文本数据的词序列结构。
为了更便于理解,下文使用较少数量的词序列结构进行示例性说明,在实际应用 中,序列数据集中的词序列结构的数量较多。例如,对于“大”和“小”组成的相似词集合,其 类别标签为“
Figure 267701DEST_PATH_IMAGE012
”,序列数据集S1中包括“这个酒店的房间很
Figure 56665DEST_PATH_IMAGE012
性价比高”和“这个酒店房 间很
Figure 689772DEST_PATH_IMAGE012
性价比很低”2个词序列结构。其中,“#”代表其它相似词集合中的词语。该序列数据 集S1中包括单位长度为1的如下词序列前缀:“这个”、“酒店”、“房间”、“很”、“
Figure 196977DEST_PATH_IMAGE012
”、“性价 比”、“高”、“低”。以词序列前缀“这个”为例,其对应的投影数据集为“酒店房间很
Figure 550729DEST_PATH_IMAGE012
性价 比;酒店房间很
Figure 459779DEST_PATH_IMAGE012
性价比很”。
步骤二,对于在各个词序列结构中的出现次数大于最小支持度的每个频繁词序列前缀,将频繁词序列前缀添加至频繁序列数据集,并将频繁词序列前缀与对应的投影数据集中的分词合并,得到迭代词序列前缀。
步骤三,对于每个迭代词序列前缀,重复执行确定迭代词序列前缀对应的投影数据集,以及将在各个词序列结构中的出现次数大于最小支持度的频繁迭代词序列前缀添加至频繁序列数据集,并将频繁迭代词序列前缀与对应的投影数据集中的分词合并的步骤,直至迭代词序列前缀对应的投影数据集为空。
其中,最小支持度为最小支持率与序列数据集中包含的词序列结构的数量的乘积。假设最小支持率为0.5,上述示例中,序列数据集S1中包含的词序列结构的数量为2,则最小支持度为0.5*2=1。即词序列前缀在序列数据集S1的2个词序列结构中至少出现2次,才能满足最小支持度要求。
例如,对于上述单位长度为1的词序列前缀可以称为一项前缀。统计各个一项前缀在词序列结构中出现的次数,将出现次数大于最小支持度的一项前缀作为频繁词序列前缀,将频繁词序列前缀添加至频繁序列数据集,过滤掉不能满足最小支持度要求的一项前缀,得到频繁序列数据集中各个一项前缀对应的词频统计如表3所示
Figure 998208DEST_PATH_IMAGE013
表3中的各个一项前缀对应的投影数据集如表4所示,分别为:
Figure 320605DEST_PATH_IMAGE014
将频繁序列数据集中的频繁词序列前缀与对应的投影数据集中的分词合并,得到迭代词序列前缀,将其中出现次数大于最小支持度的频繁迭代词序列前缀添加至频繁序列数据集。例如,以一项前缀“这个”为例进行下一轮迭代,挖掘二项前缀和对应的投影数据集,各个二项前缀对应的投影数据集如表5所示。其他一项前缀挖掘对应二项前缀和对应的投影数据集的方法与其一致。
Figure 664998DEST_PATH_IMAGE015
以二项前缀“这个酒店”为例进行下一轮迭代,挖掘三项前缀和对应的投影数据集,各个三项前缀对应的投影数据集如表6所示。其他二项前缀挖掘对应三项前缀和对应的投影数据集的方法与其一致。
Figure 366238DEST_PATH_IMAGE016
以三项前缀“这个酒店房间”为例进行下一轮迭代,挖掘四项前缀和对应的投影数据集,各个四项前缀对应的投影数据集如表7所示。其他三项前缀挖掘对应四项前缀和对应的投影数据集的方法与其一致。
Figure 403464DEST_PATH_IMAGE017
以四项前缀“这个酒店房间很”为例进行下一轮迭代,挖掘五项前缀和对应的投影数据集,各个五项前缀对应的投影数据集如表8所示。其他四项前缀挖掘对应五项前缀和对应的投影数据集的方法与其一致。
Figure 931266DEST_PATH_IMAGE018
以五项前缀“这个酒店房间很
Figure 79351DEST_PATH_IMAGE012
”为例进行下一轮迭代,挖掘六项前缀和对应的投 影数据集,各个六项前缀对应的投影数据集如表9所示。其他五项前缀挖掘对应六项前缀和 对应的投影数据集的方法与其一致。
Figure 635097DEST_PATH_IMAGE019
对于六项前缀“这个酒店房间很
Figure 843225DEST_PATH_IMAGE012
性价比”,挖掘七项前缀得到的“这个酒店房间 很
Figure 609055DEST_PATH_IMAGE012
性价比很”对应的投影数据集为空,因此迭代结束,得到各个长度的词序列前缀及对应 的支持度。通过上述过程,频繁词序列前缀和频繁迭代词序列前缀均包含在频繁序列数据 集中。
在另一种实施例中,序列数据集中的词序列结构是由训练文本数据中各个词对应的词性标签排列组成。例如,序列数据集S2中包括“radC1gn”和“raC1fgn”2个词序列结构。其中,“C1”代表训练文本数据中该位置的词的类别标签。该序列数据集S2中包括单位长度为1的如下词序列前缀:“r”、“a”、“d”、“C1”、“f”、“g”、“n”。以词序列前缀“r”为例,其对应的投影数据集为“adC1gn;aC1fgn”。假设在该实施例中,最小支持率也为0.5。
对于上述单位长度为1的词序列前缀可以称为一项前缀。统计各个一项前缀在词序列结构中出现的次数,将出现次数大于最小支持度的一项前缀作为频繁词序列前缀,将频繁词序列前缀添加至频繁序列数据集,过滤掉不能满足最小支持度要求的一项前缀,得到频繁序列数据集中各个一项前缀对应的词频统计如表10所示。
Figure 498514DEST_PATH_IMAGE020
表10中的各个一项前缀对应的投影数据集如表11所示,其中,“n”对应的投影数据集为空,在表11中未列出。
Figure 236663DEST_PATH_IMAGE021
将频繁序列数据集中的频繁词序列前缀与对应的投影数据集中的分词合并,得到迭代词序列前缀,将其中出现次数大于最小支持度的频繁迭代词序列前缀添加至频繁序列数据集。例如,以一项前缀“r”为例进行下一轮迭代,挖掘二项前缀和对应的投影数据集,各个二项前缀对应的投影数据集如表12所示。其他一项前缀挖掘对应二项前缀和对应的投影数据集的方法与其一致。
Figure 428741DEST_PATH_IMAGE022
以二项前缀“ra”为例进行下一轮迭代,挖掘三项前缀和对应的投影数据集,各个三项前缀对应的投影数据集如表13所示。其他二项前缀挖掘对应三项前缀和对应的投影数据集的方法与其一致。
Figure 619551DEST_PATH_IMAGE023
以三项前缀“raC1”为例进行下一轮迭代,挖掘四项前缀和对应的投影数据集,各个四项前缀对应的投影数据集如表14所示。
Figure 47121DEST_PATH_IMAGE024
对于四项前缀“raC1g”,挖掘五项前缀得到的“raC1gn”对应的投影数据集为空,因此迭代结束,得到各个长度的词序列前缀及对应的支持度。通过上述过程,频繁词序列前缀和频繁迭代词序列前缀均包含在频繁序列数据集中。
进一步地说,在一些实施例中,可以通过序列模式挖掘算法Prefixspan确定序列数据集中的频繁序列模式,具体包括如下步骤:
步骤a1,找出序列数据集中单位长度为1的词序列前缀和对应投影数据集。
步骤b1,统计词序列前缀出现频率,并将支持度高于最小支持度阈值的前缀添加到数据集,获取频繁一项集词序列模式。
步骤c1,对所有长度为i且满足最小支持度要求的词序列前缀递归挖掘:
1)挖掘前缀的投影数据集,如果投影数据为空集合,则返回递归;
2)统计对应投影数据集中各项的最小支持度,将满足支持度的各单项与当前词序列前缀合并,得到新的词序列前缀,不满足支持度要求则递归返回;
3)令i=i+1,词序列前缀为合并单项后的各个新的词序列前缀,分别递归执行第3步;
步骤d1,返回该词序列数据集中所有的频繁词序列模式。
在另一些实施例中,可以通过GSP算法确定序列数据集中的频繁序列模式,具体包括如下步骤:
步骤a2,扫描序列数据集,得到长度为1的序列模式L1,作为初始的种子集;
步骤b2,根据长度为i 的种子集Li ,通过连接操作和修剪操作生成长度为i+1的候选序列模式Ci+1;然后扫描序列数据集,计算每个候选序列模式的支持度,产生长度为i+1的序列模式Li+1,并将Li+1作为新的种子集;其中,连接操作包括:如果候选序列模式s1的第一个分词与候选序列模式s2的最后一个分词所得到的序列相同,则可以将s1与s2进行连接,即将s2的最后一个分词添加到s1中。修剪操作包括:若某候选序列模式的某个子序列不是序列模式,则此候选序列模式不可能是序列模式,将它从候选序列模式中删除。
步骤c2,重复步骤b2,直到没有新的序列模式或新的候选序列模式产生为止。
GSP需要多次扫描序列数据集,在第一次扫描中,对所有的单个词序列前缀(1序列模式)进行计数。利用频繁1序列模式生成候选频繁2序列模式,进行第二次扫描并求候选频繁2序列模式的支持数。使用频繁2序列模式生成候选频繁3序列模式,重复以上过程,直到找出所有的频繁序列模式。
步骤四,对得到的频繁序列数据集进行过滤,将过滤后频繁序列数据集中的词序列前缀作为频繁序列模式。
一方面,删除频繁序列数据集中不包含类别标签的词序列前缀,只保留包含类别标签的词序列前缀。另一方面,对于频繁序列数据集中的任意两个词序列前缀,将其中一个作为第一词序列前缀,另一个作为第二词序列前缀,如果第一词序列前缀包含第二词序列前缀,则从频繁序列数据集中删除第二词序列前缀。同理,如果第二词序列前缀包含第一词序列前缀,则从频繁序列数据集中删除第一词序列前缀。
示例性地,频繁序列数据集中的词序列前缀可以称为词序列结构的序列模式。以词语窗口内的词为词语w所在上下文Context(w),Context(w)由w前后各n个词组成,对每个词语挖掘其上下文窗口内包含的序列模式,对于挖掘的各个长度的序列模式进行包含关系判断,从而进行子序列模式过滤。
例如,如果某个序列A所有的项集在序列B中的项集都可以找到,则A就是B的子序 列。根据该定义,对于序列
Figure 374197DEST_PATH_IMAGE025
和序列
Figure 986444DEST_PATH_IMAGE026
,
Figure 664550DEST_PATH_IMAGE027
,如果 存在数字序列
Figure 895811DEST_PATH_IMAGE028
, 满足
Figure 342973DEST_PATH_IMAGE029
,则称序列A是序列B的子序列。反过来,序列B是序列A的超序列。
对于以上步骤挖掘得到的同组相似词语的各窗口内的各个频繁词序列,如果超序列本身含有更多的参考信息,即超序列包含子序列未包含的上下文辅助词,保留超序列作为模式,删除子序列。
以超序列“这个酒店房间很
Figure 387108DEST_PATH_IMAGE030
性价比”与子序列“这个酒店房间很
Figure 490193DEST_PATH_IMAGE030
”为例,超序 列在子序列的基础上还包括了上下文辅助词信息“性价比”,因此保留超序列模式,删除子 序列模式。
Figure 321883DEST_PATH_IMAGE031
如表15所示,通过上述方法对包含“我喜欢香蕉”和“我讨厌香蕉”的序列数据集进 行频繁序列模式的挖掘,其中,“喜欢”和“讨厌”的相似词标记,或者说类别标签为“
Figure 951447DEST_PATH_IMAGE032
”,可 以得到频繁序列模式“我
Figure 577601DEST_PATH_IMAGE032
香蕉”。通过上述方法对包含“这个酒店的房间很棒 性价比高” 和“这个酒店房间很差 性价比很低”的序列数据集进行频繁序列模式的挖掘,其中,对于 “棒”和“差”组成的相似词集合,其相似词标记,或者说类别标签为“
Figure 167982DEST_PATH_IMAGE030
”,可以得到频繁序列 模式“这个酒店房间很
Figure 803363DEST_PATH_IMAGE030
性价比”。对于“高”和“低”组成的相似词集合,其相似词标记,或者 说类别标签为“
Figure 772587DEST_PATH_IMAGE033
”,可以得到频繁序列模式“这个酒店房间很 性价比
Figure 835221DEST_PATH_IMAGE033
”。
通过上述方法得到频繁序列模式之后,将频繁序列模式的置信度大于或等于设定置信度阈值的频繁序列模式作为词序列结构类别。示例性地,设定置信度阈值可以是50%、60%或80%。频繁序列模式的置信度是根据频繁序列模式在包含类别标签的词序列结构中的出现次数以及频繁序列模式在所有词序列结构中出现的总次数的比值确定的。
例如,在一种实施例中,设定置信度阈值为60%,序列数据集S1中包括“这个酒店的 房间很
Figure 647319DEST_PATH_IMAGE030
性价比高”和“这个酒店房间很
Figure 86390DEST_PATH_IMAGE030
性价比很低”2个词序列结构,对于上述步骤四 中得到的频繁序列模式(下文称为频繁序列模式L1)“这个酒店房间很
Figure 424968DEST_PATH_IMAGE030
性价比”,频繁序 列模式L1在序列数据集S1的2个词序列结构中均出现,且2个词序列结构均包含类别标签“
Figure 658503DEST_PATH_IMAGE030
”,则频繁序列模式L1在包含类别标签的词序列结构中的出现次数为2,频繁序列模式L1 在所有词序列结构中出现的总次数为2,因此,频繁序列模式L1的置信度为100%,大于设定 置信度阈值,频繁序列模式L1可以作为一个词序列结构类别。
在一种实施例中,利用上述方法确定不同文本数据的情感类别和词序列结构类别,如表16所示。
Figure 957897DEST_PATH_IMAGE034
根据目标词和相似词所在的文本数据的情感类别和词序列结构类别,确定目标词和相似词是同义词还是反义词。例如,由于“我喜欢你”的情感类别标签为1,“我讨厌你”的情感类别标签为-1,且二者的频繁序列模式,或者说词序列结构类别相同,因此可以将“喜欢”和“讨厌”识别为反义词。同理,可以识别得到表17所示的同义词和反义词。
Figure 935081DEST_PATH_IMAGE035
综上所述,本申请实施例提供的数据识别方法能够准确地对同义词和反义词进行识别,从而修正目前词向量普遍存在的相似词中包括反义词的现象,纠正目前词向量计算的相似度结果,能够更好地对词语语义进行识别,具有广泛的应用价值和参考意义。该方法适用于自然语言处理和词向量构建等技术的相关应用场景,如文本翻译、问答系统等,具有广泛的实践意义。
与上述数据识别方法的实施例相对应地,本申请实施例还提供了一种数据识别装置。图7为本申请实施例的提供的文本处理装置的结构示意图;如图8所示,该文本处理装置包括相似词确定单元71、类别确定单元72和相似词区分单元73。
相似词确定单元71,用于基于目标词和各个候选词所在的文本数据,从各个候选词中识别出目标词的相似词;
类别确定单元72,用于分别识别目标词和相似词所在的文本数据的情感类别和词序列结构类别;情感类别用于标识文本数据表达的情感特征,词序列结构类别用于标识文本数据中的各个词组成的词序列结构特征;
相似词区分单元73,用于当目标词和相似词所在的文本数据的情感类别不同但词序列结构类别相同时,将相似词识别为目标词的反义词;当目标词和相似词所在的文本数据的情感类别相同且词序列结构类别相同时,将相似词识别为目标词的同义词。
在一种可选的实施例中,相似词确定单元71,具体用于:
通过词向量模型对目标词所在的文本数据进行处理,得到目标词的词向量,并通过词向量模型分别对各个候选词所在的文本数据进行处理,得到各个候选词的词向量;
根据目标词的词向量与各个候选词的词向量之间的距离,确定各个候选词与目标词的相似度;
将与目标词的相似度满足预设条件的候选词作为目标词的相似词。
在一种可选的实施例中,类别确定单元72,具体用于:
分别确定目标词和相似词所在的文本数据的词序列结构;
对于每个文本数据,在获取的词序列结构类别中,查找与文本数据的词序列结构相匹配的词序列结构类别,并将查找到的词序列结构类别作为文本数据的词序列结构类别,词序列结构类别是根据训练文本数据的词序列结构确定的,训练文本数据是从历史文本数据中获得的。
在一种可选的实施例中,类别确定单元72,还用于:获取包括多个训练文本数据的词序列结构的序列数据集;训练文本数据中包括目标词或候选词,部分或全部词序列结构中包含目标词或候选词的类别标签;
确定各个训练文本数据的词序列结构中的序列结构模式;
将在所有词序列结构中出现次数大于最小支持度的序列结构模式作为频繁序列模式;最小支持度是根据序列数据集中包括的词序列结构的数量确定的;
将频繁序列模式的置信度大于或等于设定置信度阈值的频繁序列模式作为词序列结构类别,频繁序列模式的置信度是根据频繁序列模式在包含类别标签的词序列结构中的出现次数以及频繁序列模式在所有词序列结构中出现的总次数的比值确定的。
在一种可选的实施例中,类别确定单元72,还用于:确定序列数据集中包含的设定长度的每个词序列前缀及每个词序列前缀对应的投影数据集;词序列前缀由词序列结构中包含的分词按照分词在词序列结构中出现的顺序组成,词序列前缀对应的投影数据集由词序列前缀在各个词序列结构中对应的后缀组成,词序列前缀在各个词序列结构中对应的后缀包括各个词序列结构中位于词序列前缀之后的各个分词;
对于在各个词序列结构中的出现次数大于最小支持度的每个频繁词序列前缀,将频繁词序列前缀添加至频繁序列数据集,并将频繁词序列前缀与对应的投影数据集中的分词合并,得到迭代词序列前缀;
对于每个迭代词序列前缀,重复执行确定迭代词序列前缀对应的投影数据集,以及将在各个词序列结构中的出现次数大于最小支持度的频繁迭代词序列前缀添加至频繁序列数据集,并将频繁迭代词序列前缀与对应的投影数据集中的分词合并的步骤,直至迭代词序列前缀对应的投影数据集为空;
对得到的频繁序列数据集进行过滤,将过滤后频繁序列数据集中的词序列前缀作为频繁序列模式。
在一种可选的实施例中,类别确定单元72,还用于:对得到的频繁序列数据集进行过滤,包括:
对于频繁序列数据集中的第一词序列前缀和第二词序列前缀,若第一词序列前缀包含第二词序列前缀,则从频繁序列数据集中删除第二词序列前缀。
在一种可选的实施例中,类别确定单元72,具体用于:
通过已训练的分类模型分别确定目标词和相似词所在的文本数据的情感类别;分类模型是以预先标注的训练文本为输入,以训练文本对应的情感类别标签为输出进行训练得到的。
在一种可选的实施例中,如图8所示,上述数据识别装置还可以包括:
文本推荐单元81,用于在将相似词识别为目标词的反义词或同义词之后,基于目标词的反义词或同义词,确定目标词所在的文本数据对应的文本向量;获取与文本向量相对应的关联文本;输出关联文本。
本申请实施例的数据识别装置,基于目标词和各个候选词所在的文本数据,从各个候选词中识别出目标词的相似词,得到目标词的相似词之后,可以分别确定目标词和相似词所在的文本数据的情感类别和词序列结构类别,将目标词所在的文本数据的情感类别和词序列结构类别与相似词所在的文本数据的情感类别和词序列结构类别进行比较,从而确定目标词与相似词是同义词或反义词。通过上述方法,可以在词语所在的文本数据的词序列结构相同或相似的情况下,对反义词和同义词进行区分,从而提高对文本数据的语义识别的准确度。
与上述方法实施例相对应地,本申请实施例还提供了一种电子设备。该电子设备可以是服务器,如图1中所示的数据处理服务器12,也可以是移动终端或计算机等终端设备,该电子设备至少包括用于存储数据的存储器和用于数据处理的处理器。其中,对于用于数据处理的处理器而言,在执行处理时,可以采用微处理器、CPU、GPU(GraphicsProcessing Unit,图形处理单元)、DSP或FPGA实现。对于存储器来说,存储器中存储有操作指令,该操作指令可以为计算机可执行代码,通过该操作指令来实现上述本申请实施例的文本处理方法的流程中的各个步骤。
图9为本申请实施例提供的一种电子设备的结构示意图;如图9所示,本申请实施例中该电子设备100包括:处理器101、显示器102、存储器103、输入设备106、总线105和通讯模块104;该处理器101、存储器103、输入设备106、显示器102和通讯模块104均通过总线105连接,该总线105用于该处理器101、存储器103、显示器102、通讯模块104和输入设备106之间传输数据。
其中,存储器103可用于存储软件程序以及模块,如本申请实施例中的文本处理方法对应的程序指令/模块,处理器101通过运行存储在存储器103中的软件程序以及模块,从而执行电子设备100的各种功能应用以及数据处理,如本申请实施例提供的文本处理方法。存储器103可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个应用的应用程序等;存储数据区可存储根据电子设备100的使用所创建的数据(比如文本的解释信息、及训练好的各个网络模型等相关数据)等。此外,存储器103可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
处理器101是电子设备100的控制中心,利用总线105以及各种接口和线路连接整个电子设备100的各个部分,通过运行或执行存储在存储器103内的软件程序和/或模块,以及调用存储在存储器103内的数据,执行电子设备100的各种功能和处理数据。可选的,处理器101可包括一个或多个处理单元,如CPU、GPU、数字处理单元等。
处理器101可以将文本数据的处理结果通过显示器102展示给用户。
处理器101还可以通过通讯模块104连接网络,获取文本数据等。
输入设备106主要用于获得用户的输入操作,当该电子设备不同时,该输入设备106也可能不同。例如,当该电子设备为计算机时,该输入设备106可以为鼠标、键盘等输入设备;当该电子设备为智能手机、平板电脑等便携设备时,该输入设备106可以为触控屏。
本申请实施例还提供了一种计算机存储介质,该计算机存储介质中存储有计算机可执行指令,该计算机可执行指令用于实现本申请任一实施例所记载的数据处理方法。
在一些可能的实施方式中,本申请提供的文本处理方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在计算机设备上运行时,所述程序代码用于使所述计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的数据处理方法的步骤,例如,所述计算机设备可以执行如图2所示的步骤S201~S203的数据处理方法的流程。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。

Claims (15)

1.一种数据识别方法,其特征在于,包括:
基于目标词和各个候选词所在的文本数据,从所述各个候选词中识别出所述目标词的相似词;
分别识别所述目标词和相似词所在的文本数据的情感类别和词序列结构类别;所述情感类别用于标识文本数据表达的情感特征,所述词序列结构类别用于标识文本数据中的各个词组成的词序列结构特征;
当所述目标词和相似词所在的文本数据的情感类别不同但词序列结构类别相同时,将所述相似词识别为所述目标词的反义词;
当所述目标词和相似词所在的文本数据的情感类别相同且词序列结构类别相同时,将所述相似词识别为所述目标词的同义词。
2.根据权利要求1所述的方法,其特征在于,所述基于目标词和各个候选词所在的文本数据,从所述各个候选词中识别出所述目标词的相似词,包括:
通过词向量模型对所述目标词所在的文本数据进行处理,得到所述目标词的词向量,并通过词向量模型分别对所述各个待选词所在的文本数据进行处理,得到所述各个待选词的词向量;
根据所述目标词的词向量与所述各个待选词的词向量之间的距离,确定所述各个待选词与所述目标词的相似度;
将与所述目标词的相似度满足预设条件的待选词作为所述目标词的相似词。
3.根据权利要求1所述的方法,其特征在于,分别识别所述目标词和相似词所在的文本数据的词序列结构类别,包括:
分别确定所述目标词和所述相似词所在的文本数据的词序列结构;
词序列结构类别是根据训练文本数据的词序列结构确定的,所述训练文本数据是从历史文本数据中获得的,对于每个文本数据,在获取的词序列结构类别中,查找与文本数据的词序列结构相匹配的词序列结构类别,并将查找到的词序列结构类别作为文本数据的词序列结构类别。
4.根据权利要求3所述的方法,其特征在于,所述词序列结构类别的确定过程,包括:
获取包括多个训练文本数据的词序列结构的序列数据集;所述训练文本数据中包括所述目标词或候选词,部分或全部词序列结构中包含目标词或候选词的类别标签;
确定在各个训练文本数据的词序列结构中出现次数大于最小支持度的频繁序列模式;所述最小支持度是根据所述序列数据集中包括的词序列结构的数量确定的;
将频繁序列模式的置信度大于或等于设定置信度阈值的频繁序列模式作为词序列结构类别,所述频繁序列模式的置信度是根据所述频繁序列模式在包含类别标签的词序列结构中的出现次数以及所述频繁序列模式在所有词序列结构中出现的总次数的比值确定的。
5.根据权利要求4所述的方法,其特征在于,所述频繁序列模式的确定过程,包括:
确定所述序列数据集中包含的设定长度的每个词序列前缀及每个词序列前缀对应的投影数据集;所述词序列前缀由词序列结构中包含的分词按照分词在词序列结构中出现的顺序组成,所述词序列前缀对应的投影数据集由所述词序列前缀在各个词序列结构中对应的后缀组成,所述词序列前缀在各个词序列结构中对应的后缀包括所述各个词序列结构中位于所述词序列前缀之后的各个分词;
对于在各个词序列结构中的出现次数大于最小支持度的每个频繁词序列前缀,将频繁词序列前缀添加至频繁序列数据集,并将频繁词序列前缀与对应的投影数据集中的分词合并,得到迭代词序列前缀;
对于每个迭代词序列前缀,重复执行确定迭代词序列前缀对应的投影数据集,以及将在各个词序列结构中的出现次数大于最小支持度的频繁迭代词序列前缀添加至频繁序列数据集,并将频繁迭代词序列前缀与对应的投影数据集中的分词合并的步骤,直至所述迭代词序列前缀对应的投影数据集为空;
对得到的频繁序列数据集进行过滤,将过滤后频繁序列数据集中的词序列前缀作为频繁序列模式。
6.根据权利要求5所述的方法,其特征在于,对得到的频繁序列数据集进行过滤,包括:
对于频繁序列数据集中的第一词序列前缀和第二词序列前缀,若所述第一词序列前缀包含所述第二词序列前缀,则从所述频繁序列数据集中删除所述第二词序列前缀。
7.根据权利要求1所述的方法,其特征在于,分别识别所述目标词和相似词所在的文本数据的情感类别,包括:
通过已训练的分类模型分别确定所述目标词和相似词所在的文本数据的情感类别;所述分类模型是以预先标注的训练文本为输入,以训练文本对应的情感类别标签为输出进行训练得到的。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在将所述相似词识别为所述目标词的反义词或同义词之后,基于所述目标词的反义词或同义词,确定所述目标词所在的文本数据对应的文本向量;
获取与所述文本向量相对应的关联文本;
输出所述关联文本。
9.一种数据识别装置,其特征在于,包括:
相似词确定单元,用于基于目标词和各个候选词所在的文本数据,从所述各个候选词中识别出所述目标词的相似词;
类别确定单元,用于分别识别所述目标词和相似词所在的文本数据的情感类别和词序列结构类别;所述情感类别用于标识文本数据表达的情感特征,所述词序列结构类别用于标识文本数据中的各个词组成的词序列结构特征;
相似词区分单元,用于当所述目标词和相似词所在的文本数据的情感类别不同但词序列结构类别相同时,将所述相似词识别为所述目标词的反义词;当所述目标词和相似词所在的文本数据的情感类别相同且词序列结构类别相同时,将所述相似词识别为所述目标词的同义词。
10.根据权利要求9所述的装置,其特征在于,所述类别确定单元,具体用于:
通过词向量模型对所述目标词所在的文本数据进行处理,得到所述目标词的词向量,并通过词向量模型分别对所述各个待选词所在的文本数据进行处理,得到所述各个待选词的词向量;
根据所述目标词的词向量与所述各个待选词的词向量之间的距离,确定所述各个待选词与所述目标词的相似度;
将与所述目标词的相似度满足预设条件的待选词作为所述目标词的相似词。
11.根据权利要求9所述的装置,其特征在于,所述类别确定单元,具体用于:
分别确定所述目标词和所述相似词所在的文本数据的词序列结构;
词序列结构类别是根据训练文本数据的词序列结构确定的,所述训练文本数据是从历史文本数据中获得的,对于每个文本数据,在获取的词序列结构类别中,查找与文本数据的词序列结构相匹配的词序列结构类别,并将查找到的词序列结构类别作为文本数据的词序列结构类别。
12.根据权利要求9所述的装置,其特征在于,所述类别确定单元,具体用于:
通过已训练的分类模型分别确定所述目标词和相似词所在的文本数据的情感类别;所述分类模型是以预先标注的训练文本为输入,以训练文本对应的情感类别标签为输出进行训练得到的。
13.根据权利要求9所述的装置,其特征在于,所述装置还包括:
文本推荐单元,用于在将所述相似词识别为所述目标词的反义词或同义词之后,基于所述目标词的反义词或同义词,确定所述目标词所在的文本数据对应的文本向量;获取与所述文本向量相对应的关联文本;输出所述关联文本。
14.一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,其特征在于:所述计算机程序被处理器执行时,实现权利要求1~8任一项所述的方法。
15.一种电子设备,其特征在于,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,当所述计算机程序被所述处理器执行时,使得所述处理器实现权利要求1~8任一项所述的方法。
CN202010458280.6A 2020-05-27 2020-05-27 一种数据识别方法、装置、存储介质和电子设备 Active CN111368555B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010458280.6A CN111368555B (zh) 2020-05-27 2020-05-27 一种数据识别方法、装置、存储介质和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010458280.6A CN111368555B (zh) 2020-05-27 2020-05-27 一种数据识别方法、装置、存储介质和电子设备

Publications (2)

Publication Number Publication Date
CN111368555A CN111368555A (zh) 2020-07-03
CN111368555B true CN111368555B (zh) 2020-08-28

Family

ID=71209675

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010458280.6A Active CN111368555B (zh) 2020-05-27 2020-05-27 一种数据识别方法、装置、存储介质和电子设备

Country Status (1)

Country Link
CN (1) CN111368555B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112784584B (zh) * 2020-12-23 2024-01-26 北京泰豪智能工程有限公司 一种文本数据元语义识别方法及装置
CN112926315B (zh) * 2021-05-11 2021-08-03 北京嘉和海森健康科技有限公司 一种医疗术语自动标准化方法和装置
CN113157727B (zh) * 2021-05-24 2022-12-13 腾讯音乐娱乐科技(深圳)有限公司 提供召回结果的方法、设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106557463A (zh) * 2016-10-31 2017-04-05 东软集团股份有限公司 情感分析方法及装置
CN110866398A (zh) * 2020-01-07 2020-03-06 腾讯科技(深圳)有限公司 评论文本处理方法、装置、存储介质和计算机设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10853440B2 (en) * 2017-06-19 2020-12-01 Salesforce.Com, Inc. Displaying an object having a link to a database record in response to a user selection of a highlighted reference
CN108804512B (zh) * 2018-04-20 2020-11-24 平安科技(深圳)有限公司 文本分类模型的生成装置、方法及计算机可读存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106557463A (zh) * 2016-10-31 2017-04-05 东软集团股份有限公司 情感分析方法及装置
CN110866398A (zh) * 2020-01-07 2020-03-06 腾讯科技(深圳)有限公司 评论文本处理方法、装置、存储介质和计算机设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
中文文本情感分析方法研究;徐小龙;《电脑知识与技术》;20180115;全文 *

Also Published As

Publication number Publication date
CN111368555A (zh) 2020-07-03

Similar Documents

Publication Publication Date Title
CN111353310B (zh) 基于人工智能的命名实体识别方法、装置及电子设备
US11537820B2 (en) Method and system for generating and correcting classification models
CN111708873B (zh) 智能问答方法、装置、计算机设备和存储介质
AU2018383346B2 (en) Domain-specific natural language understanding of customer intent in self-help
AU2019200437B2 (en) A method to build an enterprise-specific knowledge graph
Irfan et al. A survey on text mining in social networks
US11501080B2 (en) Sentence phrase generation
US20170161619A1 (en) Concept-Based Navigation
CN111368555B (zh) 一种数据识别方法、装置、存储介质和电子设备
CN111898374B (zh) 文本识别方法、装置、存储介质和电子设备
US20110218947A1 (en) Ontological categorization of question concepts from document summaries
Ling et al. Integrating extra knowledge into word embedding models for biomedical NLP tasks
CN111274358A (zh) 文本处理方法、装置、电子设备及存储介质
WO2016033239A1 (en) Data clustering system and methods
WO2018207013A1 (en) Entity model establishment
CN111694941B (zh) 一种回复信息确定方法、装置、存储介质及电子设备
CN112417170B (zh) 面向不完备知识图谱的关系链接方法
CN117851444B (zh) 一种基于语义理解下的高级搜索方法
CN115714002B (zh) 抑郁风险检测模型训练方法、抑郁症状预警方法及相关设备
WO2022268495A1 (en) Methods and systems for generating a data structure using graphical models
KR20240023535A (ko) 텍스트 데이터의 자동 라벨링
US11361031B2 (en) Dynamic linguistic assessment and measurement
Klochikhin et al. Text analysis
Lau et al. Learning context-sensitive domain ontologies from folksonomies: A cognitively motivated method
Pinto et al. Intelligent and fuzzy systems applied to language & knowledge engineering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40025789

Country of ref document: HK