CN110222332B

CN110222332B - 基于依存分析实现菜名实体识别的方法

Info

Publication number: CN110222332B
Application number: CN201910354720.0A
Authority: CN
Inventors: 杨晓燕; 庄泽彬; 陈子扬; 徐戈; 李佐勇
Original assignee: Minjiang University
Current assignee: Minjiang University
Priority date: 2019-04-29
Filing date: 2019-04-29
Publication date: 2023-06-16
Anticipated expiration: 2039-04-29
Also published as: CN110222332A

Abstract

本发明提供了一种基于依存分析实现菜名实体识别的方法，包括以下步骤：S1，建立菜名语料库；S2，对所述菜名语料库中每一语料通过哈工大语言技术平台工具进行预处理，包括分词、词性标注、父亲词所在位置的标注以及依存关系的标注；S3，读取当前行，并寻找词性是名词的词语作为候选词；S4，判断候选词与其父亲词的依存关系，判断所述依存关系是否为定中关系、主谓关系或并列关系，是，输出满足依存关系的候选词作为候选菜名并进入步骤S5，否，读取下一行，并进入步骤S3；S5，获取候选菜名的父亲词，并判断候选菜名的父亲词与root的关系是否为核心关系，是，输出满足依存关系的候选词作为实际菜名，否，读取下一行，并进入步骤S3。

Description

基于依存分析实现菜名实体识别的方法

技术领域

本发明涉及一种基于依存分析实现菜名实体识别的方法。

背景技术

命名实体识别是文本挖掘的关键技术。命名实体识别包括识别文本中的人名、组织机构名、地名等。相比于一般领域的命名实体，菜名实体识别有以下几个难点：(1)中文菜名种类繁多，无法列出菜名清单；(2)中文复合菜名的构成比较复杂，可以由两种或两种以上单式菜名复合也可以是由其他词与单式菜名复合而成，如香菇菜心、东坡红烧肉、水煮牛肉；(3)因为地域和餐厅不同，所以待识别的菜名可能会产生很多别名，如：黑米饭，乌米饭；(4)待识别的菜名可能会由许多单词修饰，导致实体的边界难以划分，如水煮鱼、酸菜鱼、烤鱼、红烧鱼；(5)有的餐厅为了让菜名生动有趣,在菜名中运用隐喻、借喻、用典等修辞手段,使菜名识别更加困难，如蚂蚁上树，青龙卧雪、龙凤呈祥，这给菜名识别增加难度，因此菜名是命名实体中相对较难识别的一类。

发明内容

本发明提供了一种基于依存分析实现菜名实体识别的方法，可以有效解决上述问题。

本发明是这样实现的：

一种基于依存分析实现菜名实体识别的方法，包括以下步骤：

S1，建立菜名语料库；

S2，对所述菜名语料库中每一语料通过哈工大语言技术平台工具进行预处理，包括分词、词性标注、父亲词所在位置的标注以及依存关系的标注；

S3，读取当前行，并寻找词性是名词的词语作为候选词；

S4，判断候选词与其父亲词的依存关系，判断所述依存关系是否为定中关系、主谓关系或并列关系，是，输出满足依存关系的候选词作为候选菜名并进入步骤S5，否，读取下一行，并进入步骤S3；

S5，获取候选菜名的父亲词，并判断候选菜名的父亲词与root的关系是否为核心关系，是，输出满足依存关系的候选词作为实际菜名，否，读取下一行，并进入步骤S3。

作为进一步改进的，所述建立菜名语料库的步骤包括：

从网络上下载客户对商家的评论文本建立菜名语料库。

本发明的有益效果是：采用本发明基于依存分析实现菜名实体识别的方法实体避免了基于统计方法需要标注大量数据的不足；可以快速的、准确的识别菜名。

附图说明

为了更清楚地说明本发明实施方式的技术方案，下面将对实施方式中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是本发明实施例提供的基于依存分析实现菜名实体识别的方法的流程图。

图2是本发明实施例提供的基于依存分析实现菜名实体识别的方法中对语料进行预处理后的依存关系。

具体实施方式

为使本发明实施方式的目的、技术方案和优点更加清楚，下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。因此，以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

参照图1所示，一种基于依存分析实现菜名实体识别的方法，包括以下步骤：

S1，建立菜名语料库；

S2，对所述菜名语料库中每一语料通过哈工大语言技术平台(LTP)工具进行预处理，包括分词、词性标注、父亲词所在位置的标注以及依存关系的标注；

S3，读取当前行，并寻找词性是名词的词语作为候选词；

在步骤S1中，所述建立菜名语料库的步骤包括：

从网络上下载客户对商家的评论文本建立菜名语料库。

在步骤S2中，LTP采用863词性标注集，其各个词性含义如表1所示。

表1词性含义表

另外，LTP采用的依存句法分析标注15种关系其含义如下：

表2依存关系含义表

SBV	主谓关系	subject-verb
			VOB	动宾关系	verb-object
IOB	间宾关系	indirect-object
			ATT	定中关系	attribute
ADV	状中结构	adverbial
			CMP	动补结构	complement
COO	并列关系	coordinate
			POB	介宾关系	preposition-object
LAD	左附加关系	left adjunct
			RAD	右附加关系	right adjunct
IS	独立结构	independent structure
			HED	核心关系	head

请参照图2，以语料“鱼香肉丝很好吃，我要去超市买鱼了..”为例通过哈工大语言技术平台工具进行预处理，包括分词、词性标注、父亲词所在位置的标注以及依存关系的标注，得到如图2的依存关系。

在步骤S3中，寻找词性是名词的词语，如：“鱼香”、“肉丝”、“超市”以及“鱼”这四个词作为候选词。

在步骤S4中，“鱼香”与其父亲词“肉丝”的关系为定中关系。“肉丝”与其父亲词“好吃”的关系为主谓关系。“超市”与其父亲词“去”的关系为动宾关系。“鱼”与其父亲词“买”的关系也为动宾关系。选取候选词与其父亲词的依存关系是定中关系、主谓关系的“鱼香”和“肉丝”为候选菜名。

在步骤S5中，进一步判断“鱼香肉丝”的父亲词为“好吃”，且“好吃”与root的关系为核心关系，故，输出“鱼香肉丝”为菜名。

以上所述仅为本发明的优选实施方式而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于依存分析实现菜名实体识别的方法，其特征在于，包括以下步骤：

S1，建立菜名语料库；

哈工大语言技术平台工具采用863词性标注集，其各个词性含义如下：a表示形容词、b表示名词修饰语、c表示连词、d表示副词、e表示感叹词、g表示词素、h表示前缀、i表示习语、j表示缩写词、k表示后缀、m表示数量、n表示一般名词、nd表示方位名词、nh表示人名、ni表示组织名称、nl表示位子名词、ns表示地名、nt表示时间名词、nz表示其他专有名词、o表示拟声词、p表示介词、q表示量词、r表示代词、u表示助词、v表示动词、wp表示标点符号、ws表示外语词汇和x表示非词位；

哈工大语言技术平台工具采用的依存句法分析标注依存关系，其含义如下：SBV表示主谓关系、VOB表示动宾关系、IOB表示间宾关系、ATT定中关系、ADV表示状中结构、CMP表示动补结构、COO表示并列关系、POB表示介宾关系、LAD表示左附加关系、RAD表示右附加关系、IS表示独立结构和HED表示核心关系；

S3，读取当前行，并寻找词性是名词的词语作为候选词；

2.如权利要求1所述的基于依存分析实现菜名实体识别的方法，其特征在于，所述建立菜名语料库的步骤包括：

从网络上下载客户对商家的评论文本建立菜名语料库。