CN110222332B - 基于依存分析实现菜名实体识别的方法 - Google Patents

基于依存分析实现菜名实体识别的方法 Download PDF

Info

Publication number
CN110222332B
CN110222332B CN201910354720.0A CN201910354720A CN110222332B CN 110222332 B CN110222332 B CN 110222332B CN 201910354720 A CN201910354720 A CN 201910354720A CN 110222332 B CN110222332 B CN 110222332B
Authority
CN
China
Prior art keywords
denotes
relationship
candidate
dependency
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910354720.0A
Other languages
English (en)
Other versions
CN110222332A (zh
Inventor
杨晓燕
庄泽彬
陈子扬
徐戈
李佐勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Minjiang University
Original Assignee
Minjiang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Minjiang University filed Critical Minjiang University
Priority to CN201910354720.0A priority Critical patent/CN110222332B/zh
Publication of CN110222332A publication Critical patent/CN110222332A/zh
Application granted granted Critical
Publication of CN110222332B publication Critical patent/CN110222332B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种基于依存分析实现菜名实体识别的方法,包括以下步骤:S1,建立菜名语料库;S2,对所述菜名语料库中每一语料通过哈工大语言技术平台工具进行预处理,包括分词、词性标注、父亲词所在位置的标注以及依存关系的标注;S3,读取当前行,并寻找词性是名词的词语作为候选词;S4,判断候选词与其父亲词的依存关系,判断所述依存关系是否为定中关系、主谓关系或并列关系,是,输出满足依存关系的候选词作为候选菜名并进入步骤S5,否,读取下一行,并进入步骤S3;S5,获取候选菜名的父亲词,并判断候选菜名的父亲词与root的关系是否为核心关系,是,输出满足依存关系的候选词作为实际菜名,否,读取下一行,并进入步骤S3。

Description

基于依存分析实现菜名实体识别的方法
技术领域
本发明涉及一种基于依存分析实现菜名实体识别的方法。
背景技术
命名实体识别是文本挖掘的关键技术。命名实体识别包括识别文本中的人名、组织机构名、地名等。相比于一般领域的命名实体,菜名实体识别有以下几个难点:(1)中文菜名种类繁多,无法列出菜名清单;(2)中文复合菜名的构成比较复杂,可以由两种或两种以上单式菜名复合也可以是由其他词与单式菜名复合而成,如香菇菜心、东坡红烧肉、水煮牛肉;(3)因为地域和餐厅不同,所以待识别的菜名可能会产生很多别名,如:黑米饭,乌米饭;(4)待识别的菜名可能会由许多单词修饰,导致实体的边界难以划分,如水煮鱼、酸菜鱼、烤鱼、红烧鱼;(5)有的餐厅为了让菜名生动有趣,在菜名中运用隐喻、借喻、用典等修辞手段,使菜名识别更加困难,如蚂蚁上树,青龙卧雪、龙凤呈祥,这给菜名识别增加难度,因此菜名是命名实体中相对较难识别的一类。
发明内容
本发明提供了一种基于依存分析实现菜名实体识别的方法,可以有效解决上述问题。
本发明是这样实现的:
一种基于依存分析实现菜名实体识别的方法,包括以下步骤:
S1,建立菜名语料库;
S2,对所述菜名语料库中每一语料通过哈工大语言技术平台工具进行预处理,包括分词、词性标注、父亲词所在位置的标注以及依存关系的标注;
S3,读取当前行,并寻找词性是名词的词语作为候选词;
S4,判断候选词与其父亲词的依存关系,判断所述依存关系是否为定中关系、主谓关系或并列关系,是,输出满足依存关系的候选词作为候选菜名并进入步骤S5,否,读取下一行,并进入步骤S3;
S5,获取候选菜名的父亲词,并判断候选菜名的父亲词与root的关系是否为核心关系,是,输出满足依存关系的候选词作为实际菜名,否,读取下一行,并进入步骤S3。
作为进一步改进的,所述建立菜名语料库的步骤包括:
从网络上下载客户对商家的评论文本建立菜名语料库。
本发明的有益效果是:采用本发明基于依存分析实现菜名实体识别的方法实体避免了基于统计方法需要标注大量数据的不足;可以快速的、准确的识别菜名。
附图说明
为了更清楚地说明本发明实施方式的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本发明实施例提供的基于依存分析实现菜名实体识别的方法的流程图。
图2是本发明实施例提供的基于依存分析实现菜名实体识别的方法中对语料进行预处理后的依存关系。
具体实施方式
为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。因此,以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
参照图1所示,一种基于依存分析实现菜名实体识别的方法,包括以下步骤:
S1,建立菜名语料库;
S2,对所述菜名语料库中每一语料通过哈工大语言技术平台(LTP)工具进行预处理,包括分词、词性标注、父亲词所在位置的标注以及依存关系的标注;
S3,读取当前行,并寻找词性是名词的词语作为候选词;
S4,判断候选词与其父亲词的依存关系,判断所述依存关系是否为定中关系、主谓关系或并列关系,是,输出满足依存关系的候选词作为候选菜名并进入步骤S5,否,读取下一行,并进入步骤S3;
S5,获取候选菜名的父亲词,并判断候选菜名的父亲词与root的关系是否为核心关系,是,输出满足依存关系的候选词作为实际菜名,否,读取下一行,并进入步骤S3。
在步骤S1中,所述建立菜名语料库的步骤包括:
从网络上下载客户对商家的评论文本建立菜名语料库。
在步骤S2中,LTP采用863词性标注集,其各个词性含义如表1所示。
表1词性含义表
Figure BDA0002045040780000041
Figure BDA0002045040780000051
另外,LTP采用的依存句法分析标注15种关系其含义如下:
表2依存关系含义表
SBV 主谓关系 subject-verb
VOB 动宾关系 verb-object
IOB 间宾关系 indirect-object
ATT 定中关系 attribute
ADV 状中结构 adverbial
CMP 动补结构 complement
COO 并列关系 coordinate
POB 介宾关系 preposition-object
LAD 左附加关系 left adjunct
RAD 右附加关系 right adjunct
IS 独立结构 independent structure
HED 核心关系 head
请参照图2,以语料“鱼香肉丝很好吃,我要去超市买鱼了..”为例通过哈工大语言技术平台工具进行预处理,包括分词、词性标注、父亲词所在位置的标注以及依存关系的标注,得到如图2的依存关系。
在步骤S3中,寻找词性是名词的词语,如:“鱼香”、“肉丝”、“超市”以及“鱼”这四个词作为候选词。
在步骤S4中,“鱼香”与其父亲词“肉丝”的关系为定中关系。“肉丝”与其父亲词“好吃”的关系为主谓关系。“超市”与其父亲词“去”的关系为动宾关系。“鱼”与其父亲词“买”的关系也为动宾关系。选取候选词与其父亲词的依存关系是定中关系、主谓关系的“鱼香”和“肉丝”为候选菜名。
在步骤S5中,进一步判断“鱼香肉丝”的父亲词为“好吃”,且“好吃”与root的关系为核心关系,故,输出“鱼香肉丝”为菜名。
以上所述仅为本发明的优选实施方式而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (2)

1.一种基于依存分析实现菜名实体识别的方法,其特征在于,包括以下步骤:
S1,建立菜名语料库;
S2,对所述菜名语料库中每一语料通过哈工大语言技术平台工具进行预处理,包括分词、词性标注、父亲词所在位置的标注以及依存关系的标注;
哈工大语言技术平台工具采用863词性标注集,其各个词性含义如下:a表示形容词、b表示名词修饰语、c表示连词、d表示副词、e表示感叹词、g表示词素、h表示前缀、i表示习语、j表示缩写词、k表示后缀、m表示数量、n表示一般名词、nd表示方位名词、nh表示人名、ni表示组织名称、nl表示位子名词、ns表示地名、nt表示时间名词、nz表示其他专有名词、o表示拟声词、p表示介词、q表示量词、r表示代词、u表示助词、v表示动词、wp表示标点符号、ws表示外语词汇和x表示非词位;
哈工大语言技术平台工具采用的依存句法分析标注依存关系,其含义如下:SBV表示主谓关系、VOB表示动宾关系、IOB表示间宾关系、ATT定中关系、ADV表示状中结构、CMP表示动补结构、COO表示并列关系、POB表示介宾关系、LAD表示左附加关系、RAD表示右附加关系、IS表示独立结构和HED表示核心关系;
S3,读取当前行,并寻找词性是名词的词语作为候选词;
S4,判断候选词与其父亲词的依存关系,判断所述依存关系是否为定中关系、主谓关系或并列关系,是,输出满足依存关系的候选词作为候选菜名并进入步骤S5,否,读取下一行,并进入步骤S3;
S5,获取候选菜名的父亲词,并判断候选菜名的父亲词与root的关系是否为核心关系,是,输出满足依存关系的候选词作为实际菜名,否,读取下一行,并进入步骤S3。
2.如权利要求1所述的基于依存分析实现菜名实体识别的方法,其特征在于,所述建立菜名语料库的步骤包括:
从网络上下载客户对商家的评论文本建立菜名语料库。
CN201910354720.0A 2019-04-29 2019-04-29 基于依存分析实现菜名实体识别的方法 Active CN110222332B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910354720.0A CN110222332B (zh) 2019-04-29 2019-04-29 基于依存分析实现菜名实体识别的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910354720.0A CN110222332B (zh) 2019-04-29 2019-04-29 基于依存分析实现菜名实体识别的方法

Publications (2)

Publication Number Publication Date
CN110222332A CN110222332A (zh) 2019-09-10
CN110222332B true CN110222332B (zh) 2023-06-16

Family

ID=67820393

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910354720.0A Active CN110222332B (zh) 2019-04-29 2019-04-29 基于依存分析实现菜名实体识别的方法

Country Status (1)

Country Link
CN (1) CN110222332B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933027A (zh) * 2015-06-12 2015-09-23 华东师范大学 一种利用依存分析的开放式中文实体关系抽取方法
CN107291687A (zh) * 2017-04-27 2017-10-24 同济大学 一种基于依存语义的中文无监督开放式实体关系抽取方法
CN109241538A (zh) * 2018-09-26 2019-01-18 上海德拓信息技术股份有限公司 基于关键词和动词依存的中文实体关系抽取方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8983826B2 (en) * 2011-06-30 2015-03-17 Palo Alto Research Center Incorporated Method and system for extracting shadow entities from emails

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933027A (zh) * 2015-06-12 2015-09-23 华东师范大学 一种利用依存分析的开放式中文实体关系抽取方法
CN107291687A (zh) * 2017-04-27 2017-10-24 同济大学 一种基于依存语义的中文无监督开放式实体关系抽取方法
CN109241538A (zh) * 2018-09-26 2019-01-18 上海德拓信息技术股份有限公司 基于关键词和动词依存的中文实体关系抽取方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于词典与条件随机场的中文菜名识别研究;杨晓燕;《信息与电脑(理论版)》;20180915;全文 *
新能源汽车领域中文术语抽取方法;何宇;《现代图书情报技术》;20151031;第88-94页 *
美食图谱复现指南之依存句法分析;牛衣古柳;《微信公众号古柳DesertsX》;20190202;第1-5页 *

Also Published As

Publication number Publication date
CN110222332A (zh) 2019-09-10

Similar Documents

Publication Publication Date Title
Sethi et al. Automatic text summarization of news articles
Francis et al. Executive insights: The impact of linguistic differences on international brand name standardization: A comparison of English and Chinese brand names of fortune-500 companies
Proisl et al. SoMaJo: State-of-the-art tokenization for German web and social media texts
Di Fabbrizio et al. A hybrid approach to multi-document summarization of opinions in reviews
CN109726298B (zh) 适用于科技文献的知识图谱构建方法、系统、终端及介质
CN111353306B (zh) 基于实体关系和依存Tree-LSTM的联合事件抽取的方法
JP3921523B2 (ja) テキスト生成方法及びテキスト生成装置
Mori et al. A machine learning approach to recipe text processing
US7398196B1 (en) Method and apparatus for summarizing multiple documents using a subsumption model
JP5399450B2 (ja) 医療用語の曖昧性を判定するシステム、方法およびソフトウェア
CN112699645B (zh) 语料标注方法、装置及设备
US11182681B2 (en) Generating natural language answers automatically
CN103593412A (zh) 一种基于树形结构问题的应答方法及系统
KR100998696B1 (ko) 광고 키워드 검색 시스템 및 추천 광고키워드 제공 방법
Bjarnadóttir Phrasal compounds in Modern Icelandic with reference to Icelandic word formation in general
JP2018045594A (ja) 文章生成装置および文章生成方法
CN110222332B (zh) 基于依存分析实现菜名实体识别的方法
US10346545B2 (en) Method, device, and recording medium for providing translated sentence
CN111259661B (zh) 一种基于商品评论的新情感词提取方法
US20210319481A1 (en) System and method for summerization of customer interaction
JP2010055236A (ja) 文抽出および文短縮を組合せた文書要約方法、文書要約装置、文書要約プログラムおよびそのプログラムを記録した記録媒体
JP2008021139A (ja) 意味タグ付け用モデル構築装置、意味タグ付け装置及びコンピュータプログラム
CN110990537A (zh) 一种基于边缘信息和语义信息的句子相似度计算方法
JP6787755B2 (ja) 文書検索装置
CN114970543A (zh) 一种众包设计资源的语义分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant