CN110222332B - 基于依存分析实现菜名实体识别的方法 - Google Patents
基于依存分析实现菜名实体识别的方法 Download PDFInfo
- Publication number
- CN110222332B CN110222332B CN201910354720.0A CN201910354720A CN110222332B CN 110222332 B CN110222332 B CN 110222332B CN 201910354720 A CN201910354720 A CN 201910354720A CN 110222332 B CN110222332 B CN 110222332B
- Authority
- CN
- China
- Prior art keywords
- denotes
- relationship
- candidate
- dependency
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种基于依存分析实现菜名实体识别的方法,包括以下步骤:S1,建立菜名语料库;S2,对所述菜名语料库中每一语料通过哈工大语言技术平台工具进行预处理,包括分词、词性标注、父亲词所在位置的标注以及依存关系的标注;S3,读取当前行,并寻找词性是名词的词语作为候选词;S4,判断候选词与其父亲词的依存关系,判断所述依存关系是否为定中关系、主谓关系或并列关系,是,输出满足依存关系的候选词作为候选菜名并进入步骤S5,否,读取下一行,并进入步骤S3;S5,获取候选菜名的父亲词,并判断候选菜名的父亲词与root的关系是否为核心关系,是,输出满足依存关系的候选词作为实际菜名,否,读取下一行,并进入步骤S3。
Description
技术领域
本发明涉及一种基于依存分析实现菜名实体识别的方法。
背景技术
命名实体识别是文本挖掘的关键技术。命名实体识别包括识别文本中的人名、组织机构名、地名等。相比于一般领域的命名实体,菜名实体识别有以下几个难点:(1)中文菜名种类繁多,无法列出菜名清单;(2)中文复合菜名的构成比较复杂,可以由两种或两种以上单式菜名复合也可以是由其他词与单式菜名复合而成,如香菇菜心、东坡红烧肉、水煮牛肉;(3)因为地域和餐厅不同,所以待识别的菜名可能会产生很多别名,如:黑米饭,乌米饭;(4)待识别的菜名可能会由许多单词修饰,导致实体的边界难以划分,如水煮鱼、酸菜鱼、烤鱼、红烧鱼;(5)有的餐厅为了让菜名生动有趣,在菜名中运用隐喻、借喻、用典等修辞手段,使菜名识别更加困难,如蚂蚁上树,青龙卧雪、龙凤呈祥,这给菜名识别增加难度,因此菜名是命名实体中相对较难识别的一类。
发明内容
本发明提供了一种基于依存分析实现菜名实体识别的方法,可以有效解决上述问题。
本发明是这样实现的:
一种基于依存分析实现菜名实体识别的方法,包括以下步骤:
S1,建立菜名语料库;
S2,对所述菜名语料库中每一语料通过哈工大语言技术平台工具进行预处理,包括分词、词性标注、父亲词所在位置的标注以及依存关系的标注;
S3,读取当前行,并寻找词性是名词的词语作为候选词;
S4,判断候选词与其父亲词的依存关系,判断所述依存关系是否为定中关系、主谓关系或并列关系,是,输出满足依存关系的候选词作为候选菜名并进入步骤S5,否,读取下一行,并进入步骤S3;
S5,获取候选菜名的父亲词,并判断候选菜名的父亲词与root的关系是否为核心关系,是,输出满足依存关系的候选词作为实际菜名,否,读取下一行,并进入步骤S3。
作为进一步改进的,所述建立菜名语料库的步骤包括:
从网络上下载客户对商家的评论文本建立菜名语料库。
本发明的有益效果是:采用本发明基于依存分析实现菜名实体识别的方法实体避免了基于统计方法需要标注大量数据的不足;可以快速的、准确的识别菜名。
附图说明
为了更清楚地说明本发明实施方式的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本发明实施例提供的基于依存分析实现菜名实体识别的方法的流程图。
图2是本发明实施例提供的基于依存分析实现菜名实体识别的方法中对语料进行预处理后的依存关系。
具体实施方式
为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。因此,以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
参照图1所示,一种基于依存分析实现菜名实体识别的方法,包括以下步骤:
S1,建立菜名语料库;
S2,对所述菜名语料库中每一语料通过哈工大语言技术平台(LTP)工具进行预处理,包括分词、词性标注、父亲词所在位置的标注以及依存关系的标注;
S3,读取当前行,并寻找词性是名词的词语作为候选词;
S4,判断候选词与其父亲词的依存关系,判断所述依存关系是否为定中关系、主谓关系或并列关系,是,输出满足依存关系的候选词作为候选菜名并进入步骤S5,否,读取下一行,并进入步骤S3;
S5,获取候选菜名的父亲词,并判断候选菜名的父亲词与root的关系是否为核心关系,是,输出满足依存关系的候选词作为实际菜名,否,读取下一行,并进入步骤S3。
在步骤S1中,所述建立菜名语料库的步骤包括:
从网络上下载客户对商家的评论文本建立菜名语料库。
在步骤S2中,LTP采用863词性标注集,其各个词性含义如表1所示。
表1词性含义表
另外,LTP采用的依存句法分析标注15种关系其含义如下:
表2依存关系含义表
SBV | 主谓关系 | subject-verb |
VOB | 动宾关系 | verb-object |
IOB | 间宾关系 | indirect-object |
ATT | 定中关系 | attribute |
ADV | 状中结构 | adverbial |
CMP | 动补结构 | complement |
COO | 并列关系 | coordinate |
POB | 介宾关系 | preposition-object |
LAD | 左附加关系 | left adjunct |
RAD | 右附加关系 | right adjunct |
IS | 独立结构 | independent structure |
HED | 核心关系 | head |
请参照图2,以语料“鱼香肉丝很好吃,我要去超市买鱼了..”为例通过哈工大语言技术平台工具进行预处理,包括分词、词性标注、父亲词所在位置的标注以及依存关系的标注,得到如图2的依存关系。
在步骤S3中,寻找词性是名词的词语,如:“鱼香”、“肉丝”、“超市”以及“鱼”这四个词作为候选词。
在步骤S4中,“鱼香”与其父亲词“肉丝”的关系为定中关系。“肉丝”与其父亲词“好吃”的关系为主谓关系。“超市”与其父亲词“去”的关系为动宾关系。“鱼”与其父亲词“买”的关系也为动宾关系。选取候选词与其父亲词的依存关系是定中关系、主谓关系的“鱼香”和“肉丝”为候选菜名。
在步骤S5中,进一步判断“鱼香肉丝”的父亲词为“好吃”,且“好吃”与root的关系为核心关系,故,输出“鱼香肉丝”为菜名。
以上所述仅为本发明的优选实施方式而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (2)
1.一种基于依存分析实现菜名实体识别的方法,其特征在于,包括以下步骤:
S1,建立菜名语料库;
S2,对所述菜名语料库中每一语料通过哈工大语言技术平台工具进行预处理,包括分词、词性标注、父亲词所在位置的标注以及依存关系的标注;
哈工大语言技术平台工具采用863词性标注集,其各个词性含义如下:a表示形容词、b表示名词修饰语、c表示连词、d表示副词、e表示感叹词、g表示词素、h表示前缀、i表示习语、j表示缩写词、k表示后缀、m表示数量、n表示一般名词、nd表示方位名词、nh表示人名、ni表示组织名称、nl表示位子名词、ns表示地名、nt表示时间名词、nz表示其他专有名词、o表示拟声词、p表示介词、q表示量词、r表示代词、u表示助词、v表示动词、wp表示标点符号、ws表示外语词汇和x表示非词位;
哈工大语言技术平台工具采用的依存句法分析标注依存关系,其含义如下:SBV表示主谓关系、VOB表示动宾关系、IOB表示间宾关系、ATT定中关系、ADV表示状中结构、CMP表示动补结构、COO表示并列关系、POB表示介宾关系、LAD表示左附加关系、RAD表示右附加关系、IS表示独立结构和HED表示核心关系;
S3,读取当前行,并寻找词性是名词的词语作为候选词;
S4,判断候选词与其父亲词的依存关系,判断所述依存关系是否为定中关系、主谓关系或并列关系,是,输出满足依存关系的候选词作为候选菜名并进入步骤S5,否,读取下一行,并进入步骤S3;
S5,获取候选菜名的父亲词,并判断候选菜名的父亲词与root的关系是否为核心关系,是,输出满足依存关系的候选词作为实际菜名,否,读取下一行,并进入步骤S3。
2.如权利要求1所述的基于依存分析实现菜名实体识别的方法,其特征在于,所述建立菜名语料库的步骤包括:
从网络上下载客户对商家的评论文本建立菜名语料库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910354720.0A CN110222332B (zh) | 2019-04-29 | 2019-04-29 | 基于依存分析实现菜名实体识别的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910354720.0A CN110222332B (zh) | 2019-04-29 | 2019-04-29 | 基于依存分析实现菜名实体识别的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110222332A CN110222332A (zh) | 2019-09-10 |
CN110222332B true CN110222332B (zh) | 2023-06-16 |
Family
ID=67820393
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910354720.0A Active CN110222332B (zh) | 2019-04-29 | 2019-04-29 | 基于依存分析实现菜名实体识别的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110222332B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104933027A (zh) * | 2015-06-12 | 2015-09-23 | 华东师范大学 | 一种利用依存分析的开放式中文实体关系抽取方法 |
CN107291687A (zh) * | 2017-04-27 | 2017-10-24 | 同济大学 | 一种基于依存语义的中文无监督开放式实体关系抽取方法 |
CN109241538A (zh) * | 2018-09-26 | 2019-01-18 | 上海德拓信息技术股份有限公司 | 基于关键词和动词依存的中文实体关系抽取方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8983826B2 (en) * | 2011-06-30 | 2015-03-17 | Palo Alto Research Center Incorporated | Method and system for extracting shadow entities from emails |
-
2019
- 2019-04-29 CN CN201910354720.0A patent/CN110222332B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104933027A (zh) * | 2015-06-12 | 2015-09-23 | 华东师范大学 | 一种利用依存分析的开放式中文实体关系抽取方法 |
CN107291687A (zh) * | 2017-04-27 | 2017-10-24 | 同济大学 | 一种基于依存语义的中文无监督开放式实体关系抽取方法 |
CN109241538A (zh) * | 2018-09-26 | 2019-01-18 | 上海德拓信息技术股份有限公司 | 基于关键词和动词依存的中文实体关系抽取方法 |
Non-Patent Citations (3)
Title |
---|
基于词典与条件随机场的中文菜名识别研究;杨晓燕;《信息与电脑(理论版)》;20180915;全文 * |
新能源汽车领域中文术语抽取方法;何宇;《现代图书情报技术》;20151031;第88-94页 * |
美食图谱复现指南之依存句法分析;牛衣古柳;《微信公众号古柳DesertsX》;20190202;第1-5页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110222332A (zh) | 2019-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sethi et al. | Automatic text summarization of news articles | |
Francis et al. | Executive insights: The impact of linguistic differences on international brand name standardization: A comparison of English and Chinese brand names of fortune-500 companies | |
Proisl et al. | SoMaJo: State-of-the-art tokenization for German web and social media texts | |
Di Fabbrizio et al. | A hybrid approach to multi-document summarization of opinions in reviews | |
CN109726298B (zh) | 适用于科技文献的知识图谱构建方法、系统、终端及介质 | |
CN111353306B (zh) | 基于实体关系和依存Tree-LSTM的联合事件抽取的方法 | |
JP3921523B2 (ja) | テキスト生成方法及びテキスト生成装置 | |
Mori et al. | A machine learning approach to recipe text processing | |
US7398196B1 (en) | Method and apparatus for summarizing multiple documents using a subsumption model | |
JP5399450B2 (ja) | 医療用語の曖昧性を判定するシステム、方法およびソフトウェア | |
CN112699645B (zh) | 语料标注方法、装置及设备 | |
US11182681B2 (en) | Generating natural language answers automatically | |
CN103593412A (zh) | 一种基于树形结构问题的应答方法及系统 | |
KR100998696B1 (ko) | 광고 키워드 검색 시스템 및 추천 광고키워드 제공 방법 | |
Bjarnadóttir | Phrasal compounds in Modern Icelandic with reference to Icelandic word formation in general | |
JP2018045594A (ja) | 文章生成装置および文章生成方法 | |
CN110222332B (zh) | 基于依存分析实现菜名实体识别的方法 | |
US10346545B2 (en) | Method, device, and recording medium for providing translated sentence | |
CN111259661B (zh) | 一种基于商品评论的新情感词提取方法 | |
US20210319481A1 (en) | System and method for summerization of customer interaction | |
JP2010055236A (ja) | 文抽出および文短縮を組合せた文書要約方法、文書要約装置、文書要約プログラムおよびそのプログラムを記録した記録媒体 | |
JP2008021139A (ja) | 意味タグ付け用モデル構築装置、意味タグ付け装置及びコンピュータプログラム | |
CN110990537A (zh) | 一种基于边缘信息和语义信息的句子相似度计算方法 | |
JP6787755B2 (ja) | 文書検索装置 | |
CN114970543A (zh) | 一种众包设计资源的语义分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |