CN110765300B - 一种基于emoji的语义解析方法 - Google Patents

一种基于emoji的语义解析方法 Download PDF

Info

Publication number
CN110765300B
CN110765300B CN201910975028.XA CN201910975028A CN110765300B CN 110765300 B CN110765300 B CN 110765300B CN 201910975028 A CN201910975028 A CN 201910975028A CN 110765300 B CN110765300 B CN 110765300B
Authority
CN
China
Prior art keywords
emoji
text
emoticons
result
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910975028.XA
Other languages
English (en)
Other versions
CN110765300A (zh
Inventor
梁敏
唐军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Changhong Electric Co Ltd
Original Assignee
Sichuan Changhong Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Changhong Electric Co Ltd filed Critical Sichuan Changhong Electric Co Ltd
Priority to CN201910975028.XA priority Critical patent/CN110765300B/zh
Publication of CN110765300A publication Critical patent/CN110765300A/zh
Application granted granted Critical
Publication of CN110765300B publication Critical patent/CN110765300B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于emoji的语义解析方法,所述方法包括步骤1:建立emoji表情符号文本数据采集与存储平台,采集含有emoji的文本内容进行分词处理,将emoji表情符号作为单个词组处理;步骤2:将采集到的文本数据划分为训练集和测试集;步骤3:建立算法模型,对步骤2所划分好的数据进行训练得出语义解析模型,将语义解析模型应用于新采集的文本中即可得出文本内的emoji表情符号的予以解析结果。很好的解决了现有技术中Unicode码表识别智能区分出emoji表情符号不能识别出具体含义,emoji表情符号与释义对照表不能准确构成一个可以理解的词组的问题。

Description

一种基于emoji的语义解析方法
技术领域
本发明涉及emoji解析、语义分析领域,具体的说,是一种基于emoji的语义解析方法。
背景技术
emoji,即绘文字,是日本在无线通信中所使用的视觉情感符号,绘指图画,文字指的则是字符,可用来代表多种表情,如笑脸表示笑、蛋糕表示食物等,后来逐渐流行与网络与手机用户群体。Unicode是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案,emoji在Unicode编码中范围为E63E到E757,有固定的特征值表征emoji字符。
随着网络的逐渐普及,越来越多的网络用户在论坛或通讯软件中适用emoji表情符号,更有用户使用纯emoji表情符号编写文本内容,如果信息接收者对于emoji表情符号不熟悉,则不能获取到正确的信息,或只能猜测出部分信息。
现今emoji表情符号在网络论坛及通讯软件上的运用越来越广泛,对于信息接收者而言,如果对emoji表情符号不是特别熟悉,则不能对接收到的文本信息进行正确的释义,或者只能依靠个人对emoji表情符号的理解猜测出具体含义;特别是由多个emoji表情符号组成的内容,由于发送者可能会用到谐音或者联想等方式组合emoji表情符号,翻查码表或是emoji释义对照表往往不能得到准确的释义。
为了使用户能够更准确的理解当前语境中emoji表情符号表达的含义,我们使用该方法将文本中的emoji表情符号翻译成可理解的文本内容。
现有emoji识别方法主要有两类:
Unicode码表识别,好处是可以识别文本中的emoji表情符号以及对应的Unicode码,缺陷就是只能区分出emoji表情符号,不能识别出具体含义。
emoji表情符号与释义对照表,好处是可以比对单个emoji表情符号的含义,缺陷就是对多个emoji表情符号组成的词组,释义对照表比对出的结果,不能准确构成一个可以理解的词组。
发明内容
本发明的目的在于提供一种基于emoji的语义解析方法,用于解决现有技术中Unicode码表识别智能区分出emoji表情符号不能识别出具体含义,emoji表情符号与释义对照表不能准确构成一个可以理解的词组的问题。
本发明通过下述技术方案解决上述问题:
一种基于emoji的语义解析方法,所述方法包括如下步骤:
步骤1:建立emoji表情符号文本数据采集与存储平台,采集含有emoji的文本内容进行分词处理,将emoji表情符号作为单个词组处理;
步骤2:将采集到的文本数据划分为训练集和测试集;
步骤3:建立算法模型,对步骤2所划分好的数据进行训练得出语义解析模型,将语义解析模型应用于新采集的文本中即可得出文本内的emoji表情符号的予以解析结果。
优选地,所述步骤1通过爬虫技术爬取各互联网论坛的发言贴文本数据,从而建立emoji表情符号文本数据采集与存储平台。
优选地,所述测试集为释义好的包含emoji表情符号的文本片段,训练集为待释义的emoji表情符号文本片段,测试集为采集数据量随机抽取的20%。
优选地,所述步骤3对样本的训练包括如下步骤:
步骤3.1:将训练集中的emoji表情符号提取出来,并标记其在原文本所在位置,emoji表情符号在Unicode编码汇中有特定编码范围与格式,通过构造正则表达式可以筛选出文本中出现的emoji表情符号;
步骤3.2:利用相关系数公式计算出步骤1所得分词结果的前后词组间相关系数,相关系数越大,说明词组组合出现的频次越多;
步骤3.3:用含emoji表情符号的结果,比对不含emoji表情符号文本的结果中使用相同前后词组的文本,找出该emoji表情符号可能的释义结果A;用该结果集与该emoji表情符号释义对照表里结果集B比对,通过词频[w1]、词性[w2]、读音[w3]、词义[w4]等维度训练BP神经网络,找出A、B两个结果集中元素最匹配的结果作为该emoji表情符号在此段文本片段内的释义词组,得到最佳权重组合[w1,w2,w3,w4];
步骤4:将训练集的模型结果应用到测试集中,比对模型产出结果与测试集人工给出结果,调整权重组合[w1,w2,w3,w4]得到最终的训练模型。
优选地,所述步骤3.1中,通过正则表达式对emoji表情符号进行提取。
本发明与现有技术相比,具有以下优点及有益效果:
本发明利用了大量用户使用emoji的历史数据和文本数据,给出emoji表情符号在文本中最可能的释义结果,降低信息接收者对emoji表情符号的理解难度。另外,由于emoji是一种全球流行的且有专门机构管理的标准化的符号语言,利用本发明,不同国家和地区的用户可以更轻松方便的使用emoji表情符号。很好的解决了现有技术中Unicode码表识别智能区分出emoji表情符号不能识别出具体含义,emoji表情符号与释义对照表不能准确构成一个可以理解的词组的问题。
附图说明
图1为本发明的基于emoji的语义解析方法流程示意图。
具体实施方式
下面结合实施例对本发明作进一步地详细说明,但本发明的实施方式不限于此。
实施例1:
结合附图1所示,一种基于emoji的语义解析方法,所述方法包括如下步骤:
步骤1:通过爬虫技术爬取各互联网论坛的发言贴文本数据,建立emoji表情符号文本数据采集与存储平台,采集含有emoji的文本内容进行分词处理,将emoji表情符号作为单个词组处理;
步骤2:将采集到的文本数据划分为训练集和测试集,测试集为释义好的包含emoji表情符号的文本片段,训练集为待释义的emoji表情符号文本片段,测试集为采集数据量随机抽取的20%;
步骤3:建立算法模型,对步骤2所划分好的数据进行训练得出语义解析模型,将语义解析模型应用于新采集的文本中即可得出文本内的emoji表情符号的予以解析结果,包括如下步骤:
步骤3.1:将训练集中的emoji表情符号通过正则表达式提取出来,并标记其在原文本所在位置,emoji表情符号在Unicode编码汇中有特定编码范围与格式,通过构造正则表达式可以筛选出文本中出现的emoji表情符号;
步骤3.2:利用相关系数公式计算出步骤1所得分词结果的前后词组间相关系数,相关系数越大,说明词组组合出现的频次越多;
步骤3.3:用含emoji表情符号的结果,比对不含emoji表情符号文本的结果中使用相同前后词组的文本,找出该emoji表情符号可能的释义结果A;用该结果集与该emoji表情符号释义对照表里结果集B比对,通过词频[w1]、词性[w2]、读音[w3]、词义[w4]等维度训练BP神经网络,找出A、B两个结果集中元素最匹配的结果作为该emoji表情符号在此段文本片段内的释义词组,得到最佳权重组合[w1,w2,w3,w4];
步骤4:将训练集的模型结果应用到测试集中,比对模型产出结果与测试集人工给出结果,调整权重组合[w1,w2,w3,w4]得到最终的训练模型。
实施上述方法,其过程如下:
第1步:首先从网络论坛、微博上爬取包含emoji表情符号的文本,并进行以下预处理:
1.1、根据Unicode编码格式,设计检测emoji表情符号的正则表达式,并使用该表达式检测爬取文本内的emoji表情符号,标记emoji表情符号在文本内的位置信息;
1.2、对文本内容切词,根据语法规则排列,用特殊符号替换emoji表情符号;
第2步:准备训练集和测试集,训练集为包含待释义的emoji表情符号的文本,测试集为人工释义后的含emoji表情符号文本;
第3步:搭建emoji表情符号释义算法模型:
3.1.建立emoji表情符合对应的可选词汇集合,包含emoji原始释义词汇、联想词汇、谐音词汇等;
3.2.将以上词汇集合,分别代入文本中,依据语法特征,计算出每种释义词汇组合的特征值,用于训练学习模型;
3.3利用训练得到的模型,对测试集进行测试,得到测试集里emoji表情符号最佳释义词组,与测试集中人为设定的释义词组比对,计算准确率,准确率达不到设定标准的,调整模型参数后,用训练集继续训练,直至准确率达到设定标准,得到最终的语义解析模型;
第4步:持续爬取新的包含emoji表情符号的文本数据,重复以上三步,得到emoji表情符号新的使用方法和对应的释义词组。
尽管这里参照本发明的解释性实施例对本发明进行了描述,上述实施例仅为本发明较佳的实施方式,本发明的实施方式并不受上述实施例的限制,应该理解,本领域技术人员可以设计出很多其他的修改和实施方式,这些修改和实施方式将落在本申请公开的原则范围和精神之内。

Claims (3)

1.一种基于emoji的语义解析方法,其特征在于,所述方法包括如下步骤:
步骤1:建立emoji表情符号文本数据采集与存储平台,采集含有emoji的文本内容进行分词处理,将emoji表情符号作为单个词组处理;
步骤2:将采集到的文本数据划分为训练集和测试集;
步骤3:建立算法模型,对步骤2所划分好的数据进行训练得出语义解析模型,将语义解析模型应用于新采集的文本中即可得出文本内的emoji表情符号的予以解析结果;所述步骤3对样本的训练包括如下步骤:
步骤3.1:将训练集中的emoji表情符号提取出来,并标记其在原文本所在位置,emoji表情符号在Unicode编码汇中有特定编码范围与格式,通过构造正则表达式可以筛选出文本中出现的emoji表情符号;
步骤3.2:利用相关系数公式计算出步骤1所得分词结果的前后词组间相关系数,相关系数越大,说明词组组合出现的频次越多;
步骤3.3:用含emoji表情符号的结果,比对不含emoji表情符号文本的结果中使用相同前后词组的文本,找出该emoji表情符号可能的释义结果集A;用结果集与该emoji表情符号释义对照表里结果集B比对,通过词频[w1]、词性[w2]、读音[w3]、词义[w4]维度训练BP神经网络,找出A、B两个结果集中元素最匹配的结果作为该emoji表情符号在此段文本片段内的释义词组,得到最佳权重组合[w1,w2,w3,w4];
步骤4:将训练集的模型结果应用到测试集中,比对模型产出结果与测试集人工给出结果,调整权重组合[w1,w2,w3,w4]得到最终的训练模型。
2.根据权利要求1所述基于emoji的语义解析方法,其特征在于,所述步骤1通过爬虫技术爬取各互联网论坛的发言贴文本数据,从而建立emoji表情符号文本数据采集与存储平台。
3.根据权利要求1所述基于emoji的语义解析方法,其特征在于,所述测试集为释义好的包含emoji表情符号的文本片段,训练集为待释义的emoji表情符号文本片段,测试集为采集数据量随机抽取的20%。
CN201910975028.XA 2019-10-14 2019-10-14 一种基于emoji的语义解析方法 Active CN110765300B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910975028.XA CN110765300B (zh) 2019-10-14 2019-10-14 一种基于emoji的语义解析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910975028.XA CN110765300B (zh) 2019-10-14 2019-10-14 一种基于emoji的语义解析方法

Publications (2)

Publication Number Publication Date
CN110765300A CN110765300A (zh) 2020-02-07
CN110765300B true CN110765300B (zh) 2022-02-22

Family

ID=69332241

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910975028.XA Active CN110765300B (zh) 2019-10-14 2019-10-14 一种基于emoji的语义解析方法

Country Status (1)

Country Link
CN (1) CN110765300B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113392204A (zh) * 2021-08-16 2021-09-14 湖南和信安华区块链科技有限公司 一种基于区块链的金融信息检索系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106484139A (zh) * 2016-10-19 2017-03-08 北京新美互通科技有限公司 表情符号推荐方法及装置
CN107491477A (zh) * 2017-06-30 2017-12-19 百度在线网络技术(北京)有限公司 一种表情符号搜索方法及装置
CN108268583A (zh) * 2017-08-21 2018-07-10 广州市动景计算机科技有限公司 表情符号含义展示的方法及设备
CN108701125A (zh) * 2015-12-29 2018-10-23 Mz知识产权控股有限责任公司 用于建议表情符号的系统和方法
CN108733651A (zh) * 2018-05-17 2018-11-02 新华网股份有限公司 表情符号预测方法及模型构建方法、装置、终端
CN108804631A (zh) * 2018-05-31 2018-11-13 北京字节跳动网络技术有限公司 表情符号存储方法、装置、计算机可读存储介质和终端
US10387574B1 (en) * 2018-08-27 2019-08-20 International Business Machines Corporation Emoji disambiguation for online interactions

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104063427A (zh) * 2014-06-06 2014-09-24 北京搜狗科技发展有限公司 一种基于语义理解的表情输入方法和装置
US20170083491A1 (en) * 2015-09-18 2017-03-23 International Business Machines Corporation Emoji semantic verification and recovery

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108701125A (zh) * 2015-12-29 2018-10-23 Mz知识产权控股有限责任公司 用于建议表情符号的系统和方法
CN106484139A (zh) * 2016-10-19 2017-03-08 北京新美互通科技有限公司 表情符号推荐方法及装置
CN107491477A (zh) * 2017-06-30 2017-12-19 百度在线网络技术(北京)有限公司 一种表情符号搜索方法及装置
CN108268583A (zh) * 2017-08-21 2018-07-10 广州市动景计算机科技有限公司 表情符号含义展示的方法及设备
CN108733651A (zh) * 2018-05-17 2018-11-02 新华网股份有限公司 表情符号预测方法及模型构建方法、装置、终端
CN108804631A (zh) * 2018-05-31 2018-11-13 北京字节跳动网络技术有限公司 表情符号存储方法、装置、计算机可读存储介质和终端
US10387574B1 (en) * 2018-08-27 2019-08-20 International Business Machines Corporation Emoji disambiguation for online interactions

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
以符号学角度分析网络表情符号;张洁;《北方文学》;20171215(第35期);第222-223页 *
表情符向量化算法;吴晨茜 等;《华侨大学学报(自然科学版)》;20190520;第40卷(第03期);第399-404页 *

Also Published As

Publication number Publication date
CN110765300A (zh) 2020-02-07

Similar Documents

Publication Publication Date Title
US20190278846A1 (en) Semantic extraction method and apparatus for natural language, and computer storage medium
CN110428820B (zh) 一种中英文混合语音识别方法及装置
CN111339305B (zh) 文本分类方法、装置、电子设备及存储介质
CN112784696B (zh) 基于图像识别的唇语识别方法、装置、设备及存储介质
CN110223675B (zh) 用于语音识别的训练文本数据的筛选方法及系统
CN107239440A (zh) 一种垃圾文本识别方法和装置
CN107301163B (zh) 包含公式的文本语义解析方法及装置
CN113255331B (zh) 文本纠错方法、装置及存储介质
CN113076720B (zh) 长文本的分段方法及装置、存储介质、电子装置
CN112257437A (zh) 语音识别纠错方法、装置、电子设备和存储介质
CN113268576B (zh) 一种基于深度学习的部门语义信息抽取的方法及装置
CN113033185B (zh) 标准文本纠错方法、装置、电子设备和存储介质
CN107967250A (zh) 一种信息处理方法及装置
CN115064154A (zh) 混合语言语音识别模型的生成方法及装置
CN116610781A (zh) 任务模型训练方法以及装置
CN110765300B (zh) 一种基于emoji的语义解析方法
CN114970502A (zh) 一种应用于数字政府的文本纠错方法
CN113486174B (zh) 模型训练、阅读理解方法、装置、电子设备及存储介质
CN103474067B (zh) 语音信号传输方法及系统
CN111933120A (zh) 一种用于语音识别的语音数据自动化标注方法和系统
CN112231440A (zh) 一种基于人工智能的语音搜索方法
CN113470617B (zh) 语音识别方法以及电子设备、存储装置
CN110858268B (zh) 一种检测语音翻译系统中不流畅现象的方法及系统
CN110245331A (zh) 一种语句转换方法、装置、服务器及计算机存储介质
CN114049875A (zh) 一种tts播报方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant