CN110765300B - 一种基于emoji的语义解析方法 - Google Patents
一种基于emoji的语义解析方法 Download PDFInfo
- Publication number
- CN110765300B CN110765300B CN201910975028.XA CN201910975028A CN110765300B CN 110765300 B CN110765300 B CN 110765300B CN 201910975028 A CN201910975028 A CN 201910975028A CN 110765300 B CN110765300 B CN 110765300B
- Authority
- CN
- China
- Prior art keywords
- emoji
- text
- emoticons
- result
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于emoji的语义解析方法,所述方法包括步骤1:建立emoji表情符号文本数据采集与存储平台,采集含有emoji的文本内容进行分词处理,将emoji表情符号作为单个词组处理;步骤2:将采集到的文本数据划分为训练集和测试集;步骤3:建立算法模型,对步骤2所划分好的数据进行训练得出语义解析模型,将语义解析模型应用于新采集的文本中即可得出文本内的emoji表情符号的予以解析结果。很好的解决了现有技术中Unicode码表识别智能区分出emoji表情符号不能识别出具体含义,emoji表情符号与释义对照表不能准确构成一个可以理解的词组的问题。
Description
技术领域
本发明涉及emoji解析、语义分析领域,具体的说,是一种基于emoji的语义解析方法。
背景技术
emoji,即绘文字,是日本在无线通信中所使用的视觉情感符号,绘指图画,文字指的则是字符,可用来代表多种表情,如笑脸表示笑、蛋糕表示食物等,后来逐渐流行与网络与手机用户群体。Unicode是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案,emoji在Unicode编码中范围为E63E到E757,有固定的特征值表征emoji字符。
随着网络的逐渐普及,越来越多的网络用户在论坛或通讯软件中适用emoji表情符号,更有用户使用纯emoji表情符号编写文本内容,如果信息接收者对于emoji表情符号不熟悉,则不能获取到正确的信息,或只能猜测出部分信息。
现今emoji表情符号在网络论坛及通讯软件上的运用越来越广泛,对于信息接收者而言,如果对emoji表情符号不是特别熟悉,则不能对接收到的文本信息进行正确的释义,或者只能依靠个人对emoji表情符号的理解猜测出具体含义;特别是由多个emoji表情符号组成的内容,由于发送者可能会用到谐音或者联想等方式组合emoji表情符号,翻查码表或是emoji释义对照表往往不能得到准确的释义。
为了使用户能够更准确的理解当前语境中emoji表情符号表达的含义,我们使用该方法将文本中的emoji表情符号翻译成可理解的文本内容。
现有emoji识别方法主要有两类:
Unicode码表识别,好处是可以识别文本中的emoji表情符号以及对应的Unicode码,缺陷就是只能区分出emoji表情符号,不能识别出具体含义。
emoji表情符号与释义对照表,好处是可以比对单个emoji表情符号的含义,缺陷就是对多个emoji表情符号组成的词组,释义对照表比对出的结果,不能准确构成一个可以理解的词组。
发明内容
本发明的目的在于提供一种基于emoji的语义解析方法,用于解决现有技术中Unicode码表识别智能区分出emoji表情符号不能识别出具体含义,emoji表情符号与释义对照表不能准确构成一个可以理解的词组的问题。
本发明通过下述技术方案解决上述问题:
一种基于emoji的语义解析方法,所述方法包括如下步骤:
步骤1:建立emoji表情符号文本数据采集与存储平台,采集含有emoji的文本内容进行分词处理,将emoji表情符号作为单个词组处理;
步骤2:将采集到的文本数据划分为训练集和测试集;
步骤3:建立算法模型,对步骤2所划分好的数据进行训练得出语义解析模型,将语义解析模型应用于新采集的文本中即可得出文本内的emoji表情符号的予以解析结果。
优选地,所述步骤1通过爬虫技术爬取各互联网论坛的发言贴文本数据,从而建立emoji表情符号文本数据采集与存储平台。
优选地,所述测试集为释义好的包含emoji表情符号的文本片段,训练集为待释义的emoji表情符号文本片段,测试集为采集数据量随机抽取的20%。
优选地,所述步骤3对样本的训练包括如下步骤:
步骤3.1:将训练集中的emoji表情符号提取出来,并标记其在原文本所在位置,emoji表情符号在Unicode编码汇中有特定编码范围与格式,通过构造正则表达式可以筛选出文本中出现的emoji表情符号;
步骤3.2:利用相关系数公式计算出步骤1所得分词结果的前后词组间相关系数,相关系数越大,说明词组组合出现的频次越多;
步骤3.3:用含emoji表情符号的结果,比对不含emoji表情符号文本的结果中使用相同前后词组的文本,找出该emoji表情符号可能的释义结果A;用该结果集与该emoji表情符号释义对照表里结果集B比对,通过词频[w1]、词性[w2]、读音[w3]、词义[w4]等维度训练BP神经网络,找出A、B两个结果集中元素最匹配的结果作为该emoji表情符号在此段文本片段内的释义词组,得到最佳权重组合[w1,w2,w3,w4];
步骤4:将训练集的模型结果应用到测试集中,比对模型产出结果与测试集人工给出结果,调整权重组合[w1,w2,w3,w4]得到最终的训练模型。
优选地,所述步骤3.1中,通过正则表达式对emoji表情符号进行提取。
本发明与现有技术相比,具有以下优点及有益效果:
本发明利用了大量用户使用emoji的历史数据和文本数据,给出emoji表情符号在文本中最可能的释义结果,降低信息接收者对emoji表情符号的理解难度。另外,由于emoji是一种全球流行的且有专门机构管理的标准化的符号语言,利用本发明,不同国家和地区的用户可以更轻松方便的使用emoji表情符号。很好的解决了现有技术中Unicode码表识别智能区分出emoji表情符号不能识别出具体含义,emoji表情符号与释义对照表不能准确构成一个可以理解的词组的问题。
附图说明
图1为本发明的基于emoji的语义解析方法流程示意图。
具体实施方式
下面结合实施例对本发明作进一步地详细说明,但本发明的实施方式不限于此。
实施例1:
结合附图1所示,一种基于emoji的语义解析方法,所述方法包括如下步骤:
步骤1:通过爬虫技术爬取各互联网论坛的发言贴文本数据,建立emoji表情符号文本数据采集与存储平台,采集含有emoji的文本内容进行分词处理,将emoji表情符号作为单个词组处理;
步骤2:将采集到的文本数据划分为训练集和测试集,测试集为释义好的包含emoji表情符号的文本片段,训练集为待释义的emoji表情符号文本片段,测试集为采集数据量随机抽取的20%;
步骤3:建立算法模型,对步骤2所划分好的数据进行训练得出语义解析模型,将语义解析模型应用于新采集的文本中即可得出文本内的emoji表情符号的予以解析结果,包括如下步骤:
步骤3.1:将训练集中的emoji表情符号通过正则表达式提取出来,并标记其在原文本所在位置,emoji表情符号在Unicode编码汇中有特定编码范围与格式,通过构造正则表达式可以筛选出文本中出现的emoji表情符号;
步骤3.2:利用相关系数公式计算出步骤1所得分词结果的前后词组间相关系数,相关系数越大,说明词组组合出现的频次越多;
步骤3.3:用含emoji表情符号的结果,比对不含emoji表情符号文本的结果中使用相同前后词组的文本,找出该emoji表情符号可能的释义结果A;用该结果集与该emoji表情符号释义对照表里结果集B比对,通过词频[w1]、词性[w2]、读音[w3]、词义[w4]等维度训练BP神经网络,找出A、B两个结果集中元素最匹配的结果作为该emoji表情符号在此段文本片段内的释义词组,得到最佳权重组合[w1,w2,w3,w4];
步骤4:将训练集的模型结果应用到测试集中,比对模型产出结果与测试集人工给出结果,调整权重组合[w1,w2,w3,w4]得到最终的训练模型。
实施上述方法,其过程如下:
第1步:首先从网络论坛、微博上爬取包含emoji表情符号的文本,并进行以下预处理:
1.1、根据Unicode编码格式,设计检测emoji表情符号的正则表达式,并使用该表达式检测爬取文本内的emoji表情符号,标记emoji表情符号在文本内的位置信息;
1.2、对文本内容切词,根据语法规则排列,用特殊符号替换emoji表情符号;
第2步:准备训练集和测试集,训练集为包含待释义的emoji表情符号的文本,测试集为人工释义后的含emoji表情符号文本;
第3步:搭建emoji表情符号释义算法模型:
3.1.建立emoji表情符合对应的可选词汇集合,包含emoji原始释义词汇、联想词汇、谐音词汇等;
3.2.将以上词汇集合,分别代入文本中,依据语法特征,计算出每种释义词汇组合的特征值,用于训练学习模型;
3.3利用训练得到的模型,对测试集进行测试,得到测试集里emoji表情符号最佳释义词组,与测试集中人为设定的释义词组比对,计算准确率,准确率达不到设定标准的,调整模型参数后,用训练集继续训练,直至准确率达到设定标准,得到最终的语义解析模型;
第4步:持续爬取新的包含emoji表情符号的文本数据,重复以上三步,得到emoji表情符号新的使用方法和对应的释义词组。
尽管这里参照本发明的解释性实施例对本发明进行了描述,上述实施例仅为本发明较佳的实施方式,本发明的实施方式并不受上述实施例的限制,应该理解,本领域技术人员可以设计出很多其他的修改和实施方式,这些修改和实施方式将落在本申请公开的原则范围和精神之内。
Claims (3)
1.一种基于emoji的语义解析方法,其特征在于,所述方法包括如下步骤:
步骤1:建立emoji表情符号文本数据采集与存储平台,采集含有emoji的文本内容进行分词处理,将emoji表情符号作为单个词组处理;
步骤2:将采集到的文本数据划分为训练集和测试集;
步骤3:建立算法模型,对步骤2所划分好的数据进行训练得出语义解析模型,将语义解析模型应用于新采集的文本中即可得出文本内的emoji表情符号的予以解析结果;所述步骤3对样本的训练包括如下步骤:
步骤3.1:将训练集中的emoji表情符号提取出来,并标记其在原文本所在位置,emoji表情符号在Unicode编码汇中有特定编码范围与格式,通过构造正则表达式可以筛选出文本中出现的emoji表情符号;
步骤3.2:利用相关系数公式计算出步骤1所得分词结果的前后词组间相关系数,相关系数越大,说明词组组合出现的频次越多;
步骤3.3:用含emoji表情符号的结果,比对不含emoji表情符号文本的结果中使用相同前后词组的文本,找出该emoji表情符号可能的释义结果集A;用结果集与该emoji表情符号释义对照表里结果集B比对,通过词频[w1]、词性[w2]、读音[w3]、词义[w4]维度训练BP神经网络,找出A、B两个结果集中元素最匹配的结果作为该emoji表情符号在此段文本片段内的释义词组,得到最佳权重组合[w1,w2,w3,w4];
步骤4:将训练集的模型结果应用到测试集中,比对模型产出结果与测试集人工给出结果,调整权重组合[w1,w2,w3,w4]得到最终的训练模型。
2.根据权利要求1所述基于emoji的语义解析方法,其特征在于,所述步骤1通过爬虫技术爬取各互联网论坛的发言贴文本数据,从而建立emoji表情符号文本数据采集与存储平台。
3.根据权利要求1所述基于emoji的语义解析方法,其特征在于,所述测试集为释义好的包含emoji表情符号的文本片段,训练集为待释义的emoji表情符号文本片段,测试集为采集数据量随机抽取的20%。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910975028.XA CN110765300B (zh) | 2019-10-14 | 2019-10-14 | 一种基于emoji的语义解析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910975028.XA CN110765300B (zh) | 2019-10-14 | 2019-10-14 | 一种基于emoji的语义解析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110765300A CN110765300A (zh) | 2020-02-07 |
CN110765300B true CN110765300B (zh) | 2022-02-22 |
Family
ID=69332241
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910975028.XA Active CN110765300B (zh) | 2019-10-14 | 2019-10-14 | 一种基于emoji的语义解析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110765300B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113392204A (zh) * | 2021-08-16 | 2021-09-14 | 湖南和信安华区块链科技有限公司 | 一种基于区块链的金融信息检索系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106484139A (zh) * | 2016-10-19 | 2017-03-08 | 北京新美互通科技有限公司 | 表情符号推荐方法及装置 |
CN107491477A (zh) * | 2017-06-30 | 2017-12-19 | 百度在线网络技术(北京)有限公司 | 一种表情符号搜索方法及装置 |
CN108268583A (zh) * | 2017-08-21 | 2018-07-10 | 广州市动景计算机科技有限公司 | 表情符号含义展示的方法及设备 |
CN108701125A (zh) * | 2015-12-29 | 2018-10-23 | Mz知识产权控股有限责任公司 | 用于建议表情符号的系统和方法 |
CN108733651A (zh) * | 2018-05-17 | 2018-11-02 | 新华网股份有限公司 | 表情符号预测方法及模型构建方法、装置、终端 |
CN108804631A (zh) * | 2018-05-31 | 2018-11-13 | 北京字节跳动网络技术有限公司 | 表情符号存储方法、装置、计算机可读存储介质和终端 |
US10387574B1 (en) * | 2018-08-27 | 2019-08-20 | International Business Machines Corporation | Emoji disambiguation for online interactions |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104063427A (zh) * | 2014-06-06 | 2014-09-24 | 北京搜狗科技发展有限公司 | 一种基于语义理解的表情输入方法和装置 |
US20170083491A1 (en) * | 2015-09-18 | 2017-03-23 | International Business Machines Corporation | Emoji semantic verification and recovery |
-
2019
- 2019-10-14 CN CN201910975028.XA patent/CN110765300B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108701125A (zh) * | 2015-12-29 | 2018-10-23 | Mz知识产权控股有限责任公司 | 用于建议表情符号的系统和方法 |
CN106484139A (zh) * | 2016-10-19 | 2017-03-08 | 北京新美互通科技有限公司 | 表情符号推荐方法及装置 |
CN107491477A (zh) * | 2017-06-30 | 2017-12-19 | 百度在线网络技术(北京)有限公司 | 一种表情符号搜索方法及装置 |
CN108268583A (zh) * | 2017-08-21 | 2018-07-10 | 广州市动景计算机科技有限公司 | 表情符号含义展示的方法及设备 |
CN108733651A (zh) * | 2018-05-17 | 2018-11-02 | 新华网股份有限公司 | 表情符号预测方法及模型构建方法、装置、终端 |
CN108804631A (zh) * | 2018-05-31 | 2018-11-13 | 北京字节跳动网络技术有限公司 | 表情符号存储方法、装置、计算机可读存储介质和终端 |
US10387574B1 (en) * | 2018-08-27 | 2019-08-20 | International Business Machines Corporation | Emoji disambiguation for online interactions |
Non-Patent Citations (2)
Title |
---|
以符号学角度分析网络表情符号;张洁;《北方文学》;20171215(第35期);第222-223页 * |
表情符向量化算法;吴晨茜 等;《华侨大学学报(自然科学版)》;20190520;第40卷(第03期);第399-404页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110765300A (zh) | 2020-02-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20190278846A1 (en) | Semantic extraction method and apparatus for natural language, and computer storage medium | |
CN110428820B (zh) | 一种中英文混合语音识别方法及装置 | |
CN111339305B (zh) | 文本分类方法、装置、电子设备及存储介质 | |
CN112784696B (zh) | 基于图像识别的唇语识别方法、装置、设备及存储介质 | |
CN110223675B (zh) | 用于语音识别的训练文本数据的筛选方法及系统 | |
CN107239440A (zh) | 一种垃圾文本识别方法和装置 | |
CN107301163B (zh) | 包含公式的文本语义解析方法及装置 | |
CN113255331B (zh) | 文本纠错方法、装置及存储介质 | |
CN113076720B (zh) | 长文本的分段方法及装置、存储介质、电子装置 | |
CN112257437A (zh) | 语音识别纠错方法、装置、电子设备和存储介质 | |
CN113268576B (zh) | 一种基于深度学习的部门语义信息抽取的方法及装置 | |
CN113033185B (zh) | 标准文本纠错方法、装置、电子设备和存储介质 | |
CN107967250A (zh) | 一种信息处理方法及装置 | |
CN115064154A (zh) | 混合语言语音识别模型的生成方法及装置 | |
CN116610781A (zh) | 任务模型训练方法以及装置 | |
CN110765300B (zh) | 一种基于emoji的语义解析方法 | |
CN114970502A (zh) | 一种应用于数字政府的文本纠错方法 | |
CN113486174B (zh) | 模型训练、阅读理解方法、装置、电子设备及存储介质 | |
CN103474067B (zh) | 语音信号传输方法及系统 | |
CN111933120A (zh) | 一种用于语音识别的语音数据自动化标注方法和系统 | |
CN112231440A (zh) | 一种基于人工智能的语音搜索方法 | |
CN113470617B (zh) | 语音识别方法以及电子设备、存储装置 | |
CN110858268B (zh) | 一种检测语音翻译系统中不流畅现象的方法及系统 | |
CN110245331A (zh) | 一种语句转换方法、装置、服务器及计算机存储介质 | |
CN114049875A (zh) | 一种tts播报方法、装置、设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |