CN109145297B

CN109145297B - 基于hash存储的网络词汇语义分析方法和系统

Info

Publication number: CN109145297B
Application number: CN201810917995.6A
Authority: CN
Inventors: 张楠; 谢彬; 李程; 刘立; 佘平
Original assignee: CETC 32 Research Institute
Current assignee: CETC 32 Research Institute
Priority date: 2018-08-13
Filing date: 2018-08-13
Publication date: 2022-06-10
Anticipated expiration: 2038-08-13
Also published as: CN109145297A

Abstract

本发明提供了一种基于Hash存储的网络词汇语义分析方法和系统，收集网络词汇，对所收集的网络词汇，收集对应的传统词汇，依据所述网络词汇、传统词汇的一一对应关系建立(key，value)对，其中key为网络词汇，value为传统词汇；确定Hash函数，将所述(key，value)对根据Hash函数计算得出Hash函数值，按所述Hash函数值、所述(key，value)对存储在Hash链表中；在Hash链表中查找所述网络词汇，并转化为传统词汇；依据上下文的语义结构，结合贝叶斯定律，修正词汇语义的二义性，判定所述词汇是否是网络词汇。针对社交短文本中存在的大量网络用语现象，快速准确定位社交短文本中的网络用语。

Description

基于hash存储的网络词汇语义分析方法和系统

技术领域

本发明涉及自然语言处理领域，具体地，涉及基于hash存储的网络词汇语义分析方法和系统。

背景技术

随着社交网络的蓬勃发展，人们更加习惯于在社交平台上记录日常生活以及发表对相关问题的看法，社交短文本大量的产生。分析和处理这些文本对于网络舆情的监控和热点事件的民意分析有着重要的作用。与传统文本不同的是，社交文本的严谨性不高，包含了大量有别于日常用语习惯的网络用语，而且这些网络用语往往跟情绪的表达有着重要的关系。传统的自然语言处理技术大多是针对符合日常用语习惯的词语、句子等进行分析，这使得计算机在处理网络用语方面存在着较大的不足。

现有的语义识别的方案主要有两种，一种是分析词语的结构组成，标注词语的词性，按照现有的语言规则来识别词语的语义；另外一种是利用卷积神经网络来对词语的语义矩阵进行处理，最终得到语义向量。对于分析词语结构的方法，由于需要对词性进行标注，所以工作量巨大，处理的效率相对较低。而且，网络用语一般不具有正常的语法结构，所以即使可以正确的标注其词性结构组成，依然无法正确获取它的语义。而利用卷积神经网络分析语义的方法对语义的原始矩阵具有较高的要求，原始矩阵一般通过word2vec获得，word2vec在对于网络用语的处理上尚不能满足要求。同时，卷积神经网络是对语义分析的黑盒实现，一旦发现算法对语义的提取不准确，很难找出合理的提升方案。由此可以看出，这两种传统的分析语义的方案都是针对于传统语言的，由于他们本身的局限性，很难处理社交网络中广泛流行的网络用语。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于Hash存储的网络词汇语义分析方法和系统。

根据本发明提供的一种基于Hash存储的网络词汇语义分析方法，包括：

建立网络词汇对应关系步骤：收集网络词汇，对所收集的网络词汇，收集对应的传统词汇，依据所述网络词汇、传统词汇的一一对应关系建立(key，value)对，其中key为网络词汇，value为传统词汇，所述传统词汇是网络词汇的含义解释；

建立Hash链表结构步骤：确定Hash函数，将所述(key，value)对根据Hash函数计算得出Hash函数值，将所述Hash函数值、所述(key，value)对存储在Hash链表中；

定义网络词汇语义步骤：在Hash链表中查找所述网络词汇，并转化为传统词汇。

优选地，基于Hash存储的网络词汇语义分析方法还包括，修正词汇二义性步骤：依据上下文的语义结构，结合贝叶斯定律，修正待解析词汇语义，判定所述待解析词汇是否是网络词汇。

优选地，所述建立Hash链表结构步骤包括：

定义Hash链表的节点结构步骤：定义Hash链表的节点结构，所述节点结构中至少包括两个指针，记为第一指针、第二指针，所述第一指针指向具有与所述网络词汇节点结构相同Hash函数值的下一个网络词汇节点，所述第二指针指向所述网络词汇节点结构中与所述网络词汇对应的传统词汇节点；

设计Hash函数步骤：根据固定时间段内网络词汇的数量，设定Hash链表的存储长度数值，设定Hash函数为f(X)＝X％存储长度数值，其中X为网络词汇的uft-8码各个位的值的平方和，f(X)表示Hash函数值，符号％表示取模运算；

建立Hash链表步骤：根据所述存储长度数值建立Hash Node链表，将所述(key，value)对中的网络词汇进行Hash计算得出Hash函数值f(X)，将(key，value)对中的key作为第一节点结构插入Hash Node链表的第f(X)位置，将(key，value)对中的value作为第二节点结构链接到第一节点结构的第二指针，所述第一节点结构的第一指针的指向存在以下两种情况之一：

-指向为null；

-指向与key具有相同Hash函数值f(X)的网络词汇所属的第三节点结构。

优选地，定义网络词汇语义步骤包括：

计算网络词汇的Hash函数值步骤：将待解析的网络词汇根据Hash函数计算得出Hash函数值f(X)；

遍历查找网络词汇语义步骤：在Hash链表的f(X)位置处查找第一节点结构中的Key，判定是否与待解析的网络词汇相同，若不相同，则遍历第一节点结构的第一指针指向的Key值，遍历后得到的与待解析的网络词汇相同的key值，记为中间网络词汇；若相同，则取与待解析的网络词汇相同的key值，记为中间网络词汇；

获取传统词汇语义步骤：将所述中间网络词汇所在的第一节点结构的第二指针指向的value值，记为目标传统词汇，即为待解析的网络词汇对应的传统词汇语义。

优选地，所述修正词汇二义性步骤包括：

初期判定词汇步骤：统计常见具有二义性的词汇的上下文依存语法关系，计算得出先验概率；

分析上下文依存语法步骤：对待解析词汇所处的上下文依存语法关系进行分析；

最终判定词汇步骤：计算待解析词汇作为网络词汇的概率P1，计算待解析词汇作为传统词汇的概率P2，若P1>P2，则判定待解析词汇为网络词汇，若P1≤P2，则判定待解析词汇为传统词汇。

根据本发明提供的一种基于Hash存储的网络词汇语义分析系统包括：

建立网络词汇对应关系模块：收集网络词汇，对所收集的网络词汇，收集对应的传统词汇，依据所述网络词汇、传统词汇的一一对应关系建立(key，value)对，其中key为网络词汇，value为传统词汇，所述传统词汇是网络词汇的含义解释；

建立Hash链表结构模块：确定Hash函数，将所述(key，value)对根据Hash函数计算得出Hash函数值，按所述Hash函数值、所述(key，value)对存储在Hash链表中；

定义网络词汇语义模块：在Hash链表中查找所述网络词汇，并转化为传统词汇。

优选地，基于Hash存储的网络词汇语义分析系统还包括，修正词汇二义性模块：依据上下文的语义结构，结合贝叶斯定律，修正待解析词汇语义，判定所述待解析词汇是否是网络词汇。

优选地，所述建立Hash链表结构模块包括：

定义Hash链表的节点结构模块：定义Hash链表的节点结构，所述节点结构中至少包括两个指针，记为第一指针、第二指针，所述第一指针指向具有与所述网络词汇节点结构相同Hash函数值的下一个网络词汇节点，所述第二指针指向所述网络词汇节点结构中与所述网络词汇对应的传统词汇节点；

设计Hash函数模块：根据固定时间段内网络词汇的数量，设定Hash链表的存储长度数值，设定Hash函数为f(X)＝X％存储长度数值，其中X为网络词汇的uft-8码各个位的值的平方和；

建立Hash链表模块：根据所述存储长度数值建立Hash Node链表，将所述(key，value)对中的网络词汇进行Hash计算得出Hash函数值f(X)，将(key，value)对中的key作为第一节点结构插入Hash Node链表的第f(x)位置，将(key，value)对中的value作为第二节点结构链接到第一节点结构的第二指针，所述第一节点结构的第一指针的指向存在以下两种情况之一：

-指向为null；

-指向与key具有相同Hash函数值f(X)的网络词汇所属的第三节点结构；

优选地，定义网络词汇语义模块包括：

计算网络词汇的Hash函数值模块：将待解析的网络词汇根据Hash函数计算得出Hash函数值f(X)；

遍历查找网络词汇语义模块：在Hash链表的f(X)位置处查找第一节点结构中的Key，判定是否与待解析的网络词汇相同，若不相同，遍历第一节点结构的第一指针指向的Key值，遍历后得到的与待解析的网络词汇相同的key值，记为中间网络词汇；若相同，则取与待解析的网络词汇相同的key值，记为中间网络词汇；

获取传统词汇语义模块：将所述中间网络词汇所在的第一节点结构的第二指针指向的value值，记为目标传统词汇，即为待解析的网络词汇对应的传统词汇语义。

优选地，所述修正词汇二义性模块包括：

初期判定词汇模块：统计常见具有二义性的词汇的上下文依存语法关系，计算得出先验概率；

分析上下文依存语法模块：对待解析词汇所处的上下文依存语法关系进行分析；

最终判定词汇模块：计算待解析词汇作为网络词汇的概率P1，计算待解析词汇作为传统词汇的概率P2，若P1>P2，则判定待解析词汇为网络词汇，若P1≤P2，则判定待解析词汇为传统词汇。

与现有技术相比，本发明具有如下的有益效果：

1、基于Hash存储网络词汇与传统词汇，快速准确定位社交短文本中的网络用语；

2、将网络用语合理的转化为传统的表达方式，使得后续的语义分析步骤更加的便捷和准确；

3、对于既可以做网络用语又可以做传统用语的词语，准确的分析了其在不同语境中具体含义。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明的Hash链表单节点图；

图2为本发明的Hash链表的存储结构图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

本发明公开了一种基于Hash存储的网络词汇语义分析系统，包括：建立网络词汇对应关系模块：收集网络词汇，对所收集的网络词汇，收集对应的传统词汇，依据所述网络词汇、传统词汇的一一对应关系建立(key，value)对，其中key为网络词汇，value为传统词汇，所述传统词汇是网络词汇的含义解释；建立Hash链表结构模块：确定Hash函数，将所述(key，value)对根据Hash函数计算得出Hash函数值，按所述Hash函数值、所述(key，value)对存储在Hash链表中；定义网络词汇语义模块：在Hash链表中查找所述网络词汇，并转化为传统词汇。

具体地，还包括，修正词汇二义性模块：依据上下文的语义结构，结合贝叶斯定律，修正待解析词汇语义，判定所述待解析词汇是否是网络词汇。

具体地，所述建立Hash链表结构模块包括：定义Hash链表的节点结构模块：定义Hash链表的节点结构，所述节点结构中至少包括两个指针，记为第一指针、第二指针，所述第一指针指向具有与所述网络词汇节点结构相同Hash函数值的下一个网络词汇节点，所述第二指针指向所述网络词汇节点结构中与所述网络词汇对应的传统词汇节点；设计Hash函数模块：根据固定时间段内网络词汇的数量，设定Hash链表的存储长度数值，设定Hash函数为f(X)＝X％存储长度数值，其中X为网络词汇的uft-8码各个位的值的平方和；建立Hash链表模块：根据所述存储长度数值建立Hash Node链表，将所述(key，value)对中的网络词汇进行Hash计算得出Hash函数值f(X)，将(key，value)对中的key作为第一节点结构插入HashNode链表的第f(x)位置，将(key，value)对中的value作为第二节点结构链接到第一节点结构的第二指针，所述第一节点结构的第一指针的指向存在以下两种情况之一：-指向为null；-指向与key具有相同Hash函数值f(X)的网络词汇所属的第三节点结构；

具体地，定义网络词汇语义模块包括：计算网络词汇的Hash函数值模块：将待解析的网络词汇根据Hash函数计算得出Hash函数值f(X)；遍历查找网络词汇语义模块：在Hash链表的f(X)位置处查找第一节点结构中的Key，判定是否与待解析的网络词汇相同，若不相同，遍历第一节点结构的第一指针指向的Key值，遍历后得到的与待解析的网络词汇相同的key值，记为中间网络词汇；若相同，则取与待解析的网络词汇相同的key值，记为中间网络词汇；获取传统词汇语义模块：将所述中间网络词汇所在的第一节点结构的第二指针指向的value值，记为目标传统词汇，即为待解析的网络词汇对应的传统词汇语义。

具体地，所述修正词汇二义性模块包括：初期判定词汇模块：统计常见具有二义性的词汇的上下文依存语法关系，计算得出先验概率；分析上下文依存语法模块：对待解析词汇所处的上下文依存语法关系进行分析；最终判定词汇模块：计算待解析词汇作为网络词汇的概率P1，计算待解析词汇作为传统词汇的概率P2，若P1>P2，则判定待解析词汇为网络词汇，若P1≤P2，则判定待解析词汇为传统词汇。

本发明提供的基于Hash存储的网络词汇语义分析系统，可以通过基于Hash存储的网络词汇语义分析方法的步骤流程实现。本领域技术人员可以将基于Hash存储的网络词汇语义分析方法理解为所述基于Hash存储的网络词汇语义分析系统的优选例。

本发明公开了一种基于Hash存储的网络词汇语义分析方法，针对社交短文本中存在的大量的网络用语的现象，提出的一种更准确，快速的解决网络用语的语义分析解决方案，所述方法包括：

建立Hash链表结构步骤：确定Hash函数，将所述(key，value)对根据Hash函数计算得出Hash函数值，按所述Hash函数值、所述(key，value)对存储在Hash链表中；

定义网络词汇语义步骤：在Hash链表中查找所述网络词汇，并转化为传统词汇。当发现一个词语为网络用语时，则通过在Hash表中查找的方式来将其转化为传统的词语。

具体地，还包括，修正词汇二义性步骤：依据上下文的语义结构，结合贝叶斯定律，修正待解析词汇语义，判定所述待解析词汇是否是网络词汇。分析那些既可以做网络用语又符合传统用语的规则的词语的具体意义，排除词语的二义性。

具体地，所述建立Hash链表结构步骤包括：

如图1所示，Hash表的节点结构HashNode中存在两个指针，即为第一指针、第二指针，第一指针为图1中的Next指针，第二指针为图1中的Behind指针，Next指针指向具有相同Hash值的下一个网络用语，Behind指针指向与该节点的网络用语对应的传统词语。

设计Hash函数步骤：根据固定时间段内网络词汇的数量，设定Hash链表的存储长度数值，设定Hash函数为f(X)＝X％存储长度数值，其中X为网络词汇的uft-8码各个位的值的平方和；虽然网络用语在实时的产生，并且更新和淘汰的速度很快，但是在一个固定的时间段内，使用的网络用语大部分是相对固定的。优选地，设定Hash的长度为1000。Hash函数为f(X)＝X％1000；其中X为词语的uft-8码各个位的值的平方和

-指向为null；

如图2的Hash链表的存储结构图所示，Hash链表的初始状态为一个长度为1000的HashNode链表。当读入一个(key，value)值时，生成的Hash链表的单元节点node₁。利用Hash函数计算key值对应的f(x)值，并将其插入Hash链表的第f(x)位置。如果f(x)位置的HashNode的向下的指针指向null，即这个位置还没有插入过值，则将其向下的指针指向key所在的HashNode。如果第f(x)位置已经有值了，则沿着此处的HashNode向下的指针，一直遍历到最后一个HashNode的node_n，并将node_n的向下的指针指向key所在的HashNode。

具体地，定义网络词汇语义步骤包括：

遍历查找网络词汇语义步骤：在Hash链表的f(X)位置处查找第一节点结构中的Key，判定是否与待解析的网络词汇相同，若不相同，遍历第一节点结构的第一指针指向的Key值，遍历后得到的与待解析的网络词汇相同的key值，记为中间网络词汇；

获取传统词汇语义步骤：将所述中间网络词汇所在的第一节点结构的第二指针指向的value值，记为目标传统词汇，即为待解析的网络词汇对应的传统词汇语义。优选地，当在短文本中发现一个网络用语word₁时，首先根据Hash函数计算其f(x)值，在Hash链表的第f(x)个位置沿着向下的指针，直到找到一个HashNode的值为word₁时，返回此HashNode的向后的指针指向的节点的的值，即此网络用语对应的传统表达的值。

在网络用语中，有一部分词语是可以当做传统词语来使用的，例如“同学”的网络用语形式为“童鞋”，而“童鞋”本身也是一个传统的词语，本发明依照词语的上下文依存语法，结合贝叶斯定律来解决此类问题。

具体地，所述修正词汇二义性步骤包括：

最终判定词汇步骤：计算待解析词汇作为网络词汇的概率P1，计算待解析词汇作为传统词汇的概率P2，若P1>P2，则判定待解析词汇为网络词汇，若P1≤P2，则判定待解析词汇为传统词汇。下面对本发明的应用场景和具体实施作更进一步的阐述。在社交网络的短文本分析中，首先将短文本进行分词处理，得到独立的词集，然后检查词集中是否存在网络用语，并在Hash链表中查找该网络用语的传统用语，而后将词集中的该网络用语替换成传统用语；对于既可以作为网络用语又可以作为传统用语的词语，计算其在具体上下文中的概率，从而做出准确的判断；在网络舆情监控中，需要分析大量的言论信息，其中就含有的量的网络用语。利用本方法建立Hash存储结构，在分析时，当检索到一个网络用语时就将其进行合理的替换，从而进行更准确的情感分析和舆情的监控；在电商平台中，存在一些“虚假的评论”，即点击了好评而文字内容却是差评，或者点击差评而文字内容却是好评。在商品评论中，同样存在着大量的网络用语现象，可以利用本方法分析评论的情感倾向，更好的为商家提供改进商品和服务的建议。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种基于Hash存储的网络词汇语义分析方法，其特征在于，包括：

定义网络词汇语义步骤：在Hash链表中查找所述网络词汇，并转化为传统词汇；

还包括，修正词汇二义性步骤：依据上下文的语义结构，结合贝叶斯定律，修正待解析词汇语义，判定所述待解析词汇是否是网络词汇；

所述建立Hash链表结构步骤包括：

-指向为null；

所述修正词汇二义性步骤包括：

2.根据权利要求1所述的基于Hash存储的网络词汇语义分析方法，其特征在于，定义网络词汇语义步骤包括：

3.一种基于Hash存储的网络词汇语义分析系统，其特征在于，包括：

定义网络词汇语义模块：在Hash链表中查找所述网络词汇，并转化为传统词汇；

还包括，修正词汇二义性模块：依据上下文的语义结构，结合贝叶斯定律，修正待解析词汇语义，判定所述待解析词汇是否是网络词汇；

所述建立Hash链表结构模块包括：

-指向为null；

所述修正词汇二义性模块包括：

4.根据权利要求3所述的基于Hash存储的网络词汇语义分析系统，其特征在于，定义网络词汇语义模块包括：