CN111966791B

CN111966791B - 海关数据产品词的提取方法及检索方法

Info

Publication number: CN111966791B
Application number: CN202010917197.0A
Authority: CN
Inventors: 车进; 曹彬
Original assignee: Shenzhen Xiaoman Technology Co ltd
Current assignee: Shenzhen Xiaoman Technology Co ltd
Priority date: 2020-09-03
Filing date: 2020-09-03
Publication date: 2024-04-19
Anticipated expiration: 2040-09-03
Also published as: CN111966791A

Abstract

本发明提供了一种海关数据产品词的提取方法及检索方法。其中提取方法首先将海关描述文本中的多余部分清理干净，转化成较好处理的形式；接着启发式的找到海关描述文本中的分割词，将产品词和描述部分进行分割；再将文本中的量词和日期正则替换为空格符或删除；然后通过语法规则删除文本中的描述部分，或使用互信息和左右信息熵对数据进行产品词组的提取，得到单词数≤5产品词组作为产品词加入词库。检索方法是首先对待检索文本进行分词，然后采用bit map或hash map结构在构建的词库中进行检索。本发明结合了语法结构、互信息、字符信息和海关数据特有的结构信息，可以充分结合各种信息的优势，准确提取和检索出产品词。

Description

海关数据产品词的提取方法及检索方法

技术领域

本发明属于通信技术领域，尤其涉及一种海关数据产品词的提取方法及检索方法。

背景技术

海关数据和快递数据中一般必须包含对所运物品的描述，这些描述是对具体产品的描述，带有大量的产品词信息，如产品名称、产品属性、生产商信息、产品功能及广告词等。因此，对产品词进行清洗利用的可行性比较大。当我们拥有一个完整的产品词库时，我们使用它能够快速对已有文本数据进行检索，增加文本数据的利用率和检索效率。但是，由于这种产品词包含大量非结构化词句，导致其关键词的提取较难，很难有合适的算法对其进行有效提取。

传统的产品词词库通常是基于人工录入和网络收集的，需要大量成本维护，同时并不能保证实时性。目前产品词的提取还存在以下问题：1.人工录入时手写的单词容易存在错词的情况；2.词句之间的分割时有错误的现象；3.产品词中经常会包含对产品的性能、品质等的描述语句，此类描述语句中包含缩略词、数字、停用词以及符号等，容易造成分词出来的结果效果不佳。

因此，急需提供一种产品词的提取方法，从而快速准确的构建产品词词库，并为产品词的检索提供基础数据。

发明内容

针对上述现有技术存在的缺陷，本发明的目的在于提供一种海关数据产品词的提取方法，结合语法结构、互信息、字符信息和海关数据特有的结构信息等，快速准确的提取出产品词。

为实现上述目的，本发明采用以下技术方案实现：

一种海关数据产品词的提取方法，包括以下步骤：

S1.首先对海关描述文本进行格式统一化处理，然后将连词符以外的特殊符号清洗删除，并规范化单词间隔；

S2.对海关描述文本中的连词符做如下处理：将连接有数字的连词符组成的字符串替换为空格符；将前后分别连接一个或两个字符的字符串删除；

S3.然后启发式的找到海关描述文本中的分割词，将海关描述文本中的产品词和描述部分进行分割；接着将海关描述文本中的量词和日期正则替换为空格符或删除；

S4.使用步骤S3所述的分割词将海关描述文本分割为若干语句，通过语法规则删除所述海关描述文本中的描述部分，将单词数≤5的产品词组作为产品词加入词库；

或者使用互信息和左右信息熵对经步骤S2处理后的海关描述文本进行产品词组的提取，根据提取结果的抽查，不断调整互信息和左右信息熵的阈值，将抽取到的单词数≤5产品词组保留下来作为产品词加入词库。

作为本发明的进一步改进，在步骤S1中，所述特殊符号包括但不限于为划线、单引号、双引号、省略号、中的一种或多种。

作为本发明的进一步改进，在步骤S3中，所述分割词包括字符个数大于20的字符串和字符个数≤3且频率很低的字符串。

作为本发明的进一步改进，在步骤S3中，所述频率很低的字符串通过以下方法确定：统计所有字符串，计算每一个字符串出现的频率，频率低于阈值的字符串即为频率很低的字符串。

作为本发明的进一步改进，在步骤S4中，所述语法规则包括：删除for,used,use,only,ho,and之后的所有字符串；

删除首尾单词分别为以下字符的字符串：

start_str＝['ft','vi','ab','only','is','part','parts','of','with','al-gt','on']；

end_str＝['br','au','tro','ea','the','vi','of','not','bj','nut-','pro-et','sf','iii','all','perc','and','f','to']；

删除字符串开头或结尾为以下字符的字符串：

single_str＝['old','input','inch','nan','big','mic','de','pre','in','parts','part','felt','not','hot','ft','ab','ms','to']。

作为本发明的进一步改进，在步骤S4中，所述互信息的计算公式如下：

式中，X和Y表示两个相邻的词，P(X,Y)表示X和Y相邻，且X出现在Y前面的概率，P(X)表示X出现的概率；

所述左右信息熵的计算公式如下：

式中，E_L(W)和E_R(W)分别表示左熵和右熵，W表示产品词，A表示W左边出现的所有词的集合，B表示W右边出现的所有词的集合。

作为本发明的进一步改进，步骤S4中所述词库对所述产品词采用hash map结构进行存储，且每一个所述产品词的第一个词为key，所述产品词的整体为hash结构的value。

一种海关数据产品词的检索方法，包括以下步骤：

a1.首先对待检索文本进行分词，构建一个bitmap，以0为初始值；

b1.然后在以上所述的词库中遍历所述待检索文本中的每一个单词，如果词库中包含所述待检索文本中的单词，则将该单词对应的初始值0替换为1；

c1.最后将bitmap中1的位置拼接起来，得到融合之后的产品词，即为检索目标。

一种海关数据产品词的检索方法，包括以下步骤：

a2.首先对待检索文本进行分词；

b2.然后将以上所述的词库减小为key仅为步骤a2所述的待检索文本中的每个单词的hash map；

c2.最后使用滑动窗口在所述词库中对所述待检索文本进行检索，得到所有潜在的产品词，并且依次判断是否在hash结构中，如果在，则即得到检索目标。

作为本发明的进一步改进，在步骤c2中，所述滑动窗口的元素个数≤5。

有益效果

与现有技术相比，本发明提供的海关数据产品词的提取方法及检索方法具有如下有益效果：

(1)本发明提供的海关数据产品词的提取方法，针对海关描述文本特有的结构信息，对文本中的特殊字符进行删除或替换，其中，对海关描述文本中的连词符做如下处理：将连接有数字的连词符组成的字符串替换为空格符；将前后分别连接一个或两个字符的字符串删除，以简化文本的组成，从而降低产品词提取难度，提高提取速率和准确率。然后选用字符个数≤3频率很低的字符串和字符个数大于20的字符串作为分割词，对文本进行分割，并根据针对海关描述文本的语法结构，通过语法规则删除描述部分，或使用互信息和左右信息熵对数据进行产品词组的提取，得到单词数≤5产品词组作为产品词加入词库。此种提取方式，针对性更强，因此准确率更高，同时结合了语法结构、互信息、字符信息、海关数据特有的结构信息，可以很准确完整的在海关描述中找到产品词。

(2)本发明提供的海关数据产品词的提取方法，选用字符个数大于20的字符串和字符个数≤3且频率很低的字符串作为分割词，对海关描述文本中的产品词和描述部分进行分割。此种分割词的选用合理，且较适用于海关描述文本，因此分割准确度高。使用互信息和左右信息熵提取产品词，根据提取结果的抽查，不断调整互信息和左右信息熵的阈值，最终将得到单词数≤5产品词组作为产品词加入词库，而且使用hash map结构对产品词进行存储。此种方法得到的词库更有利于词库的更新和管理，由于产品词的单词数小于等于5，因此能够提高后续检索准确度和效率。

(3)本发明提供的海关数据产品词的检索方法，首先对待检索文本进行分词，然后采用bit map或hash map结构在构建的词库中进行检索，由于采用了以上所述词库，因此检索准确度得到保证。采用hash map结构，能够解决检索速度过慢的问题。

具体实施方式

以下将对本发明各实施例的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例；基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施例，都属于本发明所保护的范围。

本发明提供了一种海关数据产品词的提取方法，包括以下步骤：

S1.首先对海关描述文本进行格式统一化处理，然后将连词符以外的特殊符号清洗删除，并规范化单词间隔。其中，所述特殊符号包括但不限于为长划线“—”、短划线“–”、单引号“‘’”、双引号““””、省略号“…”、中的一种或多种。即经过步骤S1处理后的海关描述文本应具有统一的格式，不包含除连词符以外的特殊符号(即除了连词符以外，基本只包含由英文字符组成的单词字符串)，且每个单词字符串的间隔相同。

S2.对海关描述文本中的连词符做如下处理：将连接有数字的连词符组成的字符串替换为空格符；将前后分别连接一个或两个字符的字符串删除。

例如将p-no这种一个字符加上连词符号连接一个或两个字符的字符串删除；将no-p这种一个字符或两个字符加上连词符号连接一个的字符串删除。

S3.然后启发式的找到海关描述文本中的分割词，将海关描述文本中的产品词和描述部分进行分割；所述分割词包括字符个数大于20的字符串和字符个数≤3且频率很低的字符串。

其中，所述频率很低的字符串通过以下方法确定：统计所有字符串，计算每一个字符串出现的频率，频率低于阈值(如设置为下10分位数)的字符串即为频率很低的字符串。

接着将海关描述文本中的量词和日期正则替换为空格符或删除；在海关描述文本的开头或结尾经常出现一些数量和日期的表示，由于这部分数据表达的不规范，可通过不断查找一些特定的量词来分析，多次正则替换这些量词和日期的表达为空或删除。

S4.然后使用步骤S3所述的分割词将海关描述文本分割为若干语句，通过语法规则删除所述海关描述文本中的描述部分，得到单词数≤5的产品词组作为产品词加入词库；

其中，所述语法规则包括：删除for,used,use,only,ho,and之后的所有字符串；

删除首尾单词分别为以下字符的字符串：

end_str＝['br','au','tro','ea','the','vi','of','not','bj','nut-','pro-et','sf','iii','all','perc','and','f','to']；例如，如果词组是以is开头，则整个词组会被删掉。

删除字符串开头或结尾为以下字符的字符串：

single_str＝['old','input','inch','nan','big','mic','de','pre','in','parts','part','felt','not','hot','ft','ab','ms','to']。例如，如果开头的字符串是oldman，因为开头的字符是old，虽然old不是一个单独的单词，但是这个字符串oldman会被整个删除掉。

将经过以上规则清洗后的词将字符串只含有1至5个单词的保留下来加入词库。

或者，使用互信息和左右信息熵对数据进行产品词组的提取，根据提取结果的抽查，不断调整互信息和左右信息熵的阈值，将抽取到的单词数≤5产品词组保留下来作为产品词加入词库。

其中，所述互信息的计算公式如下：

式中，X和Y表示两个相邻的词，P(X,Y)表示X和Y相邻，且X出现在Y前面的概率，P(X)表示X出现的概率；互信息越大，表示X和Y越有可能连接在一块。

所述左右信息熵的计算公式如下：

左右信息熵即左熵和右熵，以左熵为例，对于词W来说，它左边出现的所有词构成了集合A，对于A里面的所有词，我们分别计算信息熵，并求和，如果一个由多个单词构成的词组，左熵越大，表示它左边出现的词有很多种可能，所以非常有可能左侧的分割是正确的。右熵也是同样的道理，我们找到左右熵都大的词组，则这个词组极有可能是一个有效词组，也就是我们要找的产品词。

最终结果使用步骤S4得到的词库作为总词库。

进一步的，步骤S4中所述词库对所述产品词采用hash map结构进行存储，且每一个所述产品词的第一个词为key，所述产品词的整体为hash结构的value。如此操作，原因在于，当产品词多了之后，产品词遍历会变得非常慢。为了避免速度过慢，本发明使用hashmap结构对产品词进行存储，对于每一个产品词，它的第一个词是key，这个词本身是hash结构的value，例如Car headlight这个词，在hash结构中car是key，Car headlight是value。

通过采用上述技术方案，可以同时结合语法结构、互信息、字符信息、海关数据特有的结构信息等，从而很准确完整的在海关描述文本中找到产品词。

本发明还提供了一种海关数据产品词的检索方法，包括以下步骤：

a1.首先对待检索文本进行分词，构建一个bitmap，以0为初始值；例如对于待检索文本i have a car headlight的bit map就是【0，0，0，0，0】；

b1.然后在以上所述的词库中遍历所述待检索文本中的每一个单词，如果词库中包含所述待检索文本中的单词，则将该单词对应的初始值0替换为1；上述【0，0，0，0，0】遍历后就得到了【0，0，0，1，1】；

当产品词多了之后，产品词遍历检索会变得非常慢，为了避免速度过慢，本发明优选使用hash map结构对产品词进行存储。针对此种存储结构，本发明还提供了一种海关数据产品词的检索方法，包括以下步骤：

a2.首先对待检索文本进行分词；例如i have a car headlight分词为【i，have，a,car,headlight】；

c2.因为词库中的产品词的长度被限制为1-5，因此最后使用元素个数≤5滑动窗口在所述词库中对所述待检索文本进行检索，得到所有潜在的产品词，并且依次判断是否在hash结构中，如果在，则即得到检索目标。

综上所述，本发明海关数据产品词的提取方法及检索方法针对海关描述文本特有的结构信息，对文本中的特殊字符进行删除或替换，其中，对海关描述文本中的连词符做如下处理：将连接有数字的连词符组成的字符串替换为空格符；将前后分别连接一个或两个字符的字符串删除，以简化文本的组成，从而降低产品词提取难度，提高提取速率和准确率。然后选用字符个数≤3且频率很低的字符串和字符个数大于20的字符串作为分割词，对文本进行分割，并根据针对海关描述文本的语法结构，通过语法规则删除描述部分，或使用互信息和左右信息熵对数据进行产品词组的提取，得到单词数≤5产品词组作为产品词加入词库。此种提取方式，针对性更强，因此准确率更高，同时结合了语法结构、互信息、字符信息、海关数据特有的结构信息，可以很准确完整的在海关描述中找到产品词。此种方法得到的词库更有利于词库的更新和管理，由于产品词的单词数小于等于5，因此能够提高后续检索准确度和效率。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种海关数据产品词的提取方法，其特征在于，包括以下步骤：

S1.首先对海关描述文本进行格式统一化处理，然后清洗以及删除除了连词符以外的特殊符号，并规范化单词间隔，所述特殊符号包括但不限于为划线、单引号、双引号、省略号、、/>中的一种或多种；

2.根据权利要求1所述的海关数据产品词的提取方法，其特征在于，在步骤S3中，所述分割词包括字符个数大于20的字符串和字符个数≤3且出现的频率低于阈值的字符串。

3.根据权利要求2所述的海关数据产品词的提取方法，其特征在于，在步骤S3中，所述出现的频率低于阈值的字符串通过以下方法确定：统计所有字符串，计算每一个字符串出现的频率，频率低于阈值的字符串即为出现的频率低于阈值的字符串。

4.根据权利要求1所述的海关数据产品词的提取方法，其特征在于，在步骤S4中，所述语法规则包括：删除for,used,use,only,ho,and之后的所有字符串；

删除首尾单词分别为以下字符的字符串：

删除字符串开头或结尾为以下字符的字符串：

single_str＝['old','input','inch','nan','big','mic','de','pre','in','

parts','part','felt','not','hot','ft','ab','ms','to']。

5.根据权利要求1所述的海关数据产品词的提取方法，其特征在于，在步骤S4中，所述

互信息的计算公式如下：

所述左右信息熵的计算公式如下：

式中，EL(W)和ER(W)分别表示左熵和右熵，W表示产品词，A表示W左边出现的所有词的集合，B表示W右边出现的所有词的集合。

6.根据权利要求1所述的海关数据产品词的提取方法，其特征在于，步骤S4中所述词库对所述产品词采用hashmap结构进行存储，且每一个所述产品词的第一个词为key，所述产品词的整体为hash结构的value。

7.一种海关数据产品词的检索方法，其特征在于，包括以下步骤：a1.首先对待检索文本进行分词，构建一个bitmap，以0为初始值；

b1.然后在权利要求1至5中任一项权利要求所述的一种海关数据产品词的提取方法所形成的词库中遍历所述待检索文本中的每一个单词，如果词库中包含所述待检索文本中的单词，则将该单词对应的初始值0替换为1；

8.一种海关数据产品词的检索方法，其特征在于，包括以下步骤：a2.首先对待检索文本进行分词；

b2.然后将权利要求6所述的一种海关数据产品词的提取方法所形成的词库减小为key仅为步骤a2所述的待检索文本中的每个单词的hash map；

9.根据权利要求8所述的海关数据产品词的检索方法，其特征在于，在步骤c2中，所述滑动窗口的元素个数≤5。