CN113762846B

CN113762846B - 一种面单文本判别方法和装置

Info

Publication number: CN113762846B
Application number: CN202011139651.0A
Authority: CN
Inventors: 樊宇
Original assignee: Beijing Jingdong Zhenshi Information Technology Co Ltd
Current assignee: Beijing Jingdong Zhenshi Information Technology Co Ltd
Priority date: 2020-10-22
Filing date: 2020-10-22
Publication date: 2024-04-16
Anticipated expiration: 2040-10-22
Also published as: CN113762846A

Abstract

本发明公开了一种面单文本判别方法和装置，涉及计算机技术领域。该方法的一具体实施方式包括：根据历史运单信息，计算所述历史运单的物流距离、面单文本的违规词相似度、相对于用户注册时间的运单创建时间；根据当前运单和所述历史运单的物流距离、面单文本的违规词相似度、相对于用户注册时间的运单创建时间，计算所述当前运单的面单文本中含有违规信息的概率；根据所述当前运单的面单文本中含有违规信息的概率，确定所述当前运单的面单文本的判别结果。该实施方式能够解决违规内容的判别准确性较低的技术问题。

Description

一种面单文本判别方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种面单文本判别方法和装置。

背景技术

现有的面单文本判别方案依赖于语料库的纯字符串分析，误断情况很多。例如，“独立”这个词被列为违规词，但该词本身的信息量较小，会将“独立包装”这个正常词汇误判为违规词。

在实现本发明过程中，发明人发现现有技术中至少存在如下问题：

现有方案对于一些添加噪点的违规词，一般是判断字符串的子串是否存在违规词，因此容易出现违规词误判的问题，导致违规内容的判别准确性较低。

发明内容

有鉴于此，本发明实施例提供一种面单文本判别方法和装置，以解决违规内容的判别准确性较低的技术问题。

为实现上述目的，根据本发明实施例的一个方面，提供了一种面单文本判别方法，包括：

根据历史运单信息，计算所述历史运单的物流距离、面单文本的违规词相似度、相对于用户注册时间的运单创建时间；

根据当前运单和所述历史运单的物流距离、面单文本的违规词相似度、相对于用户注册时间的运单创建时间，计算所述当前运单的面单文本中含有违规信息的概率；

根据所述当前运单的面单文本中含有违规信息的概率，确定所述当前运单的面单文本的判别结果。

可选地，根据历史运单信息，计算所述历史运单的物流距离、面单文本的违规词相似度、相对于用户注册时间的运单创建时间，包括：

获取用户信息和所述用户的历史运单信息；其中，所述用户信息包括用户标识和用户注册时间，所述历史运单信息包括面单文本和相对于所述用户注册时间的运单创建时间，所述面单文本包括寄件人地址、寄件人姓名、收件人姓名、收件人地址、物品清单、备注信息；

分别计算每个面单文本的违规词相似度；

根据所述寄件人地址和所述收件人地址计算物流距离；

存储所述用户标识、所述用户注册时间、相对于所述用户注册时间的运单创建时间、所述物流距离和每个面单文本的违规词相似度。

可选地，对于每个面单文本，采用如下方法计算所述面单文本的违规词相似度：

将所述面单文本拆分为单字符，得到面单文本单字符集合；

从语料库中筛选出包含有任意一个所述面单文本单字符的违规词；

对于每个所述违规词，将所述违规词拆分为单字符，得到所述违规词单字符集合，将所述面单文本单字符集合和所述违规词单字符集合的重复字符的交集除以所述面单文本单字符集合和所述违规词单字符集合的不重复字符的并集，得到集合相似度；

筛选出最大的集合相似度作为所述面单文本的违规词相似度。

可选地，筛选出最大的集合相似度作为所述面单文本的违规词相似度，包括：

对于每个所述违规词，以所述集合相似度为键，以所述违规词为值，存储到第一多重映照容器中；

按照所述键的升序进行排序，将所述第一多重映照容器中最后一个键作为所述面单文本的违规词相似度。

可选地，存储所述用户标识、所述用户注册时间、相对于所述用户注册时间的运单创建时间、所述物流距离和每个面单文本的违规词相似度，包括：

以所述物流距离为第一节点，以每个面单文本的违规词相似度为第二节点，存储到对组容器中；

以相对于所述用户注册时间的运单创建时间为键，以所述对组容器为值，存储到第二多重映照容器中；

以所述用户注册时间为键，以所述第二多重映照容器为值，存储到第一映射容器中；

以所述用户标识为键，以所述第一映射容器为值，存储到第二映射容器中。

可选地，根据当前运单和所述历史运单的物流距离、面单文本的违规词相似度、相对于用户注册时间的运单创建时间，计算所述当前运单的面单文本中含有违规信息的概率，包括：

根据所述历史运单的物流距离、相对于用户注册时间的运单创建时间，计算所述历史运单的累计权重，根据所述历史运单的累计权重和当前运单的物流距离、相对于用户注册时间的运单创建时间，计算所述当前运单的累计权重；

根据所述当前运单的面单文本和所述历史运单的面单文本的违规词相似度，计算所述当前运单的面单文本中含有违规信息的累计运单权重；

将所述含有违规信息的累计运单权重除以所述当前运单的累计权重，得到所述当前运单的面单文本中含有违规信息的概率。

可选地，根据所述历史运单的物流距离、相对于用户注册时间的运单创建时间，计算所述历史运单的累计权重，根据所述历史运单的累计权重和当前运单的物流距离、相对于用户注册时间的运单创建时间，计算所述当前运单的累计权重，包括：

对于每个历史运单，对所述历史运单的相对于用户注册时间的运单创建时间取倒数，然后将所述倒数乘以所述历史运单的物流距离，得到所述历史运单的权重；

分别计算运单创建时间早于所述历史运单的每个历史运单的权重和当前运单的权重；

对当前运单的相对于用户注册时间的运单创建时间取倒数，然后将所述倒数乘以所述当前运单的物流距离，得到所述当前运单的权重；

对所述历史运单的权重、所述运单创建时间早于所述历史运单的每个历史运单的权重、所述当前运单的权重进行累计求和，得到所述当前运单的累计权重。

可选地，根据所述当前运单的面单文本和所述历史运单的面单文本的违规词相似度，计算所述当前运单的面单文本中含有违规信息的累计运单权重，包括：

对于每个历史运单，对所述历史运单的相对于用户注册时间的运单创建时间取倒数，然后将所述倒数乘以所述历史运单的物流距离和所述历史运单的面单文本的违规词相似度，得到所述历史运单的违规运单权重；

分别计算运单创建时间早于所述历史运单的每个历史运单的违规运单权重和所述当前运单的违规运单权重；

对所述历史运单的违规运单权重、所述运单创建时间早于所述历史运单的每个历史运单的违规运单权重、所述当前运单的违规运单权重进行累计求和，得到所述当前运单的面单文本中含有违规信息的累计运单权重。

可选地，根据历史运单信息，计算所述历史运单的物流距离、面单文本的违规词相似度、相对于用户注册时间的运单创建时间之前，还包括：

接收用户的注册请求，所述注册请求携带用户名；

将所述用户名拆分为单字符，得到用户名单字符集合；

从语料库中筛选出包含有任意一个所述用户名单字符的违规词；

对于每个所述违规词，将所述违规词拆分为单字符，得到所述违规词单字符集合，将所述用户名字符集合和所述违规词单字符集合的重复字符的交集除以所述面单文本单字符集合和所述违规词单字符集合的不重复字符的并集，得到集合相似度；

筛选出最大的集合相似度作为所述用户名的违规词相似度；

若所述用户名的违规词相似度大于违规阈值，则向所述用户返回注册失败的结果。

另外，根据本发明实施例的另一个方面，提供了一种面单文本判别装置，包括：

第一计算模块，用于根据历史运单信息，计算所述历史运单的物流距离、面单文本的违规词相似度、相对于用户注册时间的运单创建时间；

第二计算模块，用于根据当前运单和所述历史运单的物流距离、面单文本的违规词相似度、相对于用户注册时间的运单创建时间，计算所述当前运单的面单文本中含有违规信息的概率；

判别模块，用于根据所述当前运单的面单文本中含有违规信息的概率，确定所述当前运单的面单文本的判别结果。

可选地，所述第一计算模块还用于：

分别计算每个面单文本的违规词相似度；

根据所述寄件人地址和所述收件人地址计算物流距离；

可选地，所述第一计算模块还用于：对于每个面单文本，采用如下方法计算所述面单文本的违规词相似度：

将所述面单文本拆分为单字符，得到面单文本单字符集合；

可选地，所述第一计算模块还用于：

可选地，所述第二计算模块还用于：

可选地，还包括注册模块，用于：

接收用户的注册请求，所述注册请求携带用户名；

将所述用户名拆分为单字符，得到用户名单字符集合；

筛选出最大的集合相似度作为所述用户名的违规词相似度；

根据本发明实施例的另一个方面，还提供了一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行时，所述一个或多个处理器实现上述任一实施例所述的方法。

根据本发明实施例的另一个方面，还提供了一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现上述任一实施例所述的方法。

上述发明中的一个实施例具有如下优点或有益效果：因为采用根据当前运单和历史运单的物流距离、面单文本的违规词相似度、相对于用户注册时间的运单创建时间，计算当前运单的面单文本中含有违规信息的概率，从而确定当前运单的面单文本的判别结果的技术手段，所以克服了现有技术中违规内容的判别准确性较低的技术问题。本发明实施例结合运单的物流距离、面单文本的违规词相似度、相对于用户注册时间的运单创建时间等因素计算当前运单的违规概率，可以大大提高违规内容的判别准确度。本发明实施例基于面单文本单字符与违规词单字符进行相似度判断，分词方法简单，不需依赖分词词库，而且违规词相似度计算采用重复字符的交集除以不重复字符的并集，可以快速地得到判别结果。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是根据本发明实施例的面单文本判别方法的主要流程的示意图；

图2是根据本发明一个可参考实施例的面单文本判别方法的主要流程的示意图；

图3是根据本发明另一个可参考实施例的面单文本判别方法的主要流程的示意图；

图4是根据本发明实施例的面单文本判别装置的主要模块的示意图；

图5是本发明实施例可以应用于其中的示例性系统架构图；

图6是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本发明实施例的面单文本判别方法的主要流程的示意图。作为本发明的一个实施例，如图1所示，所述面单文本判别方法可以包括：

步骤101，根据历史运单信息，计算所述历史运单的物流距离、面单文本的违规词相似度、相对于用户注册时间的运单创建时间。

首先获取历史运单信息，然后根据历史运单信息计算各个历史运单的物流距离、面单文本的违规词相似度、相对于用户注册时间的运单创建时间。其中，所述历史运单信息可以包括面单文本和相对于所述用户注册时间的运单创建时间，所述面单文本包括寄件人地址、寄件人姓名、收件人姓名、收件人地址、物品清单、备注信息等。

可选地，步骤101可以包括：获取用户信息和所述用户的历史运单信息；其中，所述用户信息包括用户标识和用户注册时间；分别计算每个面单文本的违规词相似度；根据所述寄件人地址和所述收件人地址计算物流距离；存储所述用户标识、所述用户注册时间、相对于所述用户注册时间的运单创建时间、所述物流距离和每个面单文本的违规词相似度。在用户完成注册后，就可以进行下单购物，每次下单的信息形成运单的面单信息，面单信息可以包括多个面单文本，比如寄件人地址、寄件人姓名、收件人姓名、收件人地址、物品清单、备注信息等。

为了准确地计算当前的面单文本中含有违规信息的概率，需要在步骤101中预先计算每个历史运单的相对于所述用户注册时间的运单创建时间、物流距离和每个面单文本的违规词相似度。

其中，将历史运单的创建时间与用户注册时间相减，即为历史运单的相对于所述用户注册时间的运单创建时间，单位为天，不足一天的按一天计算。根据寄件人地址与收货人地址的逆地理编码得到经纬度坐标，然后根据两点间的经纬度坐标就可以计算得到物流距离。

可选地，对于每个面单文本(比如寄件人地址、寄件人姓名、收件人姓名、收件人地址、物品清单、备注信息等)，可以采用如下方法计算所述面单文本的违规词相似度：将所述面单文本拆分为单字符，得到面单文本单字符集合；从语料库中筛选出包含有任意一个所述面单文本单字符的违规词；对于每个所述违规词，将所述违规词拆分为单字符，得到所述违规词单字符集合，将所述面单文本单字符集合和所述违规词单字符集合的重复字符的交集除以所述面单文本单字符集合和所述违规词单字符集合的不重复字符的并集，得到集合相似度；筛选出最大的集合相似度作为所述面单文本的违规词相似度。

在本发明的实施例中，对于每个面单文本，将面单面单文本拆分为单字符，保存到线性表中，然后遍历每个面单文本单字符，从语料库中筛选出包含有任意一个面单文本单字符的违规词，将这些违规词放入到set集合中，如果set集合为空，说明该面单文本中没有违规内容。如果set集合不为空，则遍历set集合中的所有违规词，逐一计算每个违规词与面单文本的集合相似度，值域在(0,1]之间，然后筛选出最大的集合相似度作为所述面单文本的违规词相似度。

需要指出的是，在计算集合相似度时，所述面单文本单字符集合和所述违规词单字符集合的重复字符的交集是指两个集合中都出现的字符的数量，所述面单文本单字符集合和所述违规词单字符集合的并集是指两个集合中不重复的字符的数量。

可选地，筛选出最大的集合相似度作为所述面单文本的违规词相似度，包括：对于每个所述违规词，以所述集合相似度为键，以所述违规词为值，存储到第一多重映照容器中；按照所述键的升序进行排序，将所述第一多重映照容器中最后一个键作为所述面单文本的违规词相似度。为了方便对集合相似度做排序，将每个违规词的集合相似度都放入multimap中，key为集合相似度，value为违规词字符串，默认的multimap按key的升序排序，因此取multimap中的最后一个元素，即为集合相似度最大的违规词，将该集合相似度作为所述面单文本的违规词相似度。

本发明实施例可以将违规词直接载入内存并建立倒索引，直接用静态语言将字符串数组转换为单个字符，并计算违规词相似度，multi map可以高效地自动排序，编码量较少，其实现复杂度与运行效率也远高于其于动态虚拟机语言的第三方框架来实现。

由于面单文本可以是寄件人地址、寄件人姓名、收件人姓名、收件人地址、物品清单、备注信息等，因此对于每个历史运单，需要分别计算出寄件人地址、寄件人姓名、收件人姓名、收件人地址、物品清单、备注信息等的违规词相似度。

为了方便地从语料库中筛选出违规词，可以预先建立违规词单字索引。具体地，获得所有不同语料库中的违规词，保存到线性表中；遍历线性表中的每个违规词，将每个违规词拆分为单字符，并保存到线性表；对于每个单字符，将该单字符以及包含该单字符的所有违规词都存储到map中，map中的key为违规词的单字符，value为一个set集合中，用于保存包含该单字符的所有违规词。

可选地，存储所述用户标识、所述用户注册时间、相对于所述用户注册时间的运单创建时间、所述物流距离和每个面单文本的违规词相似度，包括：以所述物流距离为第一节点，以每个面单文本的违规词相似度为第二节点，存储到对组容器中；以相对于所述用户注册时间的运单创建时间为键，以所述对组容器为值，存储到第二多重映照容器中；以所述用户注册时间为键，以所述第二多重映照容器为值，存储到第一映射容器中；以所述用户标识为键，以所述第一映射容器为值，存储到第二映射容器中。具体地，将上述信息都放入map中，该 map中的key为用户标识(比如用户名或者用户ID等)，value为一个ma p，该map的key为用户注册时间(时间精度到日期)，value为一个mul timap，该multimap的key为相对于用户注册时间的运单创建时间(单位为天，不足一天的按一天计算)，value为一个pair(一个二元组的数据结构)，该pair中的第一个节点为物流距离，第二个节点为每个面单文本的违规词相似度。

需要指出的是，由于每个运单有多个面单文本，因此需要为每个面单文本配置占位，例如第一个位置为收件人地址、第二个位置为收件人姓名、第三个位置为寄件人地址、第四个位置为寄件人姓名等。考虑到相对于用户注册时间的运单创建时间存在重复的情况，因此需要为multimap的key增加下标，比如1_1，1_2，1_3，1_4，2_1等，方便获取各个key对应的pair。

作为本发明的另一个实施例，还可以采用如下方式存储上述信息：将上述信息都放入map中，该map中的key为用户标识(比如用户名或者用户ID等)，value为一个map，该map的key为用户注册时间(时间精度到日期)，value为多个map。以其中一个map为例，该map的key为寄件人地址，该map的value为一个multimap，该multimap的key为相对于用户注册时间的运单创建时间，value为一个pair，该pair中的第一个节点为物流距离，第二个节点为寄件人地址的违规词相似度。以另一个m ap为例，该map的key为寄件人姓名，该map的value为一个multimap，该 multimap的key为相对于用户注册时间的运单创建时间，value为一个pa ir，该pair中的第一个节点为物流距离，第二个节点为寄件人姓名的违规词相似度。以再一个map为例，该map的key为收件人地址，该map的 value为一个multimap，该multimap的key为相对于用户注册时间的运单创建时间，value为一个pair(一个二元组的数据结构)，该pair中的第一个节点为物流距离，第二个节点为收件人地址的违规词相似度。其他map同理，不再赘述，在该实施例中，每个面单文本的违规词相似度存储在不同的multimap中。

步骤102，根据当前运单和所述历史运单的物流距离、面单文本的违规词相似度、相对于用户注册时间的运单创建时间，计算所述当前运单的面单文本中含有违规信息的概率。

当用户输入相关面单文本(比如寄件人地址、寄件人姓名、收件人姓名、收件人地址、物品清单、备注信息等)完成后下单时，后台异步对用户输入的每个面单文本进行判断，可以将每个面单文本作为独立一行，保存至线性表中。然后逐一获取每行中的字符串，判断每行中的字符串是否包括违规词单字符，然后计算违规词相似度，从而计算出每个面单文本的违规词相似度，计算方法与步骤101类似，不再赘述。最后基于当前运单和各个所述历史运单的物流距离、每个面单文本的违规词相似度、相对于用户注册时间的运单创建时间，计算出所述当前运单的面单文本中含有违规信息的概率。

可选地，步骤102可以包括：根据所述历史运单的物流距离、相对于用户注册时间的运单创建时间，计算所述历史运单的累计权重，根据所述历史运单的累计权重和当前运单的物流距离、相对于用户注册时间的运单创建时间，计算所述当前运单的累计权重；根据所述当前运单的面单文本和所述历史运单的面单文本的违规词相似度，计算所述当前运单的面单文本中含有违规信息的累计运单权重；将所述含有违规信息的累计运单权重除以所述当前运单的累计权重，得到所述当前运单的面单文本中含有违规信息的概率。在本发明的实施例中，首先历史运单的物流距离、相对于用户注册时间的运单创建时间，计算所述历史运单的累计权重，根据所述历史运单的累计权重和当前运单的物流距离、相对于用户注册时间的运单创建时间，计算所述当前运单的累计权重；接着，根据所述当前运单的面单文本和所述历史运单的面单文本的违规词相似度，计算所述当前运单的面单文本中含有违规信息的累计运单权重；最后，将所述含有违规信息的累计运单权重除以所述当前运单的累计权重，得到所述当前运单的面单文本中含有违规信息的概率。

可选地，根据所述历史运单的物流距离、相对于用户注册时间的运单创建时间，计算所述历史运单的累计权重，根据所述历史运单的累计权重和当前运单的物流距离、相对于用户注册时间的运单创建时间，计算所述当前运单的累计权重，包括：对于每个历史运单，对所述历史运单的相对于用户注册时间的运单创建时间取倒数，然后将所述倒数乘以所述历史运单的物流距离，得到所述历史运单的权重；分别计算运单创建时间早于所述历史运单的每个历史运单的权重和当前运单的权重；对当前运单的相对于用户注册时间的运单创建时间取倒数，然后将所述倒数乘以所述当前运单的物流距离，得到所述当前运单的权重；对所述历史运单的权重、所述运单创建时间早于所述历史运单的每个历史运单的权重、所述当前运单的权重进行累计求和，得到所述当前运单的累计权重。

当前运单的累计权重是计算当前运单的面单文本中含有违规信息的概率的分母，可以采用如下方法计算：

第一个历史运单的权重＝(1/相对于用户注册时间的运单创建时间) *物流距离；

第二个历史运单的权重＝(1/相对于用户注册时间的运单创建时间) *物流距离；

……

第N个历史运单的权重＝(1/相对于用户注册时间的运单创建时间)* 物流距离；

当前运单的权重＝(1/相对于用户注册时间的运单创建时间)*物流距离；

当前运单的累计权重＝第一个历史运单的权重+第二个历史运单的权重+……+第N个历史运单的权重+当前运单的权重。

可选地，根据所述当前运单的面单文本和所述历史运单的面单文本的违规词相似度，计算所述当前运单的面单文本中含有违规信息的累计运单权重，包括：对于每个历史运单，对所述历史运单的相对于用户注册时间的运单创建时间取倒数，然后将所述倒数乘以所述历史运单的物流距离和所述历史运单的面单文本的违规词相似度，得到所述历史运单的违规运单权重；分别计算运单创建时间早于所述历史运单的每个历史运单的违规运单权重和所述当前运单的违规运单权重；对所述历史运单的违规运单权重、所述运单创建时间早于所述历史运单的每个历史运单的违规运单权重、所述当前运单的违规运单权重进行累计求和，得到所述当前运单的面单文本中含有违规信息的累计运单权重。

当前运单的面单文本中含有违规信息的累计运单权重可以采用如下方法计算：

第一个历史运单的违规运单权重＝(1/相对于用户注册时间的运单创建时间)*违规词相似度*物流距离；

第二个历史运单的违规运单权重＝(1/相对于用户注册时间的运单创建时间)*违规词相似度*物流距离；

……

第N个历史运单的违规运单权重＝(1/相对于用户注册时间的运单创建时间)*违规词相似度*物流距离；

当前运单的违规运单权重＝(1/相对于用户注册时间的运单创建时间)*违规词相似度*物流距离；

当前运单的面单文本中含有违规信息的累计运单权重＝第一个历史运单的违规运单权重+第二个历史运单的违规运单权重+……+第N个历史运单的违规运单权重+当前运单的违规运单权重。

以收件人地址为例，收件人地址为「西藏拉萨市城关区八廓街11 号1门」，在违规词库有一个含有「西藏」的四字违规词。总的不重复字符数为16个，违规词中重复的字符数为2个，则该收件人地址的违规词相似度为2/16＝12.5％。该运单对应的寄件人地址为「北京大兴区亦庄开发区京东总部4号楼6层」，计算出寄件人地址到收件人地址的物流距离为3545公里。

假设该用户一共下了两单，第一单是注册账户时下的(即历史运单)，无违规词中的字符(即违规词相似度为零)，物流距离为2000 公里；有违规词的字符的运单为第二单，即为当前运单，在注册账户后第10天下的单。第一运单的权重＝1/1*2000＝2000，当前运单的累计权重＝2000+1/10*3545＝2354.5。

当前运单的收件人地址中含有违规信息的累计运单权重＝(1/1*200 0*0％+1/10*3545*12.5％)＝44.3125

当前运单的收件人地址中含有违规信息的概率＝44.3125/2354.5＝1. 9％

以备注信息为例，如果寄件人有意传播违规信息，通常会在备注等可自行定义的内容中填写违规信息，例如在备注信息中输入「ABCD EF！ABCDEF！」，违规词库中有「ABCDEF」这一违规词，结合违规用户心理，通常是新注册账户进行违规信息传播，例如注册新账户的第一天、第二天、第四天分别往较远的地区发送了三个运单，距离为3000，3500，4000公里，越远的地方其配送面单可以传播的更远，可以看到的人越多，有利于信息传播。

计算违规词相似度为6/7*100％＝85.71％。

第一个运单的权重＝1/1*3000＝3000，含有违规信息的概率＝1/1*30 00*85.71％/3000＝85.71％。

第二个运单的累计权重＝3000+1/2*3500＝4750，含有违规词的概率＝(1/1*3000*85.71％+1/2*85.71％)/4750＝85.71％。

第三个运单的累计权重＝3000+1/2*3500+1/4*4000＝5750，

含有违规词的概率

＝(1/1*3000*85.71％+1/2*85.71％+1/4*4000*85.71％)/5750＝85.71％

步骤103，根据所述当前运单的面单文本中含有违规信息的概率，确定所述当前运单的面单文本的判别结果。

如果含有违规信息的概率大于未含有违规信息的概率(1-含有违规信息的概率)，则认为当前用户输入的面单文本存在违规内容。对于当前含有违规内容的面单文本对应的线性表，对于每个单字符，逐一判断该单字符是否在违规词的单字索引中，如果在，则将违规词的各个字符替换为预设定的占位符(比如“*”、“@”或者“#”等)，并修改运单中的面单文本，避免违规词发生传播，同时向下单用户发出运单信息含有违规词的提示。比如，备注信息中的「ABCDEF！ABCD EF！」，可以将其中的违规字符替换为“*”字符，即******！******！。

可选地，还可以预先设定判别阈值，比如48％、50％或者55％等，如果当前运单的面单文本中含有违规信息的概率大于等于判别阈值，则认为当前用户输入的面单文本存在违规内容。

发布违规内容主要的目的是推广相关的违规内容，对于物流而言一个运单经过的物流环节的人相对较少，为了能更好地推广违规内容，通常要增加物流单量以及物流的配送距离，通过物流面单传播违规内容的成本较传统的互联网传播成本较高，且不会持续很长时间，因此对于传统违规内容也通常会采用新帐号注册的方式进行。本发明实施例在权重上对较早的运单给出较大的权重，即相对于用户注册时间的运单创建时间的倒数，当1<x1<x2时，1>1/x1>1/x2>0，对于注册新帐账户当日下单的权重为1/1，对于注册一年后的下单权重为1/365，对于发送违规信息的人员，在1年前先下一个不违规信息的运单，然后在一年后下一个含有违规信息的运单的方式推广成本过高，不会被采用，因此一年后下单中含有违规信息的情况误报的可能性较高。本发明实施例通过相对于用户注册时间的运单创建时间和物流距离能够更好地体现出违规内容的推广影响，通常违规内容要传送更远的距离才可以让更多的人接触到违规信息的广告，而正常的物流，通常会按需选择更近的发货地址，而不是更远的，因此两者相乘的权重越大，发送违规信息的可能性也就越大，当含有违规信息的概率大于未含违规信息的概率时，就可以认定为存在违规内容。

根据上面所述的各种实施例，可以看出本发明实施例通过根据当前运单和历史运单的物流距离、面单文本的违规词相似度、相对于用户注册时间的运单创建时间，计算当前运单的面单文本中含有违规信息的概率，从而确定当前运单的面单文本的判别结果的技术手段，解决了现有技术中违规内容的判别准确性较低的技术问题。本发明实施例结合运单的物流距离、面单文本的违规词相似度、相对于用户注册时间的运单创建时间等因素计算当前运单的违规概率，可以大大提高违规内容的判别准确度。本发明实施例基于面单文本单字符与违规词单字符进行相似度判断，分词方法简单，不需依赖分词词库，而且违规词相似度计算采用重复字符的交集除以不重复字符的并集，可以快速地得到判别结果。

图2是根据本发明一个可参考实施例的面单文本判别方法的主要流程的示意图。作为本发明的又一个实施例，如图2所示，所述面单文本判别方法还包括用户注册时的违规词判别过程，可以包括如下步骤：

步骤201，接收用户的注册请求，所述注册请求携带用户名。

步骤202，将所述用户名拆分为单字符，得到用户名单字符集合。

对于新用户下单前，首先要注册用户，后台接收到终端用户发送的注册请求后，对其进行解析，得到用户名；然后将用户名拆分为单字符，得到用户名单字符集合。可选地，可以将用户名的单字符保存到线性表中。

步骤203，从语料库中筛选出包含有任意一个所述用户名单字符的违规词。

遍历每个用户名单字符，从语料库中筛选出包含有任意一个用户名单字符的违规词，将这些违规词放入到set集合中。

为了方便地从语料库中筛选出违规词，在步骤201之前，可以预先建立违规词单字索引。具体地，获得所有不同语料库中的违规词，保存到线性表中；遍历线性表中的每个违规词，将每个违规词拆分为单字符，并保存到线性表；对于每个单字符，将该单字符以及包含该单字符的所有违规词都存储到map中，map中的key为违规词的单字符，v alue为一个set集合中，用于保存包含该单字符的所有违规词。

步骤204，对于每个所述违规词，将所述违规词拆分为单字符，得到所述违规词单字符集合，将所述用户名字符集合和所述违规词单字符集合的重复字符的交集除以所述面单文本单字符集合和所述违规词单字符集合的不重复字符的并集，得到集合相似度。

如果set集合为空，说明该用户名中没有违规内容。如果set集合不为空，则遍历set集合中的所有违规词，逐一计算每个违规词与用户名的集合相似度，值域在(0,1]之间。

步骤205，筛选出最大的集合相似度作为所述用户名的违规词相似度。

为了方便对集合相似度做排序，将每个违规词的集合相似度都放入multimap中，key为集合相似度，value为违规词字符串，默认的multi map按key的升序排序，因此取multimap中的最后一个元素，即为集合相似度最大的违规词，将该集合相似度作为所述面单文本的违规词相似度。

步骤206，所述用户名的违规词相似度是否大于违规阈值；若是，则执行步骤207；若否，则结束。

步骤207，向所述用户返回注册失败的结果。

可以预先设定违规阈值，如果用户名的违规词相似度大于违规阈值，则向所述用户返回注册失败的结果，提醒用户更改用户名，重新注册。

例如，新用户注册的用户名为「逍遥」，针对该词进行拆单字的分词处理，在违规词中单字线性表中查找违规词中的单字符，如果发现有用户名的单字符与违规词中的单字符相同，则将该单字符对应的违规词放到set集合中，遍历完所有单字符后，set集合为空，则说明用户名中没有违规词，用户名检测放行。

例如，新用户注册的用户名为「章一二」，针对该词进行拆单字的分词处理，在违规词中单字线性表中查找违规词中的单字符，可以发现「章」字这个违规字，违规词库有一个含有「章」的四字违规词，将该含有「章」的四字违规词放入set集合中。计算这个四字违规词与用户名「章一二」的违规词相似度，两个集合的不重复字符数为6个，重复字符数为1个，因此违规词相似度为1/6*100％＝14.29％。如果系统设置的违规阈值为70％，则该结果小于预定阈值，视为正常文本，用户名检测放行。

需要指出的是，对于老用户而言直接跳过用户名违规检测，只有当老用户修改用户名时才进行用户名违规检测。

另外，在本发明一个可参考实施例中面单文本判别方法的具体实施内容，在上面所述面单文本判别方法中已经详细说明了，故在此重复内容不再说明。

图3是根据本发明另一个可参考实施例的面单文本判别方法的主要流程的示意图。作为本发明的另一个实施例，如图3所示，所述面单文本判别方法可以包括：

步骤301，获取用户信息和所述用户的历史运单信息。

所述用户信息包括用户标识和用户注册时间，所述历史运单信息包括面单文本和相对于所述用户注册时间的运单创建时间，所述面单文本包括寄件人地址、寄件人姓名、收件人姓名、收件人地址、物品清单、备注信息。

步骤302，分别计算所述历史运单的每个面单文本的违规词相似度。

可选地，对于每个面单文本，采用如下方法计算所述面单文本的违规词相似度：将所述面单文本拆分为单字符，得到面单文本单字符集合；从语料库中筛选出包含有任意一个所述面单文本单字符的违规词；对于每个所述违规词，将所述违规词拆分为单字符，得到所述违规词单字符集合，将所述面单文本单字符集合和所述违规词单字符集合的重复字符的交集除以所述面单文本单字符集合和所述违规词单字符集合的不重复字符的并集，得到集合相似度；筛选出最大的集合相似度作为所述面单文本的违规词相似度。

步骤303，根据所述寄件人地址和所述收件人地址计算物流距离。

步骤304，存储所述用户标识、所述用户注册时间、相对于所述用户注册时间的运单创建时间、所述物流距离和每个面单文本的违规词相似度。

可选地，以所述物流距离为第一节点，以每个面单文本的违规词相似度为第二节点，存储到对组容器中；以相对于所述用户注册时间的运单创建时间为键，以所述对组容器为值，存储到第二多重映照容器中；以所述用户注册时间为键，以所述第二多重映照容器为值，存储到第一映射容器中；以所述用户标识为键，以所述第一映射容器为值，存储到第二映射容器中。

步骤305，根据所述历史运单的物流距离、相对于用户注册时间的运单创建时间，计算所述历史运单的累计权重，根据所述历史运单的累计权重和当前运单的物流距离、相对于用户注册时间的运单创建时间，计算所述当前运单的累计权重。

步骤306，根据所述当前运单的面单文本和所述历史运单的面单文本的违规词相似度，计算所述当前运单的面单文本中含有违规信息的累计运单权重。

步骤307，将所述含有违规信息的累计运单权重除以所述当前运单的累计权重，得到所述当前运单的面单文本中含有违规信息的概率。

步骤308，根据所述当前运单的面单文本中含有违规信息的概率，确定所述当前运单的面单文本的判别结果。

另外，在本发明另一个可参考实施例中面单文本判别方法的具体实施内容，在上面所述面单文本判别方法中已经详细说明了，故在此重复内容不再说明。

图4是根据本发明实施例的面单文本判别装置的主要模块的示意图，如图4所示，所述面单文本判别装置400包括第一计算模块401、第二计算模块402和判别模块403；其中，第一计算模块401用于根据历史运单信息，计算所述历史运单的物流距离、面单文本的违规词相似度、相对于用户注册时间的运单创建时间；第二计算模块402用于根据当前运单和所述历史运单的物流距离、面单文本的违规词相似度、相对于用户注册时间的运单创建时间，计算所述当前运单的面单文本中含有违规信息的概率；判别模块403用于根据所述当前运单的面单文本中含有违规信息的概率，确定所述当前运单的面单文本的判别结果。

可选地，所述第一计算模块401还用于：

分别计算每个面单文本的违规词相似度；

根据所述寄件人地址和所述收件人地址计算物流距离；

可选地，所述第一计算模块401还用于：对于每个面单文本，采用如下方法计算所述面单文本的违规词相似度：

将所述面单文本拆分为单字符，得到面单文本单字符集合；

可选地，所述第一计算模块401还用于：

可选地，所述第二计算模块402还用于：

可选地，还包括注册模块，用于：

接收用户的注册请求，所述注册请求携带用户名；

将所述用户名拆分为单字符，得到用户名单字符集合；

筛选出最大的集合相似度作为所述用户名的违规词相似度；

需要说明的是，在本发明所述面单文本判别装置的具体实施内容，在上面所述面单文本判别方法中已经详细说明了，故在此重复内容不再说明。

图5示出了可以应用本发明实施例的面单文本判别方法或面单文本判别装置的示例性系统架构500。

如图5所示，系统架构500可以包括终端设备501、502、503，网络 504和服务器505。网络504用以在终端设备501、502、503和服务器505 之间提供通信链路的介质。网络504可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备501、502、503通过网络504与服务器505交互，以接收或发送消息等。终端设备501、502、503上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。

终端设备501、502、503可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器505可以是提供各种服务的服务器，例如对用户利用终端设备501、502、503所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的面单文本等数据进行分析等处理，并将处理结果(例如判别结果——仅为示例)反馈给终端设备。

需要说明的是，本发明实施例所提供的面单文本判别方法一般由服务器505执行，相应地，所述面单文本判别装置一般设置在服务器50 5中。

应该理解，图5中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

下面参考图6，其示出了适于用来实现本发明实施例的终端设备的计算机系统600的结构示意图。图6示出的终端设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图6所示，计算机系统600包括中央处理单元(CPU)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中，还存储有系统600操作所需的各种程序和数据。C PU 601、ROM 602以及RAM603通过总线604彼此相连。输入/输出(I /O)接口605也连接至总线604。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/ 或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)6 01执行时，执行本发明的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括第一计算模块、第二计算模块和判别模块，其中，这些模块的名称在某种情况下并不构成对该模块本身的限定。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，该设备实现如下方法：根据历史运单信息，计算所述历史运单的物流距离、面单文本的违规词相似度、相对于用户注册时间的运单创建时间；根据当前运单和所述历史运单的物流距离、面单文本的违规词相似度、相对于用户注册时间的运单创建时间，计算所述当前运单的面单文本中含有违规信息的概率；根据所述当前运单的面单文本中含有违规信息的概率，确定所述当前运单的面单文本的判别结果。

根据本发明实施例的技术方案，因为采用根据当前运单和历史运单的物流距离、面单文本的违规词相似度、相对于用户注册时间的运单创建时间，计算当前运单的面单文本中含有违规信息的概率，从而确定当前运单的面单文本的判别结果的技术手段，所以克服了现有技术中违规内容的判别准确性较低的技术问题。本发明实施例结合运单的物流距离、面单文本的违规词相似度、相对于用户注册时间的运单创建时间等因素计算当前运单的违规概率，可以大大提高违规内容的判别准确度。本发明实施例基于面单文本单字符与违规词单字符进行相似度判断，分词方法简单，不需依赖分词词库，而且违规词相似度计算采用重复字符的交集除以不重复字符的并集，可以快速地得到判别结果。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种面单文本判别方法，其特征在于，包括：

根据当前运单和所述历史运单的物流距离、面单文本的违规词相似度、相对于用户注册时间的运单创建时间，计算所述当前运单的面单文本中含有违规信息的概率，包括：根据所述历史运单的物流距离、相对于用户注册时间的运单创建时间，计算所述历史运单的累计权重，根据所述历史运单的累计权重和当前运单的物流距离、相对于用户注册时间的运单创建时间，计算所述当前运单的累计权重；根据所述当前运单的面单文本和所述历史运单的面单文本的违规词相似度，计算所述当前运单的面单文本中含有违规信息的累计运单权重；将所述含有违规信息的累计运单权重除以所述当前运单的累计权重，得到所述当前运单的面单文本中含有违规信息的概率；

2.根据权利要求1所述的方法，其特征在于，根据历史运单信息，计算所述历史运单的物流距离、面单文本的违规词相似度、相对于用户注册时间的运单创建时间，包括：

分别计算每个面单文本的违规词相似度；

根据所述寄件人地址和所述收件人地址计算物流距离；

3.根据权利要求2所述的方法，其特征在于，对于每个面单文本，采用如下方法计算所述面单文本的违规词相似度：

将所述面单文本拆分为单字符，得到面单文本单字符集合；

4.根据权利要求3所述的方法，其特征在于，筛选出最大的集合相似度作为所述面单文本的违规词相似度，包括：

5.根据权利要求2所述的方法，其特征在于，存储所述用户标识、所述用户注册时间、相对于所述用户注册时间的运单创建时间、所述物流距离和每个面单文本的违规词相似度，包括：

6.根据权利要求1所述的方法，其特征在于，根据所述历史运单的物流距离、相对于用户注册时间的运单创建时间，计算所述历史运单的累计权重，根据所述历史运单的累计权重和当前运单的物流距离、相对于用户注册时间的运单创建时间，计算所述当前运单的累计权重，包括：

7.根据权利要求1所述的方法，其特征在于，根据所述当前运单的面单文本和所述历史运单的面单文本的违规词相似度，计算所述当前运单的面单文本中含有违规信息的累计运单权重，包括：

8.根据权利要求1所述的方法，其特征在于，根据历史运单信息，计算所述历史运单的物流距离、面单文本的违规词相似度、相对于用户注册时间的运单创建时间之前，还包括：

接收用户的注册请求，所述注册请求携带用户名；

将所述用户名拆分为单字符，得到用户名单字符集合；

筛选出最大的集合相似度作为所述用户名的违规词相似度；

9.一种面单文本判别装置，其特征在于，包括：

第二计算模块，用于根据当前运单和所述历史运单的物流距离、面单文本的违规词相似度、相对于用户注册时间的运单创建时间，计算所述当前运单的面单文本中含有违规信息的概率，包括：根据所述历史运单的物流距离、相对于用户注册时间的运单创建时间，计算所述历史运单的累计权重，根据所述历史运单的累计权重和当前运单的物流距离、相对于用户注册时间的运单创建时间，计算所述当前运单的累计权重；根据所述当前运单的面单文本和所述历史运单的面单文本的违规词相似度，计算所述当前运单的面单文本中含有违规信息的累计运单权重；将所述含有违规信息的累计运单权重除以所述当前运单的累计权重，得到所述当前运单的面单文本中含有违规信息的概率；

10.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行时，所述一个或多个处理器实现如权利要求1-8中任一所述的方法。

11.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-8中任一所述的方法。