CN108391446A

CN108391446A - 基于机器学习算法对针对数据分类器的训练语料库的自动提取

Info

Publication number: CN108391446A
Application number: CN201780004079.7A
Authority: CN
Inventors: 侯芳; 武义凯; 程晓培; 丁思非
Original assignee: Accenture Global Solutions Ltd
Current assignee: Accenture Global Solutions Ltd
Priority date: 2017-06-20
Filing date: 2017-06-20
Publication date: 2018-08-10
Anticipated expiration: 2037-06-20
Also published as: EP3446241A4; CN108391446B; US20180365322A1; WO2018232581A1; EP3446241A1; US11409779B2

Abstract

一种用于未分割电子文档的迭代分类器基于机器学习算法。电子文档中的文本串使用组合传统词典和基于电子文档的上下文和性质而被开发的自适应词典的复合词典而被分割。分类器使用通过检测用于针对文本串的预先建立的类的集合的签名而从电子文档被自动地提取的训练和测试样本的语料库而被构建。当新的电子文档中的文本串被处理和分类时，分类器通过实时自动地扩展训练和测试样本的语料库而被进一步迭代地改进。

Description

基于机器学习算法对针对数据分类器的训练语料库的自动提取

技术领域

本公开内容总体上涉及数据挖掘，并且特别地涉及数据分割和分类。

背景技术

未分割数据项的分类可以涉及两个步骤。在第一步骤中，未分割数据项使用词典而被解析。在第二步骤中，分割的数据项使用基于各种机器学习算法而被建立的分类器模型而被分类。合适的词典和用于获取用于构建分类器模型的训练和测试样本的足够大的语料库的有效方法对于提高得到的分类器以用于对未分类数据分类的预测准确性是至关重要的。例如，现有技术使用传统词典以用于使用文档分割算法来分割文本。然而，在传统词典中使用单词的频率可能不会反映要被分割的特定类型的文本中的实际单词使用。因此，基于传统词典的分割可能远不准确。又例如，基于机器学习算法的文档分类需要预先标记有类的数据项的语料库。在现有技术中，这样的语料库是通过由一组人类评估人员手动评估大量数据项而被建立。这样的过程效率低且耗时。这样，缺乏通常在数据分类并且特别是文档分类中用于自动地创建用于机器学习的语料库的过程。这样的过程可以实现可以被动态地改善的高效的分类器，因为更多自动地标记的数据项被包括在语料库中。

附图说明

图1示出了用于对未分割数据项分割和分类的示例计算机系统；

图2示出了用于对未分割数据项分割和分类的示例逻辑流程；

图3示出了用于预处理未分割数据项的示例逻辑流程；

图4示出了用于建立用于分割未分割数据项的复合词典的示例逻辑流程；

图5示出了用于使用图4的复合词典来分割未分割数据项的示例逻辑流程；

图6示出了用于通过标识输入数据项中的类签名来自动地提取用于数据分类器的训练和测试样本的初始语料库的示例逻辑流程；

图7示出了用于基于各种机器学习算法来构建数据分类器的示例逻辑流程；

图8示出了用于自动地扩展训练和测试样本的语料库并且迭代地更新分类器模型的示例逻辑流程；

图9示出了用于在港口处被处理的货物数据的示例未分割输入文档；

图10示出了用于提取用于货物描述的、包括未分割串的各种数据字段的、对用于图9的货物数据的输入文档的预处理；

图11示出了用于货物的预先建立的分类系统的示例；

图12示出了来自输入文档的示例分割货物描述串；

图13示出了基于各种机器学习算法而被开发的各种分类器模型的预测准确度的示例结果；

图14示出了用于被分割和分类的货物项的示例未分割的描述性串；以及

图15示出了基于货物分类和标识的示例服务平台。

具体实施方式

诸如文本和文档的大量的电子数据可以在各种工业和商业环境中被常规地产生。这样的文本或文档(本文中被简称为文本或备选地被称为文档)可以是未分割的，因为它包含未被完全解析成单词、短语或句子的字符的串。一般而言，文本中的字符可以是罗马字母、书法符号或任何其他基本语言单位，这取决于在文本中被使用的具体语言。作为示例，处理大量货物或货物集装箱的港口(诸如海港)可能每天产生关于特定数据组织标准的电子数据交换(EDI)格式的货物处理的数据。例如，EDI文档的每行可以与对应于港口处的一个货物集装箱的处理的一个数据项相关。EDI文档的每行可以包含由EDI指定的各种数据字段。一些未分割文本字段可以由港口人员手动地录入。这些手动地录入的文本字段只能松散地遵守一些预先建立的规则或格式。在这些文本字段中被录入的文本串因此可能受到人员习惯和偏好的影响。例如，尽管指定货物集装箱的特定目的地港口的数据字段关于数据格式和内容可能不会有太大的变化，但是描述货物特性的文本字段的形式可以更自由，从而缺乏用于计算机确定货物类型的严格的解码规则。换言之，用于将货物分类成类或类别的预定义的集合的分类码可能并不总是被嵌入在描述性文本字段中。

然而，将这些描述性文本分类为类或类别的预先建立的集合对于基于这些常规产生的电子数据而被开发的任何数据服务可能是必不可少的。在上述港口货物处理的示例中，电子文档中的每个数据项中涉及的货物可能需要被分类为货物类的预定的集合中的一个货物类。这样的分类可以使用基于各种机器学习算法而被建立的、用于数据项的描述性文本的分类器而被实现。这些机器学习算法可以包括但不限于随机森林算法(RF)、最大熵(ME)算法、增强算法和支持向量机(SVM)算法。为了使用这些机器学习算法中的任何算法来构建分类器，利用类的预定的集合而被预先标记的描述性文本的训练和测试样本的足够大的语料库必须首先被建立。

在构建分类器并且使用分类器来对这些描述性文本或串(可交换地被使用)分类之前，这些描述性串可能需要被分割成单词。例如，基于传统词典和单词分割算法的对这些文本的分割可能对于在特定工业或商业环境中被产生的描述性串不是足够准确的。特别地，传统词典可能不会捕获该特定工业或商业环境中的特定单词使用模式。

即使在描述性串被准确地分割之后，构建这些描述性串的分类器也是具有挑战性的。特别地，与其他文档分类上下文(即，文档的二元情感分类)不同，训练和测试样本的语料库通常尚不存在，并且训练和测试样本的足够大的集合的手动标记过程通常是耗时的并且不切实际的。

在下面的公开内容中，总体上公开了用于分割电子数据项并且特别地用于基于复合词典来分割文本数据项的方法和系统。特别地，不同于使用通常在单词分割中被使用的传统词典，使用复合词典以用于分割未分割数据项，复合词典组合传统词典和根据待分割的输入电子数据项内的一些特殊签名而被得出的自适应词典。换言之，传统词典基于输入数据项被自适应地修改以形成复合词典，从而使得分割变得更准确。

另外，公开的方法和系统包括自动地生成用于构建数据分类器模型的训练和测试样本的语料库。特别地，可以在一些输入数据项中标识预先建立的类的集合的签名。签名可以是可以作为预先建立的类的集合的分类定义中的关键特征而被发现的数据项的一部分。预先建立的类的集合可以由输入数据项的上下文信息确定。上下文信息可以与其中生成数据项的环境相关。例如，在港口处被生成的数据项(即，上下文信息)可以指示数据项与货物相关。这样，预先建立的类的集合可以基于一个或多个已知的官方货物分类系统。例如，分类系统可以包括表示类和/或子类的分层代码或文本，并且每个类或子类可以与类描述和/或子类描述相关联。

具有特定签名的数据项被自动标记有对应的类。具有标识的类签名的分割的数据项可以作为具有类标签的样本而被包括到用于构建分类器模型的训练和测试样本的语料库中。不包含任何类签名的数据项没有被标记，并且没有被包括在训练和测试样本的语料库中。一旦使用基于训练和测试样本的语料库的机器学习算法建立了分类器，这些未标记的数据项就可以被输入到建立的分类器模式中并且被分类和标记。

从上述输入数据项自动生成训练和测试样本的语料库的方式提供了迭代地改进货物分类器的附加优点。特别地，新的输入数据项可以被自动地分成包含类的预定义集合的类签名的数据项和不具有类签名的数据项。具有类签名的数据项可以被自动地标记并且被包括在训练和测试样本的语料库中。这样，分类器模型可以使用训练和测试样本的扩展的语料库随着时间被自动地且迭代地重新运行和更新，并且可以随着更多输入数据项被处理而被迭代地改进。

以上介绍和以下更详细的公开内容可以不时地涉及字符串分割和文本分类。然而，基本操作原理适用于可以确定预定义的分类系统的其他数据项的分割和分类。这些数据项可以被用于基于可以被嵌入在这些数据项中的类签名来自动地提取训练和测试样本的语料库。取决于产生这些数据项的上下文和这些数据项的性质和特性，可以选择合适的传统或定制开发的机器学习算法来构建用于这些数据项的分类的分类器模型。

在图1中，电子数据分类和建模系统100被示出为包括一组计算机101，诸如计算机103、105和107。计算机101可以包括通信接口102、系统电路104、输入/输出(I/O)接口106、存储装置109和显示电路108，显示电路108在本地生成机器接口110或用于远程显示，例如，在运行在本地或远程机器上的web浏览器中。机器接口110和I/O接口106可以包括GUI、触敏显示器、语音或面部识别输入、按钮、开关、扬声器和其他用户界面元件。I/O接口106的其他示例包括麦克风、视频和静止图像相机、头戴式耳机和麦克风输入/输出插孔、通用串行总线(USB)连接器、存储卡插槽和其他类型的输入。I/O接口106还可以包括磁性或光学介质接口(例如，CDROM或DVD驱动器)、串行和并行总线接口以及键盘和鼠标接口。

通信接口102可以包括由收发器112的发射和接收电路使用的无线发射器和接收器(“收发器”)112以及任何天线114。收发器112和天线114可以支持Wi-Fi网络通信，例如，在任何版本的IEEE 802.11(例如，802.11n或802.11ac)下。通信接口102还可以包括有线收发器116。有线收发器116可以提供用于广泛的通信协议中的任何通信协议的物理层接口，诸如任何类型的以太网、电缆数据服务接口规范(DOCSIS)、数字订户线(DSL)、同步光网络(SONET)或其他协议。数据分类和建模系统100的计算机101可以经由通信接口102和通信网络111与外部存储装置130和外部资源140通信。

存储装置109和外部存储装置130可以被用于存储用于电子数据分类和建模系统100的各种初始、中间或最终数据或模型。存储装置109和外部存储装置130可以是集中式或分布式的。例如，外部存储装置130可以由云计算服务提供商远程托管。外部资源140可以提供可以在构建和使用分类器模型时被使用的各种其他数据。这些外部资源可以属于其他实体。这些资源可以不限于数据。例如，这些外部资源可以包括其他计算资源，包括硬件和软件。

系统电路104可以按照任何组合的方式包括硬件、软件、固件或其他电路。系统电路104可以例如用一个或多个片上系统(SoC)、专用集成电路(ASIC)、微处理器、分立模拟和数字电路和其他电路实现。系统电路104是与电子数据分类器模型的构建、维护和应用相关的任何期望功能的实现的一部分。仅作为一个示例，系统电路104可以包括一个或多个指令处理器118和存储器120。存储器120存储例如控制指令124和操作系统122。在一个实现方式中，指令处理器118执行控制指令124和操作系统122以执行与电子数据分类器模型相关的任何期望功能。

图2示出了用于对输入电子文档(被简称为输入文档)中的输入电子数据项(被简称为数据项)分割并且将每个数据项分类为预定类的集合中的一个预定类的示例逻辑流程200。逻辑流程200可以由图1的系统电路104实现。逻辑流程200可以包括从输入文档202获取待分割和分类的数据项，以及从外部资源204(备选地被称为资源)获取数据。外部资源204可以包括独立于输入数据项的各种数据，这些数据可以被用于促进输入文本的分割和输入文档202中的数据项的分类。来自外部资源204的数据的选择可以基于从输入文档的内容得出的输入文档202的性质和特性，如由203所示。逻辑流程200还可以包括执行输入文档202的预处理以获取预处理的文档207，如由206所示。文档预处理206可以由来自外部资源204的数据205促进。

逻辑流程200还可以包括构建用于分割输入数据项的复合词典225，如由210所示。复合词典225可以基于来自外部资源204的选择的外部数据209而被建立。而且，用于构建复合词典225的外部数据209的选择可以至少部分通过从输入文档202的内容得出的输入文档203的性质和特性而被确定。逻辑流程200还可以包括实现基于复合词典的对预处理的文档207中的数据项的分割以获取包含分割的数据项的分割的输入文档213，如由208所示。

逻辑流程200可以附加地包括基于机器学习算法，使用来自外部资源204的、用于预先建立类的集合221的数据211并且使用来自分割的文档输入213的自动地选择的分割的数据项作为训练和测试样本的语料库223来建立货物分类器模型215，如由212所示。从分割的输入文档213选择成为训练和测试样本的语料库223的分割的数据项并且利用类的集合221来标记选择的数据项可以基于在分割的输入文档213的分割的数据项内检测到的类的预先建立的集合221的类签名。数据分类器模型215可以备选地被称为分类模型或分类器。一旦建立了分类器模型215，则其可以用于对分割的输入文档213中的不包括任何类签名的分割的数据项分类，如由214所示。

逻辑流程200还可以包括一旦文档内的数据项被分类就执行分割的输入文档213的数据分析，如216中所示。另外，逻辑流程200可以包括基于在216中被执行的数据分析来提供各种数据服务，如由218所示。数据分析216和数据服务218的实现可以依赖于被包含在外部资源204中的外部数据217和219。

图3至图8示出了针对图2的逻辑流程200的更多细节。图3至图8各自示出了由两条虚线分开的三列。左侧列(300、400、430、500、600、700和800)示出了各种逻辑流程。中间列(310、410、440、510、610、710和810)示出了来自图2的外部资源204的、可以由逻辑流程使用的各种外部数据。右侧列(320、420、450、520、620、720和820)示出了逻辑流程的输入和输出数据以及文档。除非另有说明，否则具有倒圆拐角的块被用于指定各种数据、数据项或数据结构，而具有直角拐角的块被用于指定逻辑流程步骤。

图3示出了输入文档的预处理的示例实现方式，即，图2的206的逻辑流程步骤。在图3中，输入文档202可以包含由例如回车符或换行符号描绘的数据项302的汇集。数据项302中的每个数据项可以对应于将被分类为类的集合中的一个类的主题。例如，每个数据项可以使用预定义的电子数据交换(EDI)格式而被编码。例如，输入文档202中的每个数据项可以包含各种数据字段。一些数据字段的内容可以是标准格式。其他数据字段(例如，注释字段、注解字段或描述字段)的内容的形式可以是自由的。在逻辑步骤304中，码本312可以被用于解析输入文档中的具有EDI格式的数据项的各种数据字段以获取预处理的文档207。在逻辑流程步骤306处，具有标准格式的数据字段和具有自由形式内容的数据字段可以被分片(tablet)。这样，预处理的文档207可以被处理成数据表(也被称为207)。结果，注释、注解或描述字段(被统称为描述性串)可以被包括在数据表207中作为多列描述性串326。输入文档的每个数据项可以与描述性串相关联。描述性串将被用作用于对输入文档202中的数据项分类的基础。描述性串可以是未分割字符串。描述性串中的字符可以是罗马字母、书法符号或任何其他基本语言单位，这取决于输入文档的注释、注解和说明字段中使用的特定语言。

图4示出了用于建立用于分割描述性串326的复合词典225的图2的逻辑流程200的步骤210的示例实现方式。在由400/410/420指示的一个实现方式中，可以从复合词典语料库416开发复合词典225。复合词典语料库416可以包含传统词典语料库413和自适应词典语料库414。传统词典语料库413可以基于用于文档分割的任何标准词典语料库。例如，被用作传统词典语料库413的比赛单词列表(TWL)词典语料库。基于输入文档202或预处理的文档207的性质和上下文而被开发的自适应词典语料库414。例如，如果输入文档202涉及港口处的货物项，则用于海关处的商品分类的统一系统码(HS码)内的描述性文本可以被导入并且被用作自适应词典语料库414。对于另一示例，如果输入文档202与涉及危险材料的数据项相关，则来自危险材料代码标识系统的描述可以被导入并且被用作自适应词典语料库414。相应地，在逻辑步骤402和404处，可以导入并且建立传统词典语料库和自适应词典语料库。然后，可以在逻辑流程步骤406处，将传统词典语料库和自适应词典语料库组合成复合词典语料库416。最后，在逻辑流程步骤408处，可以基于复合词典语料库416来创建复合词典225。

通过将传统词典语料库413和自适应词典语料库414组合成复合词典语料库416并且建立用于分割输入文档的描述性串的复合词典225，可以改善分割准确性。特别地，自适应词典语料库414帮助捕获在输入文档的特定上下文中被使用的单词，而传统词典语料库413帮助捕获可能出现在输入文档的描述性串中但是可能不是特定于输入文档的特定上下文的传统单词。

在逻辑流程步骤408中从复合词典语料库开发复合词典可以涉及分析复合词典语料库416以获取关于例如单词的使用频率的信息。通过例如向复合词典225提供单词作为按照复合词典语料库416中的单词的使用顺序而被排序的列表，可以将这样的信息合并到复合词典225中。

在如由图4的430/440/450所示的、用于建立复合词典225的另一实现方式中，自适应词典语料库可以更具体地针对输入文档而被定制。例如，输入文档可以涉及特定上下文(例如，港口处的货物数据项)。这样，可以基于特定上下文从外部资源204预先建立用于输入文档中的数据项的类的集合以及类的该集合的相应描述(被统称为412)。例如，对于有关港口处的货物项的输入文档，货物项的分类可以基于HS分类而被预先建立。每个预先建立的HS分类可以对应于数字HS码和数字HS码的标准描述。输入文档中的某些数据项的描述性串可以已经包含数字HS码。因此，这些数字HS码可以被用作可以被包括在输入文档中的货物项的类型的类签名415。相应地，只有HS系统中的用于在输入文档中被标识的那些数字HS码的标准描述可以被包括在自适应词典语料库414中，如由逻辑流程步骤409和407所示。这样，自适应词典语料库414和得到的复合词典225可以更具体地针对输入文档的上下文而被定制，并且因此可以提供对输入文档的描述性串的更准确的分割。诸如402、408和408的其他步骤与图4的400/410/420中的实现方式的相应步骤类似。

图5示出了用于分割预处理的文档207的图2的逻辑流程步骤208的示例实现方式。特别地，可以提取预处理的文档207中的数据项的未分割的描述性串326。然后可以使用复合词典225对未分割的描述性串326分割，如由逻辑流程步骤502所示。作为结果，预处理的文档或预处理的数据表207可以被转换成包含分割的描述性串526的分割的文档(或分割的数据表)524。

使用复合词典对描述性串326的分割(即，图5的逻辑流程步骤502)可以基于例如概率方式。特别地，复合词典可以包含按照它们在复合词典语料库中的使用频率而被排列的一系列单词。在一个实现方式中，复合词典可以包含M个单词。在复合词典中在位置m处的单词可能出现在未分割字符串中的概率可以被估计为

这里，函数log(*)表示自然对数。分割描述性串326的任务可以是在众多可能的解析中确定对描述性串的解析，从而使得解析出的单词的出现概率的乘积最大化。由于最大化解析出的单词的出现概率的乘积等同于最小化单词的信息熵，所以这种方法可以被称为最小熵分割。例如，假定输入数据项包含未分割的描述性串“packagescylinder”。字符串的潜在分解是很多的。但是，进一步假定复合词典按照“packages”、“cylinder”、“pack”和“ages”的顺序包含四个单词。包含这些单词的分解最有可能具有更高的出现概率乘积。使用上面的公式，这四个词典单词出现在序列“packagescylinder”中的概率是(0.72，0.36，0.24，0.18)。根据词典的“packagescylinder”的可能分解的子集是“pack ages cylinder”和“packages cylinder”。第一可能分解(“pack ages cylinder”)的出现概率乘积为0.72×0.24×0.18＝0.031，而第二可能分解(“packages cylinder”)的出现概率乘积为0.36×0.18＝0.065。这样，根据最小熵方法，根据给定复合词典对字符序列“packagescylinder”的最佳分割是“packages cylinder”而不是“pack ages cylinder”。

图6示出了用于从输入文档自动构建训练和测试样本的语料库223以用于开发用于分割的输入文档524的分割的描述字符串526的分类器模型的逻辑流程步骤212的一部分的示例实现方式。具体地，对于分割的输入文档524中的每个数据项的描述性串，在逻辑流程步骤602中，确定描述性串是否包含类的预先建立的集合412的签名集合415中的类签名。类似于图4，类的预先建立的集合412可以基于输入文档的性质和上下文从外部资源204而被确定。例如，如果输入文档涉及正在港口处被处理的货物数据项，则类的预先建立的集合412可以基于HS分类系统，并且每个类可以与类的HS码和标准HS描述相关联。HS码可以用作该组类签名415。

如果特定描述性串包含类签名，则该描述性串被标记有对应的类，如在逻辑流程步骤604中所示的，并且作为一个个体样本被包括到训练和测试样本的语料库223中以用于开发分类器模型，如在逻辑流程步骤606中所示的。得到的训练和测试样本的语料库223可以包括包含类的预先建立的集合的类签名的输入文档的所有描述性串的样本。训练和测试样本的语料库223中的每个描述性串与类标识符(例如，HS码)配对。通过包括来自输入文档的实际描述性串而不是与来自外部资源204的类的预先建立的集合相关联的标准描述(例如，HS标准描述)，训练和测试样本的语料库223可以更有效并且准确地作为用于基于各种机器学习算法来对分类器建模的主要输入。这可能是因为，在实际输入文档中被使用的描述性串通常会更准确地反映由数据输入人员的特定集合在构建输入文档中的描述性串时使用的习惯和约定。输入文档的集合(例如，来自用于货物数据的特定港口)的实际描述字符串中的单词和短语的选择可以与用于类的预先建立的集合的来自外部资源204的标准描述显著不同。

在图6中未示出的另一备选实现方式中，除了来自输入文档的包含类签名的描述性串的样本，训练和测试样本的语料库223还可以包括来自外部资源204的标记有对应类的标准描述性串的样本(例如，标记有对应HS码的标准HS描述性串)。

图7示出了用于基于训练和测试样本的语料库223，使用各种机器学习算法来建立用于描述性串的分类器模型215的逻辑流程步骤212的另一部分的示例实现方式。具体地，训练和测试样本的语料库223包含每个为描述性串和类标签的配对的样本。训练和测试样本的语料库223可以被分成训练样本集合712和测试样本集合714。可以在逻辑流程步骤212处使用任何合适的机器学习算法来构建分类器模型215。对于典型的用于构建用于具有未知类标签的描述性串的分类器的机器学习算法，可以首先针对训练样本集合712中的每个样本定义和计算特征的集合。分类器模型215可以由任何输入的描述性串的特征的目标函数表示。目标函数可以利用参数的集合而被表征。机器学习算法的任务是在约束条件的集合下，基于训练和测试样本的语料库中的样本的特征来确定参数的集合。一旦确定了参数的集合，则可以计算任何未标记的描述性串的特征和目标函数值。未标记的描述性串的类可以根据计算出的目标函数值而被确定。

各种机器学习算法可以在特征和约束的定义或选择方面有所不同。示例机器学习算法可以包括但不限于随机森林算法(RF)、最大熵(ME)算法、增强算法和支持向量机(SVM)算法。各种机器学习算法可以被独立地实施，并且最有效和准确的分类器模型(通过使用测试样本集合714确定的)可以被选择作为分类器模型215。

特定的机器学习算法对于某些上下文可能更有效，但是对于某些其他上下文而言效果较差。例如，ME算法通常可以对涉及文档分类和自然语言处理的任务是有效的。ME算法可以用于构建概率文档分类器。ME算法可以考虑语料库训练样本中的单词和单词的上下文信息。在一个实现方式中，出现在训练样本的语料库w和可能的类c'中的单词的每个组合可以将用于每个描述性串类对的特征f_w，o′之一实例化：

或者，备选地：

其中N(d，w)是单词w在描述性串d中出现的次数，并且N(d)是d中的单词的数目。用于查找未知的描述性串x在类y中的概率的模型可以被定义为：

其中λ_i是通过求解具有最大熵的训练样本的语料库中的所有样本上求和的概率分布而被确定的模型参数。

一旦使用训练和测试样本的语料库223和诸如ME算法的机器学习算法构建了包括模型参数λ_i和特征定义的分类器模型215，其就可以在图2和图7的逻辑流程步骤214中被用来对输入文档中不包含任何类签名的分割的描述性串分类。可选地，分割的文档中的描述性串可以在分类之前首先在逻辑流程步骤702处被清理。例如，描述性串的清理可以包括去除不带有与预先建立的类相关的信息的单词。

图8示出了使用新的输入文档迭代地改进分类器模型215。具体地，当接收到新的输入文档802时，在逻辑流程步骤804处对其预处理，类似于图3中的预处理步骤，以获取预处理的新的输入文档822。然后在逻辑流程步骤806，使用复合词典225对预处理的新的输入文档822分割以获取分割的新的输入文档824。复合词典225可以与图4的400/410/420中开发的相同。或者，复合词典225可以通过在图4的430/440/450的处理和对应的描述之后包括新的输入文档而被更新。

对于分割的新的输入文档824中的每个描述性串，在逻辑流程步骤808中确定描述性串是否包含预先建立的类的类签名。如果描述性串确实包含类签名，则在逻辑流程步骤809中通过在其中包括标记有对应的类的该描述性串来迭代地更新训练和测试样本的语料库223。在逻辑流程步骤814中，迭代更新后的训练和测试样本的语料库223然后可以被用来在图7的类似过程之后重新构建分类器模型以获取迭代更新后的分类器模型215。然后，更新后的分类器模型215可以用于对没有类签名的描述性串分类，如在逻辑流程步骤816中所示的。

在一个实现方式中，可以控制分类器模型的重新构建，从而使得重新构建过程不被过度执行。例如，逻辑流程步骤814可以仅在训练和测试样本的语料库223被扩展到一定程度时被执行。特别地，阈值数目可以被预定义，并且分类器模型215的重新构建可以仅在添加到训练和测试样本的语料库223的新的样本的数目超过预定义的阈值数目时被执行。

上述自动迭代过程变为可能，因为训练和测试样本的语料库中的样本是从初始输入文档或新的输入文档自动提取的，而不是用类签名被手动标记的。手动标记的训练和测试样本的语料库往往是静态的，并且难以更新。上述用于自动更新训练和测试样本的语料库和分类器本身的迭代过程促进在新的输入数据被处理时随着时间的推移改进分类器模型。

下面的公开内容进一步提供了用于在港口处被处理(例如，运送)的货物数据的上下文中为包含未分割数据项的输入文档构建分类器的原理的示例应用。图9示出了描述货物数据项的未分割文档的摘录。诸如图9的902的文档可以周期性地或连续地在港口被收集，例如，每天收集。文档902可以使用自动和手动程序的组合而被生成。文档902可以按照预定义的规则被编译。图1的系统电路104可以反向地遵循这些规则，用于将被包含在文档902中的数据项自动地预处理为预处理的文档207，如由图2和图3所示。例如，用于编译文档902的规则可以在码本中被指定。码本可以被用作用于对文档902预处理的基础。下面示出了可以被编译并且然后由图1的系统电路执行以用于对在示例码本之后产生的文档902预处理的示例计算机代码：

可以使用上面的预处理过程来提取用于每个数据项的文档902中的各种数据字段，如在图10的1002中所示的。这些数据字段尤其可以包括目的地港口、船舶相关的数据字段、托运人、接收人等。还可以提取文档902的每个货物数据项的描述性串，如在图10的1004中所示的，并且这些描述性串可以是未分割的字符序列。

图11进一步示出了HS码和对应的HS描述的示例摘录。在协调系统中，可以通过包括会话号码1110、章节号码1120和HS码1130的数字码的组合来标识每类货物。会话号码1110和章节号码1120可以被冗余地包括在HS码1130中。例如，HS码1130的最高有效位可以表示会话号码，并且HS码1130的第二和第三最高有效位组合可以表示章节码。HS码可以只包含用于定义整个会话的会话号码(诸如1150)。HS码可以只包含会话号码和用于定义整个章节的章节号码(诸如1160)。HS码可以在会话号码和章节号码之后包含各种号码以定义货物的子类别，诸如HS码1170。因此，HS码遵循分层模型。此外，每类货物可以与标准文本描述1140相关联。图11的HS码和描述可以构成图2的外部资源204和图3至图8的中间列的一部分，用于确定类的预先建立的集合412，用于确定类签名，用于建立复合词典225，以及用于从输入文档来自动地构建训练和测试样本223的训练和测试样本的语料库。

例如，HS的标准文本描述1140的整个集合可以被提取以形成图4的自适应词典语料库414。该自适应词典语料库结合诸如TWL语料库的任何传统词典语料库可以形成图4的复合词典语料库416。然后可以按照图4的400/410/420中描述的过程来得出复合词典225。然后，可以按照图5中描述的示例过程，使用复合词典来分割图10的未分割的描述性串1004。输入文档的分割的描述性串的示例在图12中示出为1210。

图11的HS码可以用于确定用于货物数据项的类的预先建立的集合(图4的412)。在一个实现方式中，类的预先建立的集合412可以简单地符合每个唯一的HS码。换言之，图11的每个HS码1130可以被预先建立作为类之一。备选地，只有HS码层级的最低级别(诸如图11的1170中的HS码)可以被预先建立作为类的预定义的集合。

这些预先建立的类的签名可以出现在图12的一些分割的货物描述性串1210中。例如，可以使用字符串“HS”、“HS码”等后跟数字码作为分割的货物描述性串1210中的类签名。因为可以参考HS码来输入一些货物项的文本描述。例如，第一货物数据项的分割的描述性串1220包括“HS码-1805.00.00.00”1230，其可标识为包含HS类1805.00.00.00的签名。但是，1210中的其他描述性货物字符串不包含任何类签名。

包含类签名的分割的描述性串(诸如分割的描述性串1220)可以被包括地训练和测试样本的语料库中作为描述性串类对的样本。那些不包含任何类签名的描述性串(诸如除了1220之外的图12的描述性串)可以不被包括在训练和测试样本的语料库中，并且可以被视为具有未知类的描述性串。

然后，可以基于从输入文档自动得出的训练和测试样本的语料库使用各种机器学习算法来建立分类器模型。例如，可以基于ME算法、增强算法和SVM算法独立地开发分类器模型。图13示出了这些分类器的预测准确度的示例结果。特别地，通过将测试描述性串输入到模型中并且将预测的类与标签相比较，使用标记有来自训练和测试样本的语料库的预先建立的类的描述性串的测试样本来测试这些分类器模型。图13示出，所有分类器模型的准确度超过70％，其中基于ME算法的分类器模型最准确，接近80％。

图14进一步示出了如何基于ME算法通过分类器模型对未知货物类的示例描述性串分类。该未知货物项的未分割的描述性串由1410示出。对应的分割的描述性串由1420示出。上述复合词典的有效性可以通过分割的描述性串1420的输出来说明。例如，单词“pack”和“ages”都可以是传统词典中频繁使用的单词。这样，使用上述单词分割算法，将“packages”分割成“pack”和“ages”可以提供更小的熵，并且因此如果仅使用传统词典，则该分割可以被视为更好的分割。然而，传统词典与基于标准HS描述的自适应词典的组合可以将一些权重转移到单词“packages”并且提高其排名。因此，当复合词典用于分割时，将单词“packages”保留为一个单词可以产生较小的熵。这方面的数字示例在上面关于图5的逻辑流程步骤502被给出。

继续图14，可以清理分割的描述性串1420以去除不相关的单词，如由1430所示，并且可以使用剩余的分割的描述性串作为分类器模型的输入，例如基于ME算法，并且对应的未知货物被分类为例如HS18.45，如由1440所示。未包括在描述性串中的其他信息(例如，在该数据项的其他数据字段中)可以从输入文档提取，诸如遵循图3被预处理的加载港口1450和卸载港口1460。为了在将分割的描述字符串输入到分类器模型中之前去除单词，诸如1434和1432等在确定与分类器模型中的分割的描述性串1420相关联的货物类时几乎没有或者没有起作用的单词可以被标识并且去除。例如，如由等式(3)所示，与特征f相关联的λ参数可能非常小，并且因此该特定特征可能在确定概率p(y|x)时不起重要作用。因此，与该特征相关联的单词在分类器模型中可能不重要(例如，数字单词1434和没有任何货物分类指示的财务单词1432)。

上述文档分割方法通过将传统词典语料库与自适应词典语料库组合以建立复合词典来提供分割准确度的提高。此外，上述分类方法不需要在训练和测试样本的语料库中手动标记样本。而是使用类签名自动从输入文档提取训练和测试样本的语料库。因此可以通过自动扩展训练和测试样本的语料库并且根据需要和实时地重新构建分类器模型来迭代地改进上述分类。

此外，可以基于图3的预处理的数据表207，使用图7的分类器模型215而预测的每个货物项的分类，结合来自图2的外部资源204的必要数据，来开发如由图15的1500所示的自动服务平台。例如，关于货物的固有信息1510和交易信息1520可以大部分是在图3的输入文档的预处理期间从输入文档中的结构化数据字段提取的。关于货物的一些固有和交易信息可以备选地使用由分类器模型预测的HS类从图4的外部资源204来获取。诸如贸易商和区域信息1530以及物流信息1540等关于货物的其他信息可以主要从各种外部资源来提取。分析可以基于以上各种信息来执行，用于提供与例如贸易趋势1551、竞争情报1552、最佳运输路线选择1553、货物查找器和定位器1554以及针对货物1555的货运商和批发商的信用能力评估相关的服务1550。以上服务平台1500在货物运输的上下文中描述。

例如，一旦货物的数据项被分类，则分类输出可以被自动输入到外部数据提取引擎中。可以获取由图15所示的信息。例如，可以提取货物的运输需求(例如，货物是否需要冷藏)，并且可以提取各种港口处理货物的能力。可以自动确定运输路线、转运港口、船舶类型等。当使用上面讨论的分类器和自动建立的训练和测试数据的语料库时，分类和分类后数据服务的整个过程可以完全自动化。

以上描述不时地涉及字符串分割和文本分类。然而，上面的基本操作原理适用于可以确定预定分类系统的其他数据项的分割和分类。这些数据项可以类似地用于基于可以嵌入在这些数据项中的类签名来自动提取训练和测试样本的语料库。取决于产生这些数据项的上下文和这些数据项的性质和特性，可以选择合适的传统或定制开发的机器学习算法来为这些数据项分类构建分类器模型。

上面描述的方法、设备、处理和逻辑可以以很多不同的方式以及硬件和软件的很多不同组合而被实现。例如，所有或部分实现方式可以是包括指令处理器的电路，诸如中央处理单元(CPU)、微控制器或微处理器；专用集成电路(ASIC)、可编程逻辑器件(PLD)或现场可编程门阵列(FPGA)；或者包括分立逻辑或其他电路组件的电路，包括模拟电路组件、数字电路组件或两者；或者其任何组合。作为示例，电路可以包括分立的互连硬件组件，和/或可以在单个集成电路管芯上被组合，分布在多个集成电路管芯中，或者以公共封装件中的多个集成电路管芯的多芯片模块(MCM)而被实现。

电路还可以包括或访问供电路执行的指令。这些指令可以存储在除了暂态信号以外的有形存储介质上，诸如闪存、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)；或者存储在磁盘或光盘上，诸如光盘只读存储器(CDROM)、硬盘驱动器(HDD)或其他磁盘或光盘；或者存储在另一机器可读介质中或上。诸如计算机程序产品等产品可以包括存储介质以及存储在介质中和上的指令，并且指令在由设备中的电路执行时可以引起设备实现在以上描述或在附图中示出的任何处理。

这些实现方式可以作为电路分布在多个系统组件之间，诸如在多个处理器和存储器之间，可选地包括多个分布式处理系统。参数、数据库和其他数据结构可以分开存储和管理，可以合并到单个存储器或数据库中，可以以很多不同的方式在逻辑和物理上来组织，并且可以以很多不同的方式而被实现，包括作为数据结构，诸如链表、哈希表、数组、记录、对象或隐式存储机制。程序可以是单个程序的部分(例如，子例程)、分开的程序，分布在若干存储器和处理器中，或者以很多不同的方式而被实现，诸如在库中，诸如共享库(例如，动态链接库DLL))。例如，DLL可以存储在由电路执行时执行在以上描述或在附图中示出的任何处理的指令。

已经具体地描述了各种实现方式。但是，很多其他实现方式也是可能的。

Claims

1.一种数据分类器，包括：

存储器；

通信接口；

与所述存储器和所述通信接口通信的电路，所述电路被配置为：

经由所述通信接口获取多个数据项；

从所述多个数据项中的每个数据项提取多个数据字段中的一个数据字段；

基于所述多个数据项的上下文信息和所述多个数据项外部的分类系统，来预定义用于所述多个数据项的类的集合，其中类的所述集合对应于类签名的集合和类描述的集合；

通过从所述多个数据字段提取具有类签名的所述集合中的至少一个类签名的数据项的数据字段的子集，来形成训练和测试样本的语料库；

基于机器学习算法，使用训练和测试样本的所述语料库来构建所述数据分类器；以及

对所述多个数据项中的具有不包含任何类签名的数据字段的数据项分类。

2.根据权利要求1所述的数据分类器，其中所述多个数据字段各自包括文本。

3.根据权利要求1或2所述的数据分类器，其中为了从所述多个数据项中的每个数据项提取所述多个数据字段中的一个数字字段，所述电路被配置为使用词典将所述多个数据项中的每个数据项中的多个字符串中的一个字符串分割成所述多个数据字段。

4.根据权利要求3所述的数据分类器，其中所述电路还被配置为从包括传统词典语料库和自适应词典语料库的复合词典语料库建立所述词典。

5.根据权利要求4所述的数据分类器，其中所述电路还被配置为从所述多个数据项外部的所述分类系统中的文本描述获取所述自适应词典语料库。

6.根据权利要求1、2、3、4或5所述的数据分类器，其中为了形成训练和测试样本的所述语料库，所述电路被配置为针对所述多个数据项中的每个数据项：

确定所述数据项是否包含类签名的所述集合中的类签名；以及

在确定所述数据项包含类签名时：

将所述数据项的所述数据字段包括为数据字段的所述子集中的一个数据字段；以及

向训练和测试样本的所述语料库中插入所述数据字段和所述类签名的配对作为一个个体样本。

7.根据权利要求1、2、3、4、5或6所述的数据分类器，其中类签名的所述集合包括分类码的集合。

8.根据权利要求1、2、3、4、5、6或7所述的数据分类器，所述电路还被配置为迭代地：

获取新的数据项；

从所述新的数据项提取新的数据字段；

确定所述新的数据项是否包含类签名的所述集合中的类签名；以及

在确定所述新的数据项包含类签名之后，通过向训练和测试样本的所述语料库中插入所述新的数据字段作为新的样本，来扩展训练和测试样本的所述语料库。

9.根据权利要求8所述的数据分类器，其中所述电路还被配置为当被插入到训练和测试样本的所述语料库中的新的样本的数目超过预定义的阈值时，基于所述机器学习算法，使用训练和测试样本的扩展的所述语料库来重新构建所述数据分类器。

10.根据权利要求1、2、5、6、7、8或9所述的数据分类器，其中所述机器学习算法包括概率最大熵算法。

11.一种用于对多个数据项分类的方法，包括：

获取所述多个数据项；

基于机器学习算法，使用训练和测试样本的所述语料库来构建数据分类器；以及

12.根据权利要求11所述的方法，其中所述多个数据字段各自包括文本。

13.根据权利要求11或12所述的方法，其中从所述多个数据项中的每个数据项提取所述多个数据字段中的一个数据字段包括使用词典将所述多个数据项中的每个数据项中的多个未分割字符串中的一个未分割字符串分割成所述多个数据字段。

14.根据权利要求13所述的方法，其中所述词典从包括传统词典语料库和自适应词典语料库的复合词典语料库被建立。

15.根据权利要求14所述的方法，其中所述自适应词典语料库从所述多个数据项外部的所述分类系统中的文本描述被提取。

16.根据权利要求11、12、13、14或15所述的方法，其中形成训练和测试样本的所述语料库包括针对所述多个数据项中的每个数据项：

在确定所述数据项包含类签名时：

17.根据权利要求11、12、13、14、15或16所述的方法，其中类签名的所述集合包括分类码的集合。

18.根据权利要求11、12、13、14、15、16或17所述的方法，还包括迭代地：

获取新的数据项；

从所述新的数据项提取新的数据字段；

19.根据权利要求11所述的方法，还包括当被插入到训练和测试样本的所述语料库中的新的样本的数目超过预定义的阈值数目时，基于所述机器学习算法，使用训练和测试样本的扩展的所述语料库来重新构建所述数据分类器。

20.根据权利要求11、12、13、14、15、16、17、18或19所述的方法，其中所述数据项包括由港口处理的货物项，所述消息还包括针对用于货物项的分类的所述数据项中的一个数据项：

从外部资源提取所述货物项的特性；

确定所述货物项的目的地；

基于所述货物项的所述特性，来选择用于所述货物项的合适类型的集装箱；以及

基于所述货物项的所述特性，来自动地确定用于所述货物项去往所述目的地的路线。

21.一种用于对电子文档中的多个数据项分类的方法，包括：

获取包含所述多个数据项的电子文档；

从与所述多个数据项对应的所述电子文档提取多个描述性字符串；

获取传统词典语料库；

从类描述的所述集合得出自适应词典语料库；

形成包含所述传统词典语料库和所述自适应词典语料库的复合词典语料库；

从所述复合词典语料库建立包含单词的列表和单词的所述列表的使用信息的复合词典；

使用所述复合词典将所述多个描述性字符串分割成多个描述性文本；

通过从所述多个描述性文本提取与包含类签名的所述集合中的至少一个类签名的所述电子文档的数据项对应的描述性文本，来形成训练和测试样本的语料库；

基于概率最大熵机器学习算法，使用训练和测试样本的所述语料来对文本分类器建模；以及

通过向所述文本分类器中输入对应的所述描述性文本，来对所述多个数据项中的不包含类签名的数据项分类。