CN101542475A

CN101542475A - 用于对具有象形表意内容的数据进行搜索和匹配的系统和方法

Info

Publication number: CN101542475A
Application number: CNA2006800496138A
Authority: CN
Inventors: A·斯克里菲格纳诺; K·内德; P·邵; G·S·彭; S·陆; 笠井麻矢子; 冈田昌幸; J·N·N·普劳厄; N·特奥; J·施; W·马修斯
Original assignee: Dun and Bradstreet Inc
Current assignee: Dun and Bradstreet Inc
Priority date: 2005-11-23
Filing date: 2006-11-22
Publication date: 2009-09-23
Anticipated expiration: 2026-11-22
Also published as: WO2007062156A3; ATE480827T1; US20070162445A1; CA2630683C; AU2006318417B2; EP1952285A4; AU2006318417A1; EP1952285A2; TWI426399B; EP1952285B1; CN101542475B; TW200809549A; AU2006318417A2; KR20090014136A; CA2630683A1; HK1121266A1; JP5274259B2; DE602006016846D1; JP2009524852A; US7584188B2

Abstract

一种针对所存储数据来搜索和匹配输入数据的方法，该方法包括以下步骤：接收输入数据，该输入数据包括具有多个元素的搜索串；将该多个元素的子集转换成短语集；从该短语的集生成最佳多个关键字；基于与最可能匹配该输入数据的候选相对应的最佳关键字来检索存储的数据；以及从该匹配候选选择最佳匹配。至少某些象形表意元素形成了象形表意书写系统的部分。该方法还包括：将该搜索串划分成多个重叠的子段，以及标识在象形表意书写系统中具有推断语义含义的子段以及不具有语义含义的子段，并使用各种子段来生成最优关键字。

Description

用于对具有象形表意内容的数据进行搜索和匹配的系统和方法

相关申请的交叉参考

本申请要求2005年11月23日提交的、美国临时专利申请No.60/739,270的优先权，在此将其全部内容引入作为参考。

技术领域

本公开涉及对数据进行搜索和匹配，并且更具体地，涉及对包含非语音、语义或者象形表意内容的数据进行搜索和匹配。

背景技术

对于有效利用数据库中的数据而言，高效的数据库访问能力和搜索能力是很重要的。对于此目标，关键在于允许高效检索正确数据的能力，其中借助于操作以找到匹配的方法来查找该数据，而无需对存储在参考全域中的每个数据元素进行搜索。

搜索和匹配系统是已知的，并且提供了从用于各种用途的数据库中检索相关信息的有效方式。例如，在信用卡行业，通常通过商业可用数据库来处理关于正在被考察信用的给定商业实体的信用历史信息。用户可以将商业实体的名称输入到连接至数据库的处理器，然后该处理器在数据库中定位给定的实体并检索其信用历史信息。其他示例包括如下应用，其中用户可能希望将来自完全不同来源的信息进行整合以获得对客户或者供货商的一般性了解。

在美国专利申请No.10/702,114中公开了利用存储的数据对输入数据进行搜索和匹配的示例性方法和系统，该申请公开为美国专利公开No.2004/0220918A1，在此将其全部引入作为参考。基本方法包括三个顺序执行的处理，在图1中示出：

1.清理、解析以及标准化。此处理包括：a)标识查询数据的关键成分；b)将名称、地址和城市数据规格化；以及c)将地址数据标准化。

2.候选检索。此处理包括：a)基于查询中提供的数据来选择关键字；b)优化关键字以改进检索质量和速度；以及c)从参考数据库收集最可能匹配候选。

3.评价与决策。此步骤涉及：利用了一致的、可重复的匹配质量反馈来根据一致标准来评价匹配，以便将主观决策转化为客观标准(诸如，匹配等级模式)以反映个体属性决策，以及将结果的整体分层的置信度代码转化成类似质量的组(还具有其他优点)。这些处理使得能够进行自动决策。

先前的亚洲匹配反馈信息局限于在其中将匹配查询结果分类成A、B或C的层。在个体水平处，此反馈水平在A或B水平匹配内部的结果之间不具有区分的能力，由于每个类别中的匹配数量，尤其是在B类别中的那些数量比较可观，并且在没有母语讲话者人工介入的情况下无法在它们之间进行区分，所以这种反馈水平不够理想。

解决A、B和C匹配是可行的，但是由于这是人工密集型处理，需要与人交互来验证匹配，所以是高代价的。

匹配的类别描述如下。“A”匹配表明匹配的高度可能性，但是其可能包含重复(duplication)匹配或者错误的匹配。“B”匹配表明可能的匹配，但是需要人工研究来解决。“C”匹配表明很可能出现误配，这还可以是由查询数据的缺陷所引起。

具有上述环境中的自动决策的问题在于缺乏粒度。在缺少了匹配质量的进一步反馈的情况下，用户无法在多个“B”匹配中进行选择以便选择最佳匹配。即使是在“A”匹配中，用户也不能在缺少人工审核每个匹配的情况下改进置信度。

在图2中示出了现有技术的匹配系统示意图。

在本系统中，为了进一步区分具有不同匹配水平的查询结果，来执行更小粒度的高水平匹配反馈并将其映射为相应的置信度代码。优选地，在范围的保守末端处选择目标置信度代码(“CC”)。后续调节增强了此映射的分布。在图3中示出此映射的示例。

在等于7或者大于7的置信度代码处，由于可以在没有人工干预的情况下接受这些匹配的能力，市场上的很多客户将系统设置为自动决策。并非所有7的置信度代码的匹配都是完美的匹配，所以优选地，需要谨慎考虑自动决策阈值。相反，如果使用低于7的置信度代码，则将会忽略很多良好匹配。因此，7是质量阈值的保守末端，尤其是对于诸如日语的复杂语言中的匹配。

5和7之间的置信度表明仍然存在可用的“良好”匹配，尤其在输入数据稀少的情况下。在日本字符的示例中，由于使用的多个书写系统以及母语的内在复杂性，通常需要仔细检查具有此置信度代码范围的结果以便确认。由于双重含义，还可能存在某些误配。

通常，4的置信度代码是最低的置信度代码，很多处理甚至考虑是否对其进行显示。这些匹配“不太可能”是正确的匹配，并且除非查询数据非常稀疏或者可以引用减轻错误的其他环境，否则通常不使用这些匹配。

然而，如上面的例子所示，尽管诸如商业的标识和联系信息之类的数据集足够紧密匹配而被认为是“7或者高于7”的置信度代码匹配，但这并不意味着匹配的数据完全准确。同样，“5到6”的置信度代码匹配并不全部具有相同匹配水平。准确度是最能够描述唯一商业应用的术语。

匹配等级模式呈现了不同水平的个体属性匹配。匹配等级结果中的“A”符号表示在客户信息和所匹配的记录之间的数据属性的高置信度匹配。“B”表示相似，但是没有达到“A”表示的相似水平。“F”符号表示客户数据和所匹配记录两者针对给定属性具有不同数据。“Z”表示客户信息和/或数据库记录的任意一个中不包括针对给定字段的任何信息。评价不仅基于逐字符的比较，而且还基于语义含义、音调、词位变化以及其他因素。而且，这些指派不是在查询水平整体做出的，而是在个体属性水平做出的，以便增大粒度并使得能够进行自动决策。

继而可以将置信度代码指派给每个不同的匹配等级串，以允许将结果分层。将上述每个成分处理进一步划分成图4中所示功能区域。

利用增强的反馈，用户可以支持商业规则，诸如将“5-6”的置信度代码匹配进行子划分的商业规则，从而例如，接受具有理想名称和城市的那些匹配，以及对在具有正确辖区(自治区或省)却没有城市的那些匹配的查找进行排序，并且忽略在名称上具有低质量匹配的那些匹配。其结果是，反馈使得能够进行自动决策。

在处理不能依赖于包含语音字母(诸如，英语、法语和希腊语)的书写系统提供的区别的数据库中，匹配面临其他挑战。在诸如汉语和日语的语言中，书写系统通过表意符号构建并且将语义含义具体化，这对搜索和匹配提出了独特的挑战。另外，使用这些书写系统的国家通常自由地集成其他语音的书写系统，以便允许表示外文或者新词。象形表意书写系统中评价的挑战在于书写的语义本质。对于在足以区分“相同”和“类似”的水平处辨明含义而言，单独基于正确拼字的传统记分方法是极不充分的，而这是本发明匹配等级处理的核心。

这样，需要改进现有搜索和匹配系统以及方法，尤其是通过在非语音书写系统中为评价匹配结果的质量提供附加标准来改进。还需要用于在机器匹配中进行区分的系统和方法，而无需对全部或部分在象形表意上下文中呈现的数据进行昂贵的人工介入；从而允许一致性与可扩展性。还需要用于完全自动搜索和匹配的系统和方法，该系统和方法处理在非语音、象形表意书写系统中的挑战。

发明内容

本公开提供了用于搜索、匹配，并为数据匹配提供质量反馈(即，增强的亚洲语言(例如，双字节)匹配反馈)的系统和方法。

本公开还提供了针对所存储数据来对输入数据进行搜索和匹配的计算机化方法，该方法包括以下步骤：接收输入数据，该输入数据包括具有多个元素的搜索串；将该多个元素的子集转换成短语集；从该短语集生成最佳的多个关键字；基于与匹配于该输入数据的最可能候选相对应的该最佳关键字来检索存储的数据；以及从多个匹配候选选择最佳匹配。至少某些要素形成了象形表意书写系统的部分。将元素的子集转换成短语集的步骤使用从以下方法组成的组中选择的至少一个方法：多图标语法语义二异性消除、汉字字首组合词(acronym)扩展、日本汉字字首组合词扩展以及商业词语识别。

还提供了增强的亚洲语言匹配反馈系统，其包括在查询记录和存储的参考记录之间的匹配质量测量。该系统使用定制用于亚洲书写系统独特方面的方法，来反映用于非象形表意书写系统的现有技术。匹配等级模式或串对应于数据库记录内的数据子集的多种匹配值，将其映射到现有结构，即包含在查询数据记录中的数据，并且反映名称、某些地址成分、电话号码和其他信息的个体质量。提供例如由1-10之间的整数所标明的置信度代码，其对应于匹配等级模式，并且通过将匹配等级模式分层成范围以使能商业规则的应用来反映保守匹配质量。该方法还包括将查询记录与在非语音或象形表意语言中存储的参考记录相匹配。

附图说明

图1是现有技术的记录匹配方法框图；

图2是现有技术的记录匹配系统框图；

图3是示出了将置信度代码映射到匹配结果的表；

图4是示出了现有技术数据匹配方法的成分处理的框图；

图5是示出了日本商业参考记录中的匹配等级模式的映射的表；

图6是本公开的增强匹配系统的框图；

图7是表示匹配等级模式矩阵的表；

图8是示出了用于检索候选列表的框图；

图9是从英文公司名称推导的字串(shingle)示例的示意；

图10是根据本公开方法推导的汉字字串(“汉字串(hingle)”)示例的示意图；

图11是根据本公开方法推导的“粘滞字串(sticky shingle)”示例的示意图；

图12是根据本公开方法推导的“哑汉字串(dumb hingle)”示例的示意图；

图13是根据本公开方法的去除或缩写结构指示符的示例的示意图；

图14是作为商业名称一部分而包含的附加结构指示符的示例的示意图；

图15是“汉字首组合词(Hacronym)”的示例的示意图；

图16是简体语言和繁体语言的示例；

图17示出了根据本公开的、表示用于算法的预测得分计算的表；

图18是根据本公开方法的、将匹配等级串指派给记录的方法框图；

图19是匹配等级模式的示意图；

图20是根据本公开方法的、示出了指派给参考名称的匹配等级代码的表；

图21是根据本公开方法的、示出了指派给参考记录匹配候选的置信度代码的表；

图22是根据本公开方法的、示出了如何呈现匹配结果的匹配等级反馈报告示例；

图23是根据本公开方法的、全文索引和名称“日字串化”(kingling)示例的流程图；

图24是根据本公开方法的、用于唯一性的匹配等级算法示例；

图25示出了根据本公开方法的、相对唯一性与绝对唯一性的图示；

图26示出了根据本公开方法的、用于多图标语法(polylogogrammatic)语义消除二异性的示例性算法；以及

图27示出了根据本公开方法的、行业得分的表示。

具体实施方式

本公开的系统和方法包括：1)清理、解析和标准化，2)候选检索，以及3)评价和决策。评价和决策涉及根据一致性标准评价匹配，并且包括创建匹配等级模式以建立细粒度反馈、指派使能自动决策的置信度代码，以及包括用于额外信息的匹配数据配置。增强所有处理以解决象形表意书写系统所提出的挑战。

增强的亚洲语言匹配反馈系统和方法包括匹配质量的三种测量：1)匹配等级得分(即，匹配等级)，其被映射到现有数据结构，并反映了名称、某些地址成分、电话号码和其他信息的个体质量；2)置信度代码，例如由诸如3、5和7的数字表示，使得能够将结果层化；以及3)还提供匹配数据配置使得其包含用于达到结果的具体元数据上的附加信息，并且进一步区分匹配结果，尤其是区分“5-6”置信度代码匹配结果。

而且，可用(或者可推导的)信息可以在用于更鲁棒通信的解决方案中映射，其类似于世界其他部分中的当前反馈。在图5中示出了日本匹配方案中的此映射示例。

下面描述本公开的增强匹配系统执行的方法。在图6中示出本公开系统的实施方式示意图。新系统可以取代当前数据匹配系统或者作为对当前基于字符的系统的增强。将该系统充分地模块化，使得可以将其作为额外组件和工作流阶段的集合而添加到当前工作流处理。

清理、解析以及标准化(CPS)

增强匹配系统用于增强匹配方法，该方法的第一步骤开始于对输入的查询数据进行清理、解析和标准化(CPS)。

在一个实施方式中，使用外部软件对输入的查询数据进行清理、解析和标准化(CPS)。进一步增强该处理的输出以评定推导的信息、扩展首字缩略词、以及解决其他已知的使用挑战。此扩展使用适用于亚洲书写转换的某些方法，诸如图13、14、15和16中描述的。

该系统包括用于数据条目的各种字段，该数据由搜索数据的用户或者管理系统的用户输入。字段的第一集合包括多个“任务设置”，建立这些字段使得用户可以输入各种数据来管理搜索任务的处理。这些各种类型的数据可以呈现为“任务偏好”用户界面(UI)中的不同字段。任务偏好界面可以包括用于以下内容的字段：

(a)处理批号：可以将其推测为自动生成的，并且仅由用户确认。该任务号唯一地标识该任务并且还可以包含客户ID(见下文)作为该号码一部分。该系统还创建任务批号，并且该任务批号可以作为备选。

(b)客户ID：这优选地是标识客户的号码。该客户ID可以经由查找而检索，并且该系统包括这样的工具，如果客户ID不存在则创建新客户ID。优选地，这不是完整的客户关系管理(CRM)，而仅仅是在数据通过系统时对该数据“加标签”的需要。

(c)自动决策阈值：此值基于为该任务预先选择的阈值置信度代码。该置信度代码阈值例如为1-10，在该阈值处，系统可以自动匹配DUNS标识符，即唯一的公司标识符(假设处理与平局决胜(tie-breaking)逻辑不产生重复)。优选地，此能力处于任务偏好窗口中。

(d)查询/参考SQL(结构化查询语言)表：在这些表中，用户可以指定包含查询数据和/或参考数据的服务器、数据库和表。在一个实施方式中，外部软件为其处理的每个任务创建表，该表是查询数据表。

(e)任务报告：任务设置界面还可以包括提前指定所期待的报告以及将报告写到的位置的能力。

系统还可以包括管理接口，以便访问包括匹配等级模式矩阵(在图7中示出其示例)的数据，通过该管理界面，将匹配等级模式及它们到置信度代码的映射存储在系统数据库中。该系统可以通过基本图形用户界面(GUI)来对其进行搜索和编辑。管理界面还可以包括对所存储的平局决胜规则的访问，下文对此进行更详细地描述，并且这使得能够从类似分层的潜在结果的组中选择最终的最佳匹配。优选地，将平局决胜规则模块化，使得它们不仅仅是在系统程序产品内的“硬编码”，从而允许运行中调节。在一个实施方式中，每个客户的平局决胜规则集存储在它们各自的文件中，使得用户的平局决胜规则作为默认自动发生。在另一实施方式中，UI可以为任务选择平局决胜规则，或者选择规则的位置(即，目录)。优选地，以脚本或者另一可编辑格式存储规则，使得可以增强、去除或者添加规则，而不需要新版本的系统。

用户可以输入标识待搜索的期望实体的各种数据。表示用户查询的数据称为查询数据，该查询数据存储在记录中，称为查询记录。这种处理查询数据包括由用户输入的表示关于某实体的数据，用户试图从参考数据库为该实体定位最佳匹配。此数据包括商业名称数据、地址数据和电话号码数据，在上述清理、解析和标准化(CPS)例程中处理全部所述数据。输入可以处于混合字符集中，该字符集包括亚洲文字和罗马文字。地址数据由CPS例程处理以产生推导的地址编码(address codification)，然后对其进行进一步划分用于评价。电话号码数据由CPS例程标准化以基于本地国家惯例而分离出子字段。

附加数据还可以与用户输入的数据一起存储，其中附加数据包括与进入数据一起存储的批号以及记录号，该批号使得在任务存在于系统中的整个期间唯一标识该任务，记录号在任务内唯一标识每个查询数据记录。记录号可以仅仅是序列号。

对用户输入的查询数据的处理产生多个数据元素和代码。系统利用算法来以如下方式评价所有范围内的数据元素，该方式产生诸如下述的检索关键字和评价属性。以如下方式构建多个这种算法：使得能够同时处理包括语音书写和象形表意书写的多种文字。数据元素、关键字和属性针对每个查询记录存储在数据库中。数据元素可以用语音语言、非语音或象形表意语言或者其结合来提供。记录包括：

a)经过清理的商业名称(在CPS后)。这是对其应用算法后的标准化名称。在一个示例中，算法包括“返回”代码解析，其中“返回”代码的第一字节用于商业名称评价。附加变换包括字首组合词的扩展以及已知别名的处理，以及对观察到的亚洲书写习惯的处理，诸如图13、14、15和16中所描述。

b)可以推断或者添加的附加信息，诸如日语中的辖区名称。

c)输入到系统中的或者可以从外部模块计算或检索的地址编码。该系统使用算法来推导或者解析编码，以检索包括街道号、街道名、城市、省(辖区)和/或邮编的数据。例如在日本，住所代码包括直到实际街道号的数字信息，该住所代码还通过在跨越多个书写系统的日语文字中拾取关键字(诸如，bldg、建筑物、楼层、FL、房间、RM、套房等)，来标识和去除楼层和房间号。

还可以由系统执行诸如经度/纬度的其他编码。解析此编码可以导致推导出附加属性。

d)电话区号通过直接输入系统而提供以及经由CPS处理而丰富。创建定制算法以执行CPS并解析输入的电话号码。将电话号码解析为可能的子成分。然后，将其存储在查询记录上。

候选检索

在对查询数据进行清理、解析以及标准化后，系统必须为了评价而检索候选列表。目的在于构建最可能包含来自参考数据库的最可用匹配的候选列表，同时将所考虑的候选池以及检索该候选池的计算复杂度最小化。候选必须是来自参考数据的“最佳”候选，即，具有与查询记录最大相似度的参考记录，不仅需要考虑字符上的相似，而且音调、象形表意内容以及对于亚洲书写系统唯一的其他方面也要相似。换言之，处理应当返回最可能的候选列表，从而考虑所有可用的以及可推导出的信息。

候选检索通常依赖于区分数据库中可能与查询记录类似的记录的方法。所用的算法打破了预测(即，该算法有多大可能性检索到包含所期待匹配的记录集)和性能(其涉及检索了多少记录、推导检索关键字的计算复杂度、以及因此可以多快地处理候选列表)之间的平衡。

为了允许包括运行中优化，提供了候选检索的非确定方法，该方法允许基于计算复杂度、算法的预测、已检索候选的期望集合的唯一性以及对于亚洲数据集唯一的候选分布的所观察或推导的方面，使用多种算法并从那些算法中为每个查询选择最佳子集。在图8中示出了此方法的典型步骤及示例。该方法包括从查询数据可用的信息生成有效关键字，诸如关键词、汉字或者日本汉字字首组合词(汉字首组合词、日语字首组合词)和电话号码。从先前计算的参考集检索用于所有有效关键字交集的频率计数，即查询记录和参考记录中的匹配关键字。可选地，压制或者抑制产生多于预设频率限制的候选的那些关键字。还可以应用其他技术以精选所提议的检索队列。基于一个或多个因素，诸如检索时间、交集时间、预测和计算开销，来为有效关键字交集产生成本函数。基于计算复杂度、预测和被检索的潜在候选数量的乘积来以成本递增顺序重新排列关键字交集；以相应的关键字交集乘积顺序从数据库检索候选列表。此方法允许在处理查询时实时地优化此方案。

在语音语言中，用于解决正字变型的算法之一称为“字串化(shingling)”的方法，使用此方法，通过排列从查询串选择已知大小和偏移的正字片段，并且将其与指示那些相同片段在数据库的已知记录中的唯一性如何的索引相比较。适合的关键字是那些表示少见片段的那些片段。在图9中示出了“Shell Oil Company”名称的字串示例。在“字串化”(用于语音语言)的实现中，在标识“唯一”字串(即，较小频率出现的字串)时可以使用“字串化”，从计算吞吐量角度来讲，其中该“唯一”字串很可能既具有预测性又高效。

在非语音语言中使用“字串化”的挑战在于，符号变化具有更多的意义。在这种语言中不会出现“拼写错误”，尽管当然存在这样的情况，即字符被省略和/或重新排列却仍保留含义。还可以是由于亚洲语言输入方法编辑器的复杂性而输入了相似声音符号。进一步的挑战来自于这样的事实：当与其他符号连接时，某些符号获得了仅由字符组合表示的新含义——必须小心对待这些组合的复杂组，以避免在算法操作期间对它们去关联，否则将丢失或者改变内在的含义。

通过以适合于亚洲语言的方式管理符号化操作，本公开提供了查询数据片段进行匹配的方法。此方法将某些符号归组在一起，作为“粘滞”字串，当将这些符号归组在一起时，其在非语音语言中具有较高的含义。从观察到的粘滞字串(在汉语中称为“汉字串(Hingle)”在日语中称为“日字串(Kingle)”)之间或者之中作为结果的转变而提取附加推论。图10至图12示出了将此方法应用到中文语言的实施方式，尽管此方法在任何非语音语言或者通信系统中都是可用的。外推法(extrapolation)也适用于解决相同数据属性中的混合书写系统(例如，日语中组合的日本汉字和片假名)。

图9是“字串”的示例。在汉语书写系统中，本方法利用“汉字串化(hingling)”来表示汉字中的“字串化”，“汉字串化”是对汉字进行“字串化”的简称。图10是汉字字串或者汉字串(这些汉字串的长度为2个字符，并且因此可以称为“汉双(Huple)”(Hanzee Duple)的示例。汉字串保留了搜索串的重叠子段的概念，同时考虑到可能成为“粘滞”的某些汉字字串或汉字串，因为它们被归组以传达某些更高级别含义。这些“粘滞字串”是象形表意书写的特点，可以使用这一特点以显著地改进候选检索。汉字字符既不是字母也不是单词，而是语义元素。这样，如图11所示，当字符“粘合”在一起时，它们的含义发生根本性改变。因此，如图11所示，将表示“上海”的字符集标记为特殊的，并且在某些处理期间将其保持在一起。通过观察从汉字串到汉字串(汉双到汉双)的转变，候选检索方法可以推论出输入串的高度预测子成分。

很多“粘滞汉字串”也是“噪音汉字串”，这意味着它们频繁出现但对于候选检索却不可用。从技术上讲，它们是“不感兴趣的”。相反地，“感兴趣的”汉字串是那些不经常出现的汉字串，并且因此对于候选检索是高度预测的。

除了“汉字串化”和粘滞汉字串外，本发明区分“噪音汉字串”或者一起频繁出现而对于候选检索却不可用的汉字串(因为是“不感兴趣的”)。本方法还标识并利用了“哑汉字串”，它们被视为预参考信息相邻的表意文字组，但是当检查时却不包含含义。这些“哑汉字串”的出现不具有语义含义，但是发现它们在候选检索方法中是很强的预测器。在图12中提供了哑汉字串的示例。

这样，该方法包括分析数据库并使所有“噪音汉字串”退出到特殊文件中。这些噪音汉字串并不用于参考表的构建，并且在查询输入中将其忽略。此方法非常具有预测性。

上述所有术语和方法都可以扩展到用于日语书写的日本汉字。作为结果的“日字串”、“粘滞日字串”、“哑日字串”以及感兴趣的/不感兴趣的切片(paring)具有类似功能；但是，由于日语查询数据还包含散布的片假名、罗马字和平假名字符，所以象形表意算法必须利用现有的语音方法来丰富以便产生预测结果。

该方法还包括分析在非语音语言中出现的名称的附加方面。在一个实施方式中，如图13所示，系统可以缩写或忽略通常出现的指示符，诸如结构指示符。如图13所示，系统识别“D&B Taiwan”的汉字名称中的结构指示符，其表示D&B公司的台湾分部。在此示例中，系统去除表示“美商”的汉字串或者使其退出，并去除缩写表示“台湾公司结构”的汉字串和/或使其退出。这样，表示D&B的非常见字符组合主要用于匹配目的(与任何预测哑汉字串一起)。如图14所示，名称内的其他结构指示符可以用于检索或者退出，诸如公司名称内划分或部门的指示。在另一实施方式中，在图15中举例说明的，“汉字首组合词”，即，从公司名称分离出汉字字首组合以便反映通常用来描述公司的字首组合词，从而允许系统搜索并检索具有给定汉字首组合词的候选。如图16所示，该系统还可以反映非语音语言简体版本和繁体版本中的差异。最后，对于日本汉字字首组合词(称为“日字首组合词(Kacronym)”)，存在类似的但是语音增强版本的方法，该方法可以由上述的嵌入语音书写来观察。

该系统还可以利用候选的匹配等级和置信度代码对它们进行排名。优选地，该系统首先以候选的置信度代码顺序对它们进行排名，然后进一步基于商业平局决胜规则来区分出排名最高的层。下文进一步详细地描述匹配等级和置信度代码的指派以及平局决胜规则的应用。

还提供了在评价候选检索算法的预测中使用的处理，该处理包括针对整个处理使用“字串化”以及其他算法。针对具有非确定候选检索的匹配环境，该系统为每个查询记录选取最有用的算法。算法(A)的计算复杂度CC(A)是计算迭代：元素输入或者步骤或算术操作的数量需要解决计算问题。预测P(A)等于所预期结果的数量除以所观测结果的数量。如果使用了该方法，则预期的产出Y(A)等于返回的记录的号。该处理首先包括：基于以下公式计算每个算法的算法常数(AC(A))：AC(A_n)＝CC(A_n)×P(A_n)。然后，将算法常数乘以预期的产出以产生最终得分X(A)：AC(A_n)×Y(A_n)＝X(A_n)。在图17中示出这些计算的示例。优选地在匹配系统中使用产出最低最终分的算法。

评价与决策

在选择并使用了适当的候选检索方法后，随后通过计算匹配等级(“MG”)串来对候选进行记分。针对匹配等级串的每个元素，对候选数据和输入的相应属性指派A、B、F或Z的代码。此处理在图18中示出。如图19所示，将MG代码指派给每个代码成分的结果是匹配等级串或者匹配等级模式。在一个实施方式中，在匹配等级模式中，最多有11个条目(字节)。

匹配等级代码包括“A”匹配和“B”匹配，其中“A”匹配指示，可以认为查询主题数据元素与参考数据“相同”，以及“B”匹配指示查询主题数据元素与参考数据“类似”，但不相同。这些代码还包括“F”匹配和“Z”匹配，其中“F”匹配表示查询主题数据元素与参考数据不同，“Z”匹配表示在查询记录或参考数据记录中不存在查询数据。

在图20的表中示出了各种匹配等级代码的示例，其中示出了用于与“三菱商事(株)vs.三菱商事”的示例的查询数据相比较的参考结果的匹配等级代码。为了建立用于亚洲语言的A/B/F的推论，记分方法不仅考虑逐字符比较，而且考虑发音(对于中文)、拼音或者假名音译、词位变化、笔画复杂度以及对于象形表意书写系统而言独特的其他参数。

已经开发出某些专用算法以便解决亚洲书写系统与本地习惯的细微差别。例如，唯一性(11个匹配等级元素中的一个)必须考虑在亚洲的较大城市与日本辖区和中国省的结构之间的相互关系(图24和图25)。已经引入相对唯一性与绝对唯一性，以便适应亚洲商业人口统计学的这些观察到的特性。

需要针对亚洲语言特殊处理的另一匹配等级元素是行业分类，这必须通过称为多图标语法语义消除二义性的新处理来推断(图26至图27)。考虑到这样的事实：亚洲查询(尤其是日本)通常包括象形表意书写系统和语音书写系统二者的组合，所以此处理使用查询串递归简化的方法。此递归简化以如下方式完成：针对在匹配等级串内的子分类，强调最可能的行业相关关键字。

如图21所示，在推导出匹配等级串后，继而基于推导的匹配等级串来将置信度代码(“CC”)指派给参考或者检索的数据记录。在一个实施方式中，置信度代码是数字，优选地是1和10之间的整数。此指派意在将数据分层归组以便使商业规则得以应用。优选地，从诸如图7中所示模式矩阵检索CC。MG模式矩阵优选地存储在SQL表中，其中每个元素置于单独的字段中。

在系统性能评价和决策步骤中，如果检索到多于一个候选具有针对查询实体检索的所有匹配候选的最高置信度代码，则必须使用平局决胜规则。置信度代码与平局决胜规则一起可以用于按照自动决策中的任务设置和商业规则来自动决策，如果可以标识最佳候选，并且如果候选具有至少一个阈值置信度代码以保证商业应用，则可以自动接受匹配。可以由用户预先选择阈值置信度代码。如果使用平局决胜规则，则系统将记录使用哪个规则来为任何查询记录打破最终平局、以及使用什么数据值用于该最终比较。

以下描述了平局决胜规则集的示例。依次处理这些规则，直到存在一个候选比所有其他排名都高。用整数表示排名，较高的排名对应较低的整数值。只有排名最高的候选(如果多于1个的话)进行到下一规则。

规则1：“A”匹配：商业名称、街道号、街道名称、城市、省/辖区和邮编匹配等级模式都是“A”，并且对于公司类型是否相同：0-是，1-否。

规则2：商业名称的匹配等级：根据商业名称的匹配等级代码的对候选进行排名：0-A，1-B，2-F。

规则3：公司类型：根据与查询数据相比较的公司类型(每个代码)对候选进行排名：0-相同，1-不同。

规则4：省/辖区的匹配等级：根据位置的匹配等级代码对候选进行排名：0-A，1-F，3-Z。

规则5：城市的匹配等级：根据城市的匹配等级代码对候选进行排名：0-A，1-F，2-Z。

规则6：街道名称的匹配等级：根据街道名称的匹配等级代码对候选进行排名：0-A，1-B，2-F。

规则7：街道号码的匹配等级：根据街道号码的匹配等级代码对候选进行排名：0-A，1-B，2-Z，3-F。

规则8：OOB(歇业)指示符：根据状态是营业还是歇业(OOB)对候选进行排名：0＝活动，1＝不活动(OOB)。

规则9：HQ/BR(总部/分部)状态。根据实体类型对候选进行排名：0＝HQ，1＝单个位置，2＝分公司，3＝子公司。

规则10：电话号码的“A”匹配等级。根据电话号码的“A”匹配等级代码对候选进行排名：0-A，1-其他所有。

规则11：公司名称中的“公司类型”位置。根据与查询数据相比较的“公司类型”位置指示符(每个代码)对候选进行排名：0-相同，1-不同。

规则12：电话号码的匹配等级。根据电话号码的匹配等级代码对候选进行排名：0-A，1-B，2-Z，3-F。

规则13：邮编的匹配等级：根据邮编的匹配等级代码对候选进行排名：0-A，1-B，2-Z，3-F。

规则14：TSR(商业类型记录)代码。根据TSR代码的出现/不出现对候选进行排名：0-TSR代码出现，1-TSR代码不出现。

规则15：当前数据标志。根据“COM”标志对候选进行排名：0-标志未出现(更新的数据)，1-标志出现(老数据)。

规则16：记录更新日期。根据系统数据库中主要更新的日期从新到旧对候选进行排名。

规则17：DUNS号。这是最终的平局决胜器。根据DUNS号(即，唯一的公司标识符)来以升序顺序对候选进行排名。

然后，将匹配等级结果呈现给用户。所呈现的信息可以包括以下内容的一个或多个：所使用的匹配等级模式(每个元素一个字段)、置信度代码、匹配数据配置、处理日期、处理批号、用户ID、所匹配参考记录的DUNS号、查询记录数量、以及使用的最终平局决胜规则。可以基于区分置信度代码和其他观察的或推断的属性来对结果进行分类。

可以向用户提供浏览和审核不能匹配的数据的附加能力。用户还可以具有浏览任何数据(包括自动匹配数据在内)的能力。其他能力可以包括：对输出进行过滤(通过置信度代码、匹配等级模式以及使用的平局决胜规则)、手动匹配以及重新匹配。该系统还可以包括用于对所选择记录进行重新处理的手动发起能力的能力，通过该能力，系统可以响应于用户请求而重新运行用于所选择记录全部处理。

优选地，该结果作为报告呈现给用户。优选地，如图22所示，该结果是来自结果数据的不可编辑报告形式。在另一实施方式中，在不需要重新编译系统的情况下，可以添加、修改和/或删除报告。报告可以由XML/XSL编码，并且最初生成为HTML，随后转换成不可编辑格式。可以提前为任务选择可应用的报告，然后该报告成为用于该任务的默认设置。可以使用英语或者母语基础文本来生成报告。

该系统在“匹配等级主表”中存储当前匹配等级模式以及它们相应置信度代码的矩阵。如图7所示，每个唯一的匹配等级模式仅有一行。此表可以包括：作为串的匹配等级模式、附加于该模式的置信度代码、作为单独列的优选为11个匹配等级模式的每个字节、每个条目最后一次改变的版本、和/或当条目改变时自动生成的更新日期-时间。保留编辑历史允许运行中质量保证以及连续的处理改进。

无论何时，当出于任何原因而改变匹配等级主表中的条目时，例如，置信度代码改变或者生效时，系统优选地将先前的条目存储在“匹配等级历史表”中。除了每个匹配等级模式存在多个条目以外，此表具有与匹配等级主表相同的结构。

匹配等级主表的每个改变都需要增大最近版本号。这可以是“较小，，改变(例如，0.2＞＞0.3)或者“较大”改变(0.3＞＞0.4)。将此改变所影响的匹配等级主表中的每个条目加上最近版本的时间戳。但是，可以增大版本并且输入注释，而不必对匹配等级数据进行任何改变。

可以将关于此改变的信息存储到“匹配等级版本表”中，该表可以包括：作为新版本号码的版本号、执行改变的个人的用户ID、注释和/或日期。注释是针对所执行改变及其理由的描述。在处理任何改变之前必须填写此字段。更新日期是标记何时输入了改变的自动生成日期/时间字段。

在一个实施方式中，该方法进一步包括非语音字符的比较串，诸如简体中文、繁体中文或者日语字符，并生成表示它们如何相似的数字得分。此辅助信息可以用来建立属性级匹配等级指派，并用于哑字串、粘滞二重以及其他构件的归纳。在一个实施方式中，以下描述的方法和库适用于汉字字符，但是也适用于任何非语音语言或者通信系统。

在几个轴上执行相似度计算，包括正字、语音和词位变型，以及通过多用户的盲测来客观地评价母语讲话者对算法推理的反应。

除了上述得分之外，例如在日语和汉语两者中，在评价和决策处理中使用象形表意书写的附加方面。优选地，上述“汉字串化”处理还用于确定置信度代码或者表示匹配质量的其他得分。

本发明的增强的匹配系统和方法为汉语、日语和其他非语音或象形表意语言数据匹配系统提供了高级数据匹配和更详细的反馈。该系统还能为数据清理和匹配使用更多数据元素，能够以比现有技术中可用方式更多的方式来匹配数据，以及可以对匹配处理提供更智能的、更小粒度的反馈。此小粒度反馈使得能够经由计算机系统来实现商业处理自动化，否则这是无法实现的。。

本发明的增强匹配系统，诸如日语增强匹配系统(JEMS)，其使用多于先前系统的用户输入文件中的数据元素、并以利用亚洲书写系统的象形表意性质的方式对数据进行匹配。与现有技术的系统相比，该系统和方法的特色还在于，对于现有和新数据元素的附加比较机制。

应当理解，本领域技术人员可以设计出在此公开的教导的各种替代方式、组合和修改。本发明意在包含落入在此公开的教导范围内的所有这类替代方式、修改和变型。

Claims

1.一种针对存储的数据来搜索和匹配输入数据的计算机化方法，所述方法包括：

接收输入数据，所述输入数据包括具有多个元素的搜索串，至少某些所述元素形成了象形表意书写系统的部分；

使用从包括以下内容的组中选择的至少一个方法来将所述多个元素的子集转换成短语集，所述组包括：多图标语法语义消除二义性、汉字字首组合词扩展、日本汉字字首组合词扩展和商业词语识别；

从所述短语集生成最佳多个关键字；

基于与匹配于所述输入数据的最可能候选相对应的所述最佳关键字，来检索存储的数据；以及

从所述匹配候选选择最佳匹配。

2.根据权利要求1的方法，其中所述检索步骤使用从包括以下内容的组中选择的至少一个方法，所述组包括：粘滞汉字字串、粘滞日本汉字字串、哑汉字字串、哑日本汉字字串以及跨越多个书写系统的文本索引。

3.根据权利要求1的方法，其中所述转换步骤包括将所述搜索串划分成多个重叠子段。

4.根据权利要求3的方法，其中所述转换步骤进一步包括：标识包括在所述象形表意书写系统中具有语义含义的子段的粘滞子段。

5.根据权利要求4的方法，其中所述转换步骤进一步包括去除噪音子段。

6.根据权利要求5的方法，其中所述转换步骤进一步包括：

标识包括在所述象形表意书写系统中不具有语义含义的邻近元素的哑子段；以及

从所述哑子段归纳预测。

7.根据权利要求6的方法，其中所述生成步骤包括：使用所述粘滞子段和哑子段来生成所述最佳的多个关键字。

8.根据权利要求1的方法，其中所述转换步骤包括将所述象形表意书写系统的繁体版本和简体版本规格化。

9.根据权利要求1的方法，其中所述象形表意书写系统是从包括以下内容的组中选择的至少一个：日本汉字、繁体汉字和简体汉字(汉字)。

10.根据权利要求1的方法，其中所述元素包括亚洲和罗马字符。

11.根据权利要求1的方法，其中所述转换步骤包括：

解析所述多个元素以便标识所述短语集，所述多个元素包括名称元素、电话号码元素以及地址元素；

通过多图标语法方法推断业务范围，通过所述地址元素交叉校验电话号码元素；以及

识别所述象形表意书写系统的习惯用语和表达，并将所述习惯用语和表达保持在一起以保持含义。

12.根据权利要求11的方法，其中所述转换步骤进一步包括：标识名称元素中的结构指示符和字首组合词。

13.根据权利要求11的方法，进一步包括：基于所述地址元素并通过对灵活亚洲寻址惯例的推断来建立经度和纬度信息。

14.根据权利要求1的方法，其中所述检索步骤进一步包括：限制用于所述多个关键字中的某些关键字的匹配候选，其中所述多个关键字返回的计数超过预定阈值；为选择关键字交集生成成本函数；根据所述成本函数来对所述关键字交集排列优先级；以及按照所述关键字交集的顺序检索所述匹配候选。

15.根据权利要求1的方法，其中所述检索步骤进一步包括：基于匹配的程度，为每个匹配候选生成匹配等级、置信度代码以及匹配数据配置。

16.根据权利要求15的方法，其中所述置信度代码至少部分基于所述搜索串的推断内容和语义含义来确定。

17.根据权利要求14的方法，进一步包括：基于所述置信度代码，来提供所选择的匹配候选的有序列表。

18.根据权利要求15的方法，进一步包括：将所述有序列表中的所述每个候选指派给多个匹配水平之一。

19.根据权利要求18的方法，进一步包括：通过对所述匹配候选以其置信度代码的顺序进行排名来确定所述匹配水平的指派，然后进一步基于用户定义的平局决胜规则来区分所述最高排名水平。

20.一种计算机可读介质，具有用于执行针对所存储数据搜索和匹配输入数据的方法的指令，所述方法包括：

接收输入数据，所述输入数据包括具有多个元素的搜索串，所述元素中的至少某些形成了象形表意书写系统的部分；

使用从由包括以下内容的组中选择的至少一个方法来将所述多个元素的子集转换成短语集，所述组包括：多图标语法语义消除二义性、汉字字首组合词扩展、日本汉字字首组合词扩展和商业词语识别；

从所述短语的集生成最佳多个关键字；

基于与最可能匹配所述输入数据的候选相对应的所述最佳关键字来检索所存储的数据；以及

从所述匹配候选选择最佳匹配。