CN110705214B

CN110705214B - 一种自动编码方法及装置

Info

Publication number: CN110705214B
Application number: CN201910798215.5A
Authority: CN
Inventors: 荣小辉; 柯昆; 康波; 张子锐
Original assignee: Tianjin Xinkaixin Life Technology Co ltd; Tianjin Happy Life Technology Co ltd
Current assignee: Tianjin Xinkaixin Life Technology Co ltd; Tianjin Happy Life Technology Co ltd
Priority date: 2019-08-27
Filing date: 2019-08-27
Publication date: 2023-05-02
Anticipated expiration: 2039-08-27
Also published as: CN110705214A

Abstract

本发明公开了一种自动编码方法及装置，该方法包括：对词典文件进行结构化处理，以获得标准词；利用预设的属性词词典对获取的原始词进行结构化处理，以生成结构化信息；将所述结构化信息与所述标准词进行结构化属性匹配，得到与所述结构化信息相对应的候选结果；对所述候选结果进行编码后置处理，以获得经过处理的标准词；输出所述经过处理的标准词，以实现对所述原始词的自动编码。通过本发明的技术方案，可以实现对任何形式的自由文本进行编码，对报告的医学术语与MedDRA词典没有相似或相同的要求，不需要积累和维护同义词库，大大减少了人工投入，提高了编码效率。

Description

一种自动编码方法及装置

技术领域

本发明涉及医学信息处理技术应用领域，尤其涉及一种自动编码方法及装置。

背景技术

MedDRA(Medical Dictionary for Regulatory Activities，监管活动医学词典)是一个内容丰富且详细的医学标准术语应用词典，覆盖的产品包括药品，生物制品，疫苗和药物器械综合产品，其促进了医疗产品国际监管信息的共享。

为了对临床试验中的医学术语进行编码，目前常采用的一种方法是先用工具进行自动编码，未能成功编码的词再进行人工编码。工具自动编码的方法分两个部分：报告医学术语与词典完全相同的会被自动识别编码；与词典不完全相同的词则通过建立同义词库，由人工手动建立一一对应的映射。上述过程需要耗费大量的人工，并且只能对与标准词典完全一致的医学术语进行自动编码，而报告的医学术语是自由文本并且多种多样，使用这种完全一致匹配的方式进行编码，很难满足对自由文本编码的自动化要求。

发明内容

本发明提供一种自动编码方法及装置，以解决现有的应用词典编码技术无法实现对自由文本进行自动化编码以及人工编码效率低的技术问题。

第一方面，本发明实施例提供了一种自动编码方法，包括：

对词典文件进行结构化处理，以获得标准词；

利用预设的属性词词典对获取的原始词进行结构化处理，以生成结构化信息；

将所述结构化信息与所述标准词进行结构化属性匹配，得到与所述结构化信息相对应的候选结果；

对所述候选结果进行编码后置处理，以获得经过处理的标准词；

输出所述经过处理的标准词，以实现对所述原始词的自动编码。

第二方面，本发明实施例提供了一种自动编码装置，包括：

标准词获取模块，用于对词典文件进行结构化处理，以获得标准词；

结构化信息获取模块，用于利用预设的属性词词典对获取的原始词进行结构化处理，以生成结构化信息；

结构化属性匹配模块，用于将所述结构化信息与所述标准词进行结构化属性匹配，得到与所述结构化信息相对应的候选结果；

后置处理模块，用于对所述候选结果进行编码后置处理，以获得经过处理的标准词；

输出模块，用于输出所述经过处理的标准词，以实现对所述原始词的自动编码。

第三方面，本发明实施例提供了一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现如上述第一方面中任一所述的自动编码方法。

第四方面，本发明实施例提供了一种电子设备，包括：处理器、存储器和总线；所述存储器用于存储计算机程序，所述处理器与所述存储器通过所述总线连接，当所述电子设备运行时，所述处理器执行所述存储器的所述计算机程序，以使所述处理器执行如上述第一方面中任一所述的自动编码方法。

本发明实施例提供的自动编码方法和系统至少包括以下有益效果：

本发明通过分别对词典文件和原始词进行结构化处理，对原始词进行结构化属性匹配，并对候选结果进行后置处理后输出，在匹配过程中可以自定义设置原始词与标准词相似度的阈值，只有高于某个阈值，程序才会自动匹配，用以调节召回率和准确率；同时可以实现对任何形式的自由文本进行编码，对报告的医学术语与词典文件没有相似或相同的要求，不需要积累和维护同义词库，大大减少了人工投入，提高了编码效率。

附图说明

为了更清楚地说明本发明实施例或现有的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的自动编码方法的流程示意图；

图2为本发明一实施例提供的自动编码方法中词典文件进行结构化处理，以获得标准词的流程示意图；

图3为本发明另一实施例提供的自动编码方法的流程示意图；

图4为本发明一实施例提供的自动编码方法中利用预设的属性词词典对获取的原始词进行结构化处理，以生成结构化信息的流程示意图；

图5为图4中利用预设的属性词词典对所述原始词进行结构化处理的流程示意图；

图6为本发明一实施例提供的自动编码方法中将所述结构化信息与所述标准词进行结构化属性匹配的流程示意图；

图7为本发明一实施例提供的自动编码装置的结构示意框图；

图8为适于用来实现本发明实施例的电子设备的计算机系统的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合具体实施例及相应的附图对本发明的技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供了一种自动编码方法，在一个具体实施例中，该方法应用于使用MedDRA词典对临床试验中医学术语的自动编码，特别是对自由报告文本进行编码，其实施方式的具体流程如图1所示，包括：

步骤S101：对词典文件进行结构化处理，以获得标准词。

通过设计程序接口，对词典文件进行结构化加载，分别存储各术语的父节点、子节点信息、术语路径信息文件以及未特指的术语对应数据关系等，建立标准词数据库，作为应用词典自动编码的标准词。

步骤S102：利用预设的属性词词典对获取的原始词进行结构化处理，以生成结构化信息。

在本实施例中，可以通过正则匹配对原始词中与标准词典完全一致的医学术语进行自动编码，生成结构化信息，剩下的自由文本可以通过正则匹配之外的其他编码方式进行，从而实现对自由文本拆分的效果，针对不同文本形式有针对性的进行编码，可以提高编码准确性，有效提高编码效率。

步骤S103：将所述结构化信息与所述标准词进行结构化属性匹配，得到与所述结构化信息相对应的候选结果。

具体地，步骤S101中的标准词采用结构化存储方式，此处采用结构化信息对标准词进行结构化属性匹配，可以提高匹配的准确性，同时可以根据实际应用场景和实际需要对结构化匹配的算法进行自定义配置，并且可以设置相似度的阈值，只有高于某个阈值，程序才会自动匹配，用以调节召回率和准确率，使最终得到的候选结果更加准确。

步骤S104：对所述候选结果进行编码后置处理，以获得经过处理的标准词。

编码后置处理主要是对于自动编码过程中出现的异常或者特殊的情形进一步提出的处理方案，从而保证各种文本形式均可以被准确进行匹配。

步骤S105：输出所述经过处理的标准词，以实现对所述原始词的自动编码。

在得到自动编码最终输出结果的标准词之后，利用前面步骤S101中的程序接口，还可以获取该标准词在词典文件中的全部路径，以及对应的发行文件的所有信息。

本实施例所提供的自动编码方法，通过分别对词典文件和原始词进行结构化处理，对原始词进行结构化属性匹配，并对候选结果进行后置处理后输出，在匹配过程中可以自定义设置原始词与标准词相似度的阈值，只有高于某个阈值，程序才会自动匹配，用以调节召回率和准确率；同时可以实现对任何形式的自由文本进行编码，对报告的医学术语与MedDRA词典没有相似或相同的要求，不需要积累和维护同义词库，大大减少了人工投入，有助于提高编码效率。

作为一种具体的实施方式，如图2所示出的是上述图1实施例中步骤S101对词典文件进行结构化处理，以获得标准词的流程示意图，具体包括：

步骤S201：基于所述词典文件的编码-术语文件，生成编码到术语的映射表，同时可以利用编码匹配中英文术语。

步骤S202：获取所述词典文件中各层级术语之间的父子连接关系文件。

步骤S203：确定所述词典文件中术语路径信息文件，并通过所述父子连接关系文件对所述应用词典中的术语路径进行验证。

步骤S204：保存所述父子连接关系文件中各术语的父节点信息、子节点信息以及所述术语路径信息文件，作为自动编码的标准词。

例如，在一个医学诊断不良事件的MedDRA自动编码过程中，MedDRA词典会有多种语言版本，优选地会利用英文版和中文版，配置程序接口对MedDRA词典进行加载。MedDRA词典中包含LLT(低位语)术语、PT(首选语)术语以及SOC(系统器官分类)术语等，同时还存在未特指的术语NOS。依次加载MedDRA词典中的编码-术语文件，生成编码到术语的映射表，同时利用编码匹配中英文术语，其中LLT术语含有现行/非现行标记，PT术语含有其主SOC术语信息。然后再加载MedDRA词典的存储结构，包括加载各层级术语之间的父子连接关系文件，并保存各术语的父节点信息、子节点信息。最后加载MedDRA术语路径信息文件，并用前面保存的术语父子连接关系和主SOC术语信息，对路径进行验证，最后保存这些路径信息。

利用上述保持的编码到术语的映射表、各术语的父节点信息、子节点信息以及信息文件，可以输出所有LLT术语(PT术语本身也是一个LLT术语，所以获取LLT时，PT也一并输出)。针对NOS(未特指)术语进行特定处理，通常是对NOS(未特指)术语自定义建立对应关系，让后保存处理前后的对应关系数据，共同作为MedDRA自动编码的标准词。

本实施例通过对词典文件进行结构化加载并存储，可以实现对MedDRA词典里的标准医学术语进行与原始词结构化处理相同的拆分，从而可以实现拆分后的各个成分可以进行程序比对。

作为另一种具体的实施方式，如图3所示，本发明自动编码方法在附图1所述实施例的基础上，还可以通过以下方式实现。

具体地，在步骤S101中对词典文件进行结构化处理，以获得标准词的过程，还包括对未特指术语的加载过程，具体包括以下步骤：

步骤S301：对所述词典文件中没有对应编码的(即未特指的)术语进行自定义特定处理，构建对应关系数据；

步骤S302：将所述对应关系数据存储为自动编码的标准词。

通过对未特指属于的加载和特定处理，使得自动编码后得到的候选结果中存在的未特指原始词可以根据未特指术语的结构对应关系进行特别处理，从而对未特指的原始词和标准词实现编码。

在对未特指术语的加载后，图1所示实施例中步骤S104对所述候选结果进行编码后置处理，以获得经过处理的标准词，可以包括下述步骤：

步骤S311：判断所述候选结果中是否包含标识了未特指的原始词；

当所述候选结果中包含标识了未特指的原始词时，则：

步骤S312：匹配包含所述对应关系数据的标准词。

具体地，对标识了NOS的原始词，从前面保存的数据中找到对应的NOS术语进行替换，通过对应关系数据匹配，以获得经过处理的标准词。

由于自由文本形式的多样性，最终匹配到标准词的原始词，会存在需要特殊处理的情形，需要依据不同情形分别配置不同的后置处理方案。图3示出了上述所描述的标识了NOS的原始词的后置处理方式，实际应用中还同时存在其他情形，因此需要对候选结果中的原始词进一步做如下处理：

步骤S321：判断所述候选结果中是否包含目标逻辑词汇。

当检测到所述候选结果中包含所述目标逻辑词汇时，则：

步骤S322：在所述候选结果中给出对应标记，以用于前台系统展示出特定提示。

另一个情形中，对于多个返回结果的，结合结果所在PT父节点情况以及文本相似性进行选优，另外还会针对一些特殊的医学写法习惯进行处理。

在本实施例中，通过对自动编码后置处理分情形处理，可以实现对任何形式的自由文本进行编码，对报告的医学术语与MedDRA词典没有相似或相同的要求，不需要积累和维护同义词库，大大减少了人工投入。

作为一种具体的实施方式，如图4所示出的是本发明提供的自动编码方法中利用预设的属性词词典对获取的原始词进行结构化处理，以生成结构化信息的流程示意图，包括：

步骤S401：对获取的所述原始词进行清洗，以获得清洗后的原始词。

具体地，清洗后的原始词是指，获取原始词首先对原始词进行预处理，具体地，可以包括对原始词进行全角转半角、去除无意义符号等预处理。本例中所描述的原始词可以是来源于试验或项目数据采集人员填写的数据，或者从电子数据中自动抓取的数据。

步骤S402：对所述清洗后的原始词进行同义词替换和正则匹配。

当检测到判定所述正则匹配的返回结果为空时，则：

步骤S403：利用预设的所述属性词词典对所述原始词进行结构化处理，生成所述结构化信息。

对于正则匹配中未匹配到结果的原始词，进一步的进行结构化处理，可以自定义配置属性关系，根据实际原始数据来源以及文本记录习惯等因素对原始词进行分词并进行属性标记，从而使得这种自动编码方式可以使用与各种不同形式的文本形式，提高应用的灵活性，扩大使用范围。

如图5所示，在图4所示的自动编码方法步骤的基础上，步骤S403利用预设的属性词词典对所述原始词进行结构化处理，生成结构化信息，包括：

步骤S501：对所述原始词进行分词，在本实施例中可以用诊断定制的分词器对所述原始词进行分词。

步骤S502：根据预设的属性词词典对所述分词进行属性标记，构造属性词关系结构数据作为结构化信息。具体地，预设的属性词词典可以是积累的属性词词典(含属性词同义词及解剖词层级结构等)。

进一步地，如图6所示，步骤S105将所述结构化信息与所述标准词进行结构化属性匹配，得到与所述结构化信息相对应的候选结果的过程，可以通过以下方式实现：

步骤S601：从所述属性词关系结构数据中选取主属性词，并利用所述主属性词召回所述标准词。

通过上述过程对原始词进行结构化处理，得到不同属性词，特别是可以根据实际使用场景自定义设置选取主属性词，用于召回步骤S101中的标准词。通过主属性词召回标准词，有针对性地选择可以匹配的标准词，而不需要对所有标准词均进行匹配，避免增加不必要的计算量。针对主属性词召回的标准词进一步进行结构化属性匹配，匹配之后留下的标准词即候选结果，若留下的候选结果为空，则利用配置的结构化后映射规则策略进行处理，再次进行结构化属性匹配得到候选结果，返回这些结果。

步骤S602：配置所述结构化信息中各所述属性词对应的打分逻辑。

具体地，可以正对每个属性词分别配置以下打分逻辑，配置可能包含：完全匹配、父子层级关系、规则匹配、子集、同义关系等，例如在进行医学诊断异常事件自动编码中，对于疾病分型匹配打分规则包括完全匹配、子集两个配置。

步骤S603：根据所述各属性词对应的打分逻辑，对召回的所述标准词依次进行主属性匹配过滤并打分，然后用其他属性进行匹配打分，得到累加的总分数。

步骤S604：根据总分数由大到小和匹配到的属性个数由多到少对标准词进行排序，返回排序结果。

特别的在一个实施例中，可以自定义设置相似度的阈值，从排序结果中得到候选结果，例如可以通过以下方式实现：

步骤S605：获取预设的过滤策略的总分数阈值和匹配属性个数的阈值。

步骤S606：将所述排序结果中满足所述总分数阈值和所述个数阈值的标准词作为所述候选结果。例如选取排序结果中，总分数大于阈值并且匹配属性个数大于阈值的所有标准词作为候选结果。

本实施例通过在匹配过程中可以自定义设置原始词与标准词相似度的阈值，只有高于某个阈值，程序才会自动匹配，用以调节召回率和提高准确率。

基于与本发明方法上述各个实施例相同的构思，下面对本发明实施例提供的应用词典自动编码装置进行介绍，下文描述的应用词典自动编码装置与上文描述的自动编码方法可相互对应参照。

请参考图7，本发明实施例提供了一种应用词典自动编码装置，如附图7所示自动编码装置包括：标准词加载模块701、结构化信息获取模块702、结构化属性匹配模块703、后置处理模块704以及输出模块705。其中标准词获取模块701用于对词典文件进行结构化处理，以获得标准词；结构化信息获取模块702用于利用预设的属性词词典对获取的原始词进行结构化处理，以生成结构化信息；结构化属性匹配模块703用于将所述结构化信息与所述标准词进行结构化属性匹配，得到与所述结构化信息相对应的候选结果；后置处理模块704用于对所述候选结果进行编码后置处理，以获得经过处理的标准词；输出模块705用于输出所述经过处理的标准词，以实现对所述原始词的自动编码。

本实施例的应用词典自动编码装置用于实现前述的自动编码方法，因此应用词典自动编码装置中的具体实施方式可见前文中的自动编码方法的实施例部分，例如，标准词加载模块701用于实现上述自动编码方法的步骤S101；预处理模块702，用于实现上述自动编码方法的步骤S102；结构化属性匹配模块703，用于实现上述自动编码方法的步骤S103；后置处理模块704用于实现上述自动编码方法的步骤S104；输出模块705，用于实现上述自动编码方法的步骤S105。所以，其具体实施方式可以参照相应的各个部分实施例的描述，在此不再赘述。

图8为适于用来实现本发明实施例的电子设备的计算机系统的结构示意图。在硬件层面，该电子设备包括处理器，可选地还包括内部总线、网络接口、存储器。其中，存储器可能包含内存，例如高速随机存取存储器(Random-AccessMemory，RAM)，也可能还包括非易失性存储器(non-volatilememory)，例如至少1个磁盘存储器等。当然，该电子设备还可能包括其他业务所需要的硬件。

处理器、网络接口和存储器可以通过内部总线相互连接，该内部总线可以是ISA(IndustryStandardArchitecture，工业标准体系结构)总线、PCI(Peripheral ComponentInterconnect，外设部件互连标准)总线或EISA(Extended IndustryStandardArchitecture，扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图8中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

存储器，用于存储计算机程序。具体地，程序可以包括程序代码，所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器，并向处理器提供指令和数据。

在一种可能实现的方式中，处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，也可从其它设备上获取相应的计算机程序，以在逻辑层面上形成应用词典自动编码装置。处理器，执行存储器所存放的程序，以通过执行的程序实现本发明任一实施例中提供的自动编码方法。

上述如本发明图7所示实施例提供的自动编码装置执行图1-6任一所示实施例的方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器(CentralProcessingUnit，CPU)、网络处理器(NetworkProcesso，NP)等；还可以是数字信号处理器(DigitalSignalProcesso，DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit，ASIC)、现场可编程门阵列(Field－ProgrammableGateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者是任何常规的处理器等。

结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

本发明实施例还提出了一种计算机可读存储介质，该计算机可读存储介质存储一个或多个程序，该一个或多个程序包括指令，该指令当被包括多个应用程序的电子设备执行时，能够使该电子设备执行本发明任一实施例中提供的自动编码方法。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元或模块分别描述。当然，在实施本发明时可以把各单元或模块的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、系统、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flashRAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本发明的实施例可提供为方法、系统或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本发明中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的实施例而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种自动编码方法，其特征在于，包括：

对词典文件进行结构化处理，以获得标准词；

利用预设的属性词词典对获取的原始词进行结构化处理，以生成结构化信将所述结构化信息与所述标准词进行结构化属性匹配，得到与所述结构化信息相对应的候选结果；

输出所述经过处理的标准词，以实现对所述原始词的自动编码；

所述对词典文件进行结构化处理，以获得标准词，包括：

基于所述词典文件的编码—术语文件，生成编码到术语的映射表；

获取所述词典文件中各层级术语之间的父子连接关系文件；

确定所述词典文件中术语路径信息文件，并通过所述父子连接关系文件对所述词典文件中的术语路径进行验证；

保存所述父子连接关系文件中各术语的父节点信息、子节点信息以及所述术语路径信息文件，作为自动编码的标准词。

2.根据权利要求1所述的自动编码方法，其特征在于，所述对词典文件进行结构化处理，以获得标准词，还包括：

对所述词典文件中没有对应编码的术语进行自定义特定处理，构建对应关系数据；

将所述对应关系数据存储为自动编码的标准词。

3.根据权利要求2所述的自动编码方法，其特征在于，所述对所述候选结果进行编码后置处理，以获得经过处理的标准词，包括：

判断所述候选结果中是否包含标识了未特指的原始词；

当所述候选结果中包含标识了所述未特指的原始词时，匹配包含所述对应关系数据的标准词。

4.根据权利要求1所述的自动编码方法，其特征在于，所述利用预设的属性词词典对获取的原始词进行结构化处理，以生成结构化信息，包括：

对获取的所述原始词进行清洗，以获得清洗后的原始词；

对所述清洗后的原始词进行同义词替换和正则匹配；

当检测到判定所述正则匹配的返回结果为空时，利用预设的所述属性词词典对所述原始词进行结构化处理，生成所述结构化信息。

5.根据权利要求4所述的自动编码方法，其特征在于，清洗后的所述原始词包括:经过全角转半角、去除无意义符号处理后的原始词。

6.根据权利要求4所述的自动编码方法，其特征在于，所述利用预设的所述属性词词典对所述原始词进行结构化处理，生成所述结构化信息，包括：

对所述原始词进行分词；

根据预设的属性词词典对所述分词进行属性标记，构造属性词关系结构数据，以作为所述结构化信息。

7.根据权利要求6所述的自动编码方法，其特征在于，所述将所述结构化信息与所述标准词进行结构化属性匹配，得到与所述结构化信息相对应的候选结果，包括：

从所述属性词关系结构数据中选取主属性词，并利用所述主属性词召回所述标准词；

配置所述结构化信息中各所述属性词对应的打分逻辑；

根据所述各属性词对应的打分逻辑，对召回的所述标准词依次进行主属性匹配过滤并打分，然后用其他属性进行匹配打分，得到累加的总分数；

根据所述总分数和匹配到的属性个数对标准词进行排序，返回排序结果。

8.根据权利要求7所述的自动编码方法，其特征在于，所述利用所述结构化信息对所述标准词进行结构化属性匹配，得到候选结果，还包括：

获取预设的过滤策略的总分数阈值和匹配属性个数阈值；

将所述排序结果中满足所述总分数阈值和所述个数阈值的标准词作为所述候选结果。

9.根据权利要求7所述的自动编码方法，其特征在于，所述对所述候选结果进行编码后置处理，以获得经过处理的标准词，包括：

判断所述候选结果中是否包含目标逻辑词汇；

当检测到所述候选结果中包含所述目标逻辑词汇时，在所述候选结果中给出对应标记，以获得所述经过处理的标准词。

10.一种自动编码装置，其特征在于，包括：

标准词获取模块，用于对词典文件进行结构化处理，以获得标准词；具体包括：基于所述词典文件的编码—术语文件，生成编码到术语的映射表；获取所述词典文件中各层级术语之间的父子连接关系文件；确定所述词典文件中术语路径信息文件，并通过所述父子连接关系文件对所述词典文件中的术语路径进行验证；保存所述父子连接关系文件中各术语的父节点信息、子节点信息以及所述术语路径信息文件，作为自动编码的标准词；

11.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1至9中任一项所述的自动编码方法。

12.一种电子设备，包括：处理器、存储器和总线；所述存储器用于存储计算机程序，所述处理器与所述存储器通过所述总线连接，当所述电子设备运行时，所述处理器执行所述存储器的所述计算机程序，以使所述处理器执行如权利要求1至9中任一项所述的自动编码方法。