CN102955773A

CN102955773A - 用于在中文文档中识别化学名称的方法及系统

Info

Publication number: CN102955773A
Application number: CN2011102547531A
Authority: CN
Inventors: 吴贤; 张俐; 陈颖; 苏中
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2011-08-31
Filing date: 2011-08-31
Publication date: 2013-03-06
Anticipated expiration: 2031-08-31
Also published as: US20130054226A1; US9575957B2; CN102955773B

Abstract

本发明提供一种用于在中文文档中识别化学名称的方法及其系统。所述方法包括：接收包括化学名称的中文文档；识别所述文档中的化学名称片段；识别所述文档中的非化学名称片段；以及基于所识别的化学名称片段和非化学名称片段，合并所述化学名称片段以得到所述化学名称。本发明的具体实施方式可以有效地从化学文献中识别化学名称。

Description

用于在中文文档中识别化学名称的方法及系统

技术领域

本发明总体上涉及信息处理技术领域，特别地，涉及一种用于在中文文档中识别化学名称的方法及系统。

背景技术

目前，随着化学领域的科学技术的发展，各种涉及化学领域的科技文献也日益增多，比如涉及化学的科技论文、公开的专利文献等，其中中文文档的数量也是愈来愈多。在这些文献的计算机深度处理中，化学名称识别技术显得非常重要。本领域技术人员理解化学名称是指出现在专业的化学文档中，可以唯一的指定相应的化学分子结构的名称。中文化学名称是根据IUPAC命名法和中文通用名发展而来的。化学名称识别技术的目的在于自动从自然语言文档中检测和标识出化学名称，该技术对化学或者生化领域中的各种数据挖掘应用非常有用。

目前，在英文化学名称识别方面人们作了一些研究，主要可以分为两类：一种是利用机器学习模型对训练数据进行学习来形成标注器(annotators)，并利用所述标注器来从纯文本文件中识别化学名称，机器学习模型主要有Hidden Markov Model(HMM)(Freitag and McCallum，1999)，Maximum Entropy Markov Model(MeMM)(McCallum et al.，2000)or Conditional Random Fields(CRF)(Lafferty et al.，2001)。另外一种是基于专家设计的规则和字典来实现化学名称识别。

目前还没有一种中文化学名称识别技术。其原因在于：首先，与英语比较而言，中文在语言结构上就比较复杂，比如中文不会存在术语与术语之间的边界(英文每个词之间会用空格隔开)，中文也不会存在可以利用的大写的信息等。独特的语言特点阻碍了将英文的化学名称识别技术运用到中文环境中。第二，目前中文化学名称的命名法并不是精确地符合英文的化学名称命名体系，而是一种混合了中国传统命名方法和IUPAC标准。因此如果通过模型学习的方式，就需要至少兼顾中国传统命名方法和IUPAC命名标准。第三，目前可用于中文化学名称识别的可利用的现成化学名称资源不多，从而很难通过利用模型学习的方式来进行中文化学名称的识别。

因此目前需要一种用于在中文文档中识别化学名称的方法和系统。

发明内容

本发明一方面提供用于在中文文档中识别化学名称的方法，包括：接收包括化学名称的中文文档；识别所述文档中的化学名称片段；识别所述文档中的非化学名称片段；以及基于所识别的化学名称片段和非化学名称片段，合并所述化学名称片段以得到所述化学名称。

本发明另一方面提供一种用于在中文文档中识别化学名称的系统，包括：接收装置，被配置为接收包括化学名称的中文文档；第一识别装置，被配置为识别所述文档中的化学名称片段；第二识别装置，被配置为识别所述文档中的非化学名称片段；以及合并装置，被配置为基于所识别的化学名称片段和非化学名称片段，合并所述化学名称片段以得到所述化学名称。

本发明的具体实施方式可以比较有效地从化学文献中识别化学名称。

附图说明

为了对本发明实施例的特征和优点进行详细说明，将参照以下附图。如果可能的话，在附图和描述中使用相同或者类似的参考标号以指代相同或者类似的部分。其中：

图1示出了本发明用于在中文文档中识别化学名称的第一具体实施方式；

图2示出了识别中文文档中的化学名称片段的优选具体实施方式；

图3示出了识别中文文档中的非化学名称片段的优选具体实施方式；

图4示出了合并化学名称片段的优选具体实施方式；

图5示出了本发明用于在中文文档中识别化学名称的第二具体实施方式；

图6示出了本发明用于在中文文档中识别化学名称的系统的框架图；

图7示出了可以实现根据本发明的实施例的计算设备的结构方框图。

具体实施方式

现在将参考本发明的示例性实施例进行详细的描述，在附图中图解说明了所述实施例的示例，其中相同的参考数字始终指示相同的元件。应当理解，本发明并不限于所公开的示例实施例。还应当理解，并非所述方法和设备的每个特征对于实施任一权利要求所要求保护的本发明都是必要的。此外，在整个公开中，当显示或描述处理或方法时，方法的步骤可以以任何顺序或者同时执行，除非从上下文中能清楚一个步骤依赖于先执行的另一步骤。此外，步骤之间可以有显著的时间间隔。

图1示出了本发明用于在中文文档中识别化学名称的第一具体实施方式。在步骤101中，接收包括化学名称的中文文档。该中文文档可以是各种文件形式。比如可以是纯文本文件，也可是word文件、pdf文件、XML文件等。对于不是纯文本文件的中文文档，可以对该中文文档进行预处理以形成纯文本文件。其中所述中文文档可以包括中文化学名称，也可以包括英文化学名称。

在步骤103中，识别所述文档中的化学名称片段。其中所述化学名称片段是指通常用于表达准确化学名称中的某一部分文字(字母)或者数字等。以化学名称2-[(4-氯-苯基)-(2，4-二氯-苯甲酰基)-氨基]-噻唑-4-甲酸二乙基酰胺为例，其中“2-[(4-”、“-”、“)-(2，4-”、“-4-”、“)-”为化学名称片段中的数字片段类型，“氯”、“苯基”、“二氯”、“苯甲酰基”、“氨基”、“噻唑”、“甲酸二乙基酰胺”为化学名称片段中的文字片段类型。识别文档中的化学名称片段可以通过与事先建立起来的化学名称片段字典进行匹配，从而可以一一识别出所述文档中的化学名称片段。当然本领域技术人员也可以基于本申请考虑到其它任何适合的识别方式。其中，可以从已有的中文化学名称和英文化学名称中生成化学名称片段字典，已有的中文化学名称和英文化学名称的来源包括PubChem(pubchem是一个化学名称的知识库http://pubchem.ncbi.nlm.nih.gov/)，涉及化学领域的专利中的结构化内容等。使用正则表达式就可以将一个已有的化学名称分解成化学名称片段。举例而言，对于中文化学名称“2-[(4-氯-苯基)-(2，4-二氯-苯甲酰基)-氨基]-噻唑-4-甲酸二乙基酰胺”，使用正则表达式[\p{ASCII}]+(找出所有非中文字符串)进行分解，可以把该化学名称分为两个部分：数字片段：“2-[(4-”、“-”、“)-(2、4-”、“-4-”、“)-”；字符片段：“氯”、“苯基”、“二氯”、“苯甲酰基”、“氨基”、“噻唑”、“甲酸二乙基酰胺”。对于英文化学名称“2-methyl-3，3-dimethyloctance”，使用正则表达式[a-z]+(找出所有字母串)进行匹配。可以把化学名称分为两个部分：数字片段：“2-”、“-3-”，字符片段：“methyl”和“dimethyloctance”。对于中文化学名称识别，数字片段可以在识别化学名称时利用。将获得的化学名称片段形成化学名称字典以便后续匹配。而优选的识别化学名称片段的具体实施方式将在后详细介绍。

在步骤105中，识别所述文档中的非化学名称片段。其中所述非化学名称片段是指通常不会用于表达准确化学名称中的某一部分文字(字母)、短语等。识别文档中的非化学名称片段可以通过与事先建立起来的化学名称片段字典进行匹配，从而可以一一识别出所述文档中的非化学名称片段。当然本领域技术人员也可以基于本申请考虑到其它任何适合的识别方式(例如使用有限状态机存储字典等)。其中，基于非化学领域的中文文档收集出现频率较高的词形成非化学名称片段字典。例如，可以收集非化学方面的中文文档，比如财经，娱乐，体育，时政新闻等，使用中文分词器，如现有工具stanford parser对于这些文档进行分词，从得到的所有词中，挑选出现次数较频繁的词，构成非化学名称片段字典以便后续匹配。优选的识别化学名称片段的具体实施方式将在后详细介绍。

在步骤107中，基于所识别的化学名称片段和非化学名称片段，合并所述化学名称片段以得到所述化学名称。由于化学名称片段并非完全的化学名称，而仅仅是其一部分。因此通过合并所述化学名称片段来形成所述化学名称。其中所述非化学名称片段在合并所述化学名称片段以得到所述化学名称中作为阻隔符：引入非化学名称片段在于区分属于不同的化学名称中的化学名称片段，从而可以确保不会将不属于同一化学名称的化学名称片段合并成一种实际不存在的化学名称，即阻隔合并不恰当的化学名称片段。关于合并所述化学名称片段以得到所述化学名称的优选具体实施方式将在后面更多地介绍。

图2示出了识别中文文档中的化学名称片段的优选具体实施方式。在步骤201中，对所述文档进行分句。可以使用标点符号进行简单分句。在步骤203中，基于化学名称片段字典匹配所述文档的分句中出现的所有化学名称片段。匹配时构建有限状态机(对于字典中的所有化学名称片段，以字为基本单元构建有限状态机)，使用多模式匹配的方法进行匹配，具体可以参见Aho，Alfred V.；Margaret J.Corasick(June 1975).″Efficient string matching：An aid to bibliographic search″.Communications of the ACM 18(6)：333-340。由于构建有限状态机和多模式匹配属于较成熟的现有技术，为节省篇幅在此不再赘述；在步骤205中，记录所述化学名称片段的位置信息。在获得所述化学名称片段时，就记录该化学名称片段的位置信息。所述位置信息包括所述化学名称片段和非化学名称片段中之一的在文档中的开始位置和结束位置，比如某化学片段A的起始位置是文档的第100个字符，而结束位置是文档的第104个字符，则化学片段A的位置为(99，103)(在这里将第一个字符位置设为0)。由于前面对文档采用了分句，优选地所述位置信息可以考虑记录分句的序号。也可以采用将处于同一分句的化学名称片段存储在同一张表格以进行后续处理，处于不同分句的化学名称片段存储在不同表格中，从而可以不记录分句的序号；以及在步骤205中，缩减在同一分句中的所述化学名称片段。其中所述缩减所述化学名称片段是按照以最少的化学名称片段数目匹配最多的化学名称片段的原则进行缩减的。一般而言，在得到大量匹配到的化学名称片段中，无可避免的，很多片段互相覆盖，为了避免这一状况，遵从上述原则，使用动态规划的方法找到一个最小的冲突的片段子集。动态规划的方法可以参考Introduction to Algorithms，Third Edition.MIT Press Chapter 15：Dynamic Programming，由于动态规划属于较经典的现有技术，为节省篇幅在此不再赘述。

下面以文档(句子)“二甲基技术领域本发明为一种2，6-二甲基萘的分离方法”为例详细说明识别中文文档中的化学名称片段的过程。通过将上述句子与化学名称片段字典进行匹配，从而获得了上述句子的如表1左侧第一栏所示的所有化学名称片段，同时在表1中记录了各个化学名称片段在该句子中的起始位置和结束位置，比如化学名称片段“二甲基”的起始位置为“0”，结束位置为“3”。由于这里的化学名称片段有大量的冗余，因此可以对表1中的化学名称片段进行缩减。缩减所述化学名称片段是按照以最少的化学名称片段数目匹配最多的化学名称片段的原则进行缩减的。例如“二甲基”(0，3)就包括了紧邻位置的“二甲”(0，2)、“甲基”(1，3)，因此可以删除“二甲”(0，2)和“甲基”(1，3)而只保留“二甲基”(0，3)。依次类推，最后得到了如表2所示的该句子不冲突的化学名称片段集合是{“二甲基”(0，3)，“2，6-”(13，17)，“二甲基萘”(17，21)}。如此将可以大大减少后续进行化学名称片段的合并的时间和效率，并提高准确度。当然，缩减的步骤并非必需。

表1

化学片段	起始位置	结束位置	类型
				二甲	0	2	文字
二甲基	0	3	文字
				甲基	1	3	文字
，6	14	16	数字
				2，6-	13	17	数字
6-	15	17	数字
				二甲	17	19	文字
二甲基	17	20	文字
				甲基	18	20	文字
二甲基萘	17	21	文字
				甲基萘	18	21	文字

表2

化学片段	起始位置	结束位置	类型
				二甲基	0	3	文字
2，6-	13	17	数字
				二甲基萘	17	21	文字

图3示出了识别所述文档中的非化学名称片段的优选具体实施方式。在步骤301中，对所述文档进行分词。分词可以使用HMM(隐性马尔可夫模型)或者CRF(条件随机场)等现有技术；在步骤303中，检查每个分词是否在非化学名称片段字典中。将各个分词分别与非化学名称片段字典进行匹配；在步骤305中，响应于所述分词在非化学名称片段字典中，确定所述分词为非化学名称片段；以及在步骤307中，记录所述非化学名称片段的位置信息。进一步地，根据所获得的非化学名称片段及其位置关系，就可以获得类似于表1的非化学名称片段集。当然，优选地，也可以考虑对非化学名称片段集进行类似的缩减，从而得到缩减的非化学名称片段集。

图4则示出了合并所述化学名称片段以得到所述化学名称的优选具体实施方式。在步骤401中，根据所述化学名称片段的位置信息，确定在同一个句子中的相邻的化学名称片段。在步骤403中，根据化学名称片段和非化学名称片段的位置信息，检查相邻的化学名称片段的中间是否存在非化学名称片段；以及在步骤405中，响应于相邻的化学名称片段的中间不存在非化学名称片段，合并相邻的化学名称片段以得到所述化学名称。根据前面的具体实施方式，在识别化学名称片段和非化学名称片段时就已经获得了相应的化学名称片段和非化学名称片段以及它们的相应位置关系，则可以利用这些信息来进行化学名称片段合并以获得正确的化学名称。举例而言，对于句子“包括有2-[(4-氯-苯基)-(2，4-二氯-苯甲酰基)-氨基]-噻唑-4-甲酸二乙基酰胺”，″氯-″，″甲″被包含在两个化学名称片段中间，又不是非化学名称，因此上述相邻的化学名称片段都被合并，形成一个完整的化学名称“2-[(4-氯-苯基)-(2，4-二氯-苯甲酰基)-氨基]-噻唑-4-甲酸二乙基酰胺”。而对于句子“(甲酸二乙基酰胺)以及(苯甲酰胺)”。(甲酸二乙基酰胺)和(苯甲酰胺)别识别为化学名称片段，而“以及”被识别为非化学名称片段，这样(甲酸二乙基酰胺)和(苯甲酰胺)不能进行合并。

图5示出了本发明用于在中文文档中识别化学名称的第二具体实施方式。其中在步骤501中构建化学名称片段字典和非化学名称片段字典。其中可以对化学名称片段字典进行扩展。其是利用专家知识库(即由专家可以标注出名称中的可变信息)，将适合扩展的化学名称片段进行扩展，比如替代名称片段中的可变部分，如将“乙基酰胺”进一步扩展成“甲基酰胺”、“丙基酰胺”等其它化学名称片段以进一步增加化学名称片段字典的词条。而在步骤503、505和507中分别进行化学名称片段和非化学名称片段的识别步骤以及化学名称片段的合并步骤。在步骤509中，则进行化学名称片段的边界扩展。具体地，根据步骤507的结果，对于所有的化学片段，从所述化学名称片段的位置向两端进行扩展，直至遇到非化学名称片段为止，以获得所述化学名称。例如句子“......、二(4-羟苯基)醚、......”，在扩展前只是识别出化学名称片段(4-羟苯基)，但经过两端扩展后就得到了正确的化学名称二(4-羟苯基)醚。最后在步骤511中获得全部识别后的化学名称。

可以利用测试数据检测本发明的技术效果。测试数据采用从中国专利局在2001-2008年公告的涉及化学的发明专利文献中随机抽取了800个句子组成测试文档。表3示出了根据本发明第二具体实施方式获得的化学名称识别的总体效果。其中准确率(Precision)是指正确的标注和所有标注的比值，召回率(Recall)是指正确的标注和文章所有正确化学名称的比值，F1(F1-Measure)是根据准确率和召回率给出的一个综合的评价指标，其经常在信息检索和自然语言处理中使用。F1的具体定义如下：F1＝2rp/(r+p)，其中r为recall，p为precision。可以看到，无论是准确率、召回率还是综合评判指标F1，其数值都接近90％，这是业类非常期望得到的效果。

表3

	准确率	召回率	F1
				整体模型	86.8％	90.5％	88.6％

如图6所示，本发明还提供一种用于在中文文档中识别化学名称的系统600，该系统包括：接收装置601，被配置为接收包括化学名称的中文文档；第一识别装置603，被配置为识别所述文档中的化学名称片段；第二识别装置605，被配置为识别所述文档中的非化学名称片段；以及合并装置607，被配置为基于所识别的化学名称片段和非化学名称片段，合并所述化学名称片段以得到所述化学名称。

本发明的另一方面，所述第一识别装置603包括：分句装置，被配置为对所述文档进行分句；匹配装置，被配置为基于化学名称片段字典匹配所述文档的分句中出现的所有化学名称片段；第一记录装置，被配置为记录所述化学名称片段的位置信息；以及缩减装置，被配置为缩减在同一分句中的所述化学名称片段。

本发明的另一方面，所述第二识别装置605包括：分词装置，被配置为对所述文档进行分词；第一检查装置，被配置为检查每个分词是否在非化学名称片段字典中；第一确定装置，被配置为响应于所述分词在非化学名称片段字典中，确定所述分词为非化学名称片段；以及第二记录装置，被配置为记录所述非化学名称片段的位置信息。

本发明的另一方面，所述非化学名称片段在合并所述化学名称片段以得到所述化学名称中作为阻隔符。

本发明的另一方面，所述合并装置607包括：第二确定装置，被配置为根据所述化学名称片段的位置信息，确定在同一个句子中的相邻的化学名称片段；第二检查装置，被配置为根据化学名称片段和非化学名称片段的位置信息，检查相邻的化学名称片段的中间是否存在非化学名称片段；以及，合并执行装置，被配置为响应于相邻的化学名称片段的中间不存在非化学名称片段，合并相邻的化学名称片段以获取所述化学名称。

本发明的另一方面，所述系统600还包括：扩展装置，被配置为从所述化学名称片段的位置向两端进行扩展，直至遇到非化学名称片段为止，以获得所述化学名称。

本发明的另一方面，所述位置信息包括所述化学名称片段和非化学名称片段中之一的在文档中的开始位置和结束位置以及所在分句的序号。

本发明的另一方面，所述系统600还包括以下装置至少之一：化学名称片段字典生成装置，被配置为从已有的中文化学名称生成化学名称片段字典；或者非化学名称片段字典生成装置，被配置为基于非化学领域的中文文档收集出现频率较高的词形成非化学名称片段字典。

本发明的另一方面，其中所述缩减在同一分句中的所述化学名称片段是按照以最少的化学名称片段数目匹配最多的化学名称片段的原则进行缩减的。

本发明的另一方面，所述化学名称片段字典生成装置能够从已有的英文化学名称生成化学名称片段字典。

图7则示意性示出了可以实现根据本发明的实施例的计算设备的结构方框图。图7中所示的计算机系统包括CPU(中央处理单元)701、RAM(随机存取存储器)702、ROM(只读存储器)703、系统总线704，硬盘控制器705、键盘控制器706、串行接口控制器707、并行接口控制器708、显示器控制器709、硬盘710、键盘711、串行外部设备712、并行外部设备713和显示器714。在这些部件中，与系统总线704相连的有CPU 701、RAM 702、ROM 703、硬盘控制器705、键盘控制器706，串行接口控制器707，并行接口控制器708和显示器控制器709。硬盘710与硬盘控制器705相连，键盘711与键盘控制器706相连，串行外部设备712与串行接口控制器707相连，并行外部设备713与并行接口控制器708相连，以及显示器714与显示器控制器709相连。

图7中每个部件的功能在本技术领域内都是众所周知的，并且图7所示的结构也是常规的。这种结构不仅用于个人计算机，而且用于手持设备，如Palm PC、PDA(个人数据助理)、移动电话等等。在不同的应用中，例如用于实现包含有根据本发明的客户端模块的用户终端或者包含有根据本发明的网络应用服务器的服务器主机时，可以向图7中所示的结构添加某些部件，或者图7中的某些部件可以被省略。图7中所示的整个系统由通常作为软件存储在硬盘710中、或者存储在EPROM或者其它非易失性存储器中的计算机可读指令控制。软件也可从网络(图中未示出)下载。或者存储在硬盘710中，或者从网络下载的软件可被加载到RAM 702中，并由CPU 701执行，以便完成由软件确定的功能。

尽管图7中描述的计算机系统能够支持根据本发明的提供的技术方案，但是该计算机系统只是计算机系统的一个例子。本领域的熟练技术人员可以理解，许多其它计算机系统设计也能实现本发明的实施例。

虽然这里参照附图描述了本发明的示例性实施例，但是应该理解本发明不限于这些精确的实施例，并且在不背离本发明的范围和宗旨的情况下，本领域普通技术人员能对实施例进行各种变化的修改。所有这些变化和修改意欲包含在所附权利要求中限定的本发明的范围中。

并且根据上述描述，所属技术领域的技术人员知道，本发明可以体现为装置、方法或计算机程序产品。因此，本发明可以具体实现为以下形式，即，可以是完全的硬件、完全的软件(包括固件、驻留软件、微代码等)、或者本文一般称为“电路”、“模块”或“系统”的软件部分与硬件部分的组合。此外，本发明还可以采取体现在任何有形的表达介质(medium of expression)中的计算机程序产品的形式，该介质中包含计算机可读的程序码。

可以使用一个或多个计算机可读的或计算机可读的介质的任何组合。计算机可读的或计算机可读的介质例如可以是——但不限于——电的、磁的、光的、电磁的、红外线的、或半导体的系统、装置、器件或传播介质。计算机可读介质的更具体的例子(非穷举的列表)包括以下：有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、诸如支持因特网或内部网的传输介质、或者磁存储器件。注意计算机可读的或计算机可读的介质甚至可以是上面印有程序的纸张或者其它合适的介质，这是因为，例如可以通过电扫描这种纸张或其它介质，以电子方式获得程序，然后以适当的方式加以编译、解释或处理，并且必要的话在计算机存储器中存储。在本文件的语境中，计算机可读的或计算机可读的介质可以是任何含有、存储、传达、传播、或传输供指令执行系统、装置或器件使用的或与指令执行系统、装置或器件相联系的程序的介质。计算机可读的介质可包括在基带中或者作为载波一部分传播的、由其体现计算机可读的程序码的数据信号。计算机可读的程序码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等。

用于执行本发明的操作的计算机程序码，可以以一种或多种程序设计语言的任何组合来编写，所述程序设计语言包括面向对象的程序设计语言——诸如Java、Smalltalk、C++之类，还包括常规的过程式程序设计语言——诸如”C”程序设计语言或类似的程序设计语言。程序码可以完全地在用户的计算上执行、部分地在用户的计算机上执行、作为一个独立的软件包执行、部分在用户的计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在后一种情形中，远程计算机可以通过任何种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户的计算机，或者，可以(例如利用因特网服务提供商来通过因特网)连接到外部计算机。

此外，本发明的流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得通过计算机或其它可编程数据处理装置执行的这些指令，产生实现流程图和/或框图中的方框中规定的功能/操作的装置(means)。也可以把这些计算机程序指令存储在能指令计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中，这样，存储在计算机可读介质中的指令产生一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置(instruction means)的制造品，也可以把计算机程序指令加载到计算机或其它可编程数据处理装置上，使得在计算机或其它可编程数据处理装置上执行一系列操作步骤，以产生计算机实现的过程，从而在计算机或其它可编程装置上执行的指令就提供实现流程图和/或框图中的方框中规定的功能/操作的过程。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

Claims

1.一种用于在中文文档中识别化学名称的方法，包括：

接收包括化学名称的中文文档；

识别所述文档中的化学名称片段；

识别所述文档中的非化学名称片段；以及

基于所识别的化学名称片段和非化学名称片段，合并所述化学名称片段以得到所述化学名称。

2.如权利要求1所述的方法，其中所述非化学名称片段在所述合并所述化学名称片段以得到所述化学名称中作为阻隔符。

3.如权利要求1所述的方法，其中所述识别所述文档中的化学名称片段包括：

对所述文档进行分句；

基于化学名称片段字典匹配所述文档的分句中出现的所有化学名称片段；

记录所述化学名称片段的位置信息；以及

缩减在同一分句中的所述化学名称片段。

4.如权利要求1或3所述的方法，其中所述识别所述文档中的非化学名称片段包括：

对所述文档进行分词；

检查每个分词是否在非化学名称片段字典中；

响应于所述分词在非化学名称片段字典中，确定所述分词为非化学名称片段；以及

记录所述非化学名称片段的位置信息。

5.如权利要求3或4所述的方法，其中所述基于所识别的化学名称片段和非化学名称片段，合并所述化学名称片段以得到所述化学名称包括：

根据所述化学名称片段的位置信息，确定在同一个句子中的相邻的化学名称片段；

根据化学名称片段和非化学名称片段的位置信息，检查相邻的化学名称片段的中间是否存在非化学名称片段；以及，

响应于相邻的化学名称片段的中间不存在非化学名称片段，合并相邻的化学名称片段以得到所述化学名称。

6.如权利要求1或5所述的方法，其中所述方法还包括：

从所述化学名称片段的位置向两端进行扩展，直至遇到非化学名称片段为止，以获得所述化学名称。

7.如权利要求3或4所述的方法，其中：

所述位置信息包括所述化学名称片段和非化学名称片段中之一的在所述文档中的开始位置和结束位置。

8.如权利要求3或4所述的方法，还包括以下步骤至少之一：

从已有的中文化学名称生成化学名称片段字典；或者

基于非化学领域的中文文档收集出现频率较高的词形成非化学名称片段字典。

9.如权利要求3所述的方法，其中所述缩减在同一分句中的所述化学名称片段按照以最少的化学名称片段数目匹配最多的化学名称片段的原则进行缩减。

10.如权利要求8所述的方法，还包括：

从已有的英文化学名称生成化学名称片段字典。

11.一种用于在中文文档中识别化学名称的系统，包括：

接收装置，被配置为接收包括化学名称的中文文档；

第一识别装置，被配置为识别所述文档中的化学名称片段；

第二识别装置，被配置为识别所述文档中的非化学名称片段；以及

合并装置，被配置为基于所识别的化学名称片段和非化学名称片段，合并所述化学名称片段以得到所述化学名称。

12.如权利要求11所述的系统，其中所述非化学名称片段在合并所述化学名称片段以得到所述化学名称中作为阻隔符。

13.如权利要求11所述的系统，其中所述第一识别装置包括：

分句装置，被配置为对所述文档进行分句；

匹配装置，被配置为基于化学名称片段字典匹配所述文档的分句中出现的所有化学名称片段；

第一记录装置，被配置为记录所述化学名称片段的位置信息；以及

缩减装置，被配置为缩减在同一分句中的所述化学名称片段。

14.如权利要求11或13所述的系统，其中所述第二识别装置包括：

分词装置，被配置为对所述文档进行分词；

第一检查装置，被配置为检查每个分词是否在非化学名称片段字典中；

第一确定装置，被配置为响应于所述分词在非化学名称片段字典中，确定所述分词为非化学名称片段；以及

第二记录装置，被配置为记录所述非化学名称片段的位置信息。

15.如权利要求11或13所述的系统，其中所述合并装置包括：

第二确定装置，被配置为根据所述化学名称片段的位置信息，确定在同一个句子中的相邻的化学名称片段；

第二检查装置，被配置为根据化学名称片段和非化学名称片段的位置信息，检查相邻的化学名称片段的中间是否存在非化学名称片段；以及，

合并执行装置，被配置为响应于相邻的化学名称片段的中间不存在非化学名称片段，合并相邻的化学名称片段以获取所述化学名称。

16.如权利要求11或15所述的系统，其中所述系统还包括：

扩展装置，被配置为从所述化学名称片段的位置向两端进行扩展，直至遇到非化学名称片段为止，以获得所述化学名称。

17.如权利要求13或14所述的系统，其中：

所述位置信息包括所述化学名称片段和非化学名称片段中之一的在文档中的开始位置和结束位置。

18.如权利要求13或14所述的系统，还包括以下装置至少之一：

化学名称片段字典生成装置，被配置为从已有的中文化学名称生成化学名称片段字典；或者

非化学名称片段字典生成装置，被配置为基于非化学领域的中文文档收集出现频率较高的词形成非化学名称片段字典。

19.如权利要求13所述的系统，其中所述缩减在同一分句中的所述化学名称片段按照以最少的化学名称片段数目匹配最多的化学名称片段的原则进行缩减。

20.如权利要求18所述的系统，所述化学名称片段字典生成装置能够从已有的英文化学名称生成化学名称片段字典。