CN1684071A

CN1684071A - 序列索引方法及系统

Info

Publication number: CN1684071A
Application number: CNA2005100697952A
Authority: CN
Inventors: 金技垠; 黄贞周
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2004-02-17
Filing date: 2005-02-17
Publication date: 2005-10-19
Also published as: JP2005235209A; EP1571563A3; EP1571563A2; KR100601941B1; KR20050082051A; US20050182571A1

Abstract

一种序列索引方法，包括：基于专利文件所注册的国家的典型表达方式来对具有序列号码和序列清单的专利文件进行语法分析；从经语法分析的专利文件里首次提取序列号码和序列清单；以及从所提取的序列清单中二次提取与所提取的序列号码相应的序列。

Description

序列索引方法及系统

技术领域

本发明涉及一种序列索引方法和系统，更特别地，涉及一种对应于包括在一个专利文件中的序列号码来索引序列的方法和系统。

背景技术

随着因特网的发展，已知着几种通过使用关键词在数据库中检索数据或文件的方法。为了获得更好的检索结果，已进行了积极的研究，以通过具体化自然语言处理系统来更容易更准确地处理所需的内容。

然而，难于以传统方法检索文件的加密序列，例如基因信息。由于基因序列使用有重复特征的字母表进行加密，并包括至少10个至最多超过10万的字符串，因此目前正开发一些关于检索基因序列的方法的算法。公知的方法包括BLAST、FASTA等等。这些方法比较已知基因序列与其它在数据库中注册的比较基因序列之间的相似性的量。

随着人类染色体组项目的完成以及生物技术的快速发展，在研究者分析并理解基因的作用的时产生大量的附加价值。为了保护基因的权利，所有国家都承认基因序列的专利权。

随着要求基因序列的专利权，主要在世界知识产权组织(WIPO)、美国、日本和欧洲等，在说明书中统一了序列描述，以便快速准确地审查序列。

然而，如果在文件中描述这种序列，由于基因序列的特性，该文件就要有几十到几百页。因此，在搜集与基因序列相关的专利信息时，需要花费长时间来分析大量专利。所以，需要一种自动分类方法。然而，如上所述，在专利文件数据库中检索基因序列时，传统的检索方法需要相当长的时间并且难以获得有价值的结果。

因此，当检索在专利文件中所描述的基因序列并分析其专利权时，提取基因序列的过程是非常重要的。然而，难以对未分类的文档进行自动化，并在自动分类处理中出现错误的可能性较高。特别是，传统的自动文档索引方法，例如倒向文件(inverted file)、后缀阵列(suffix array)和署名文件具有缺陷，它的实施较复杂并且操作的精确性较低。

传统的检索方法或相似性比较方法在获取所需的专利时效率和精确性较低。

作为替代，世界各国的专利局都在尝试索引以便检索基因序列。然而，由于索引工作还处于开始阶段并且是为便于申请和审查而设计，而不是为专利检索而设计，所以专利检索不能令人满意。

发明内容

本发明提供一种序列索引方法和系统，其能以一种典型的表示方法，快速精确地提取并索引在注册或者公布的专利文件中包含的序列信息。

另外，本发明提供一种用于记录程序的计算机可读的记录介质，在计算机中，该程序执行一种序列索引方法，在该方法中能以一种典型的表示方法，快速精确地提取并索引在注册或者公布的专利文件中包含的序列信息。

根据本发明的一个方面，提供一种序列索引方法，它包括：基于专利文件所注册的国家的典型表达方式来对具有序列号码和序列清单的专利文件进行语法分析；首先从经语法分析的专利文件里提取序列号码和序列清单；以及从所提取的序列清单中二次提取与所提取的序列号码相应的序列。

根据本发明的另一方面，提供一种序列索引方法，它包括：接收检索专利文件的检索询问；基于该检索询问，从存储至少一个专利文件的第一数据库中检索并获取专利文件；首先从所获取的专利文件中提取权利要求书的序列清单和序列号码；以及从所提取的序列清单中二次提取与所提取的序列号码相应的序列。

根据本发明的又一方面，提供一种序列索引系统，它包括：文件获取单元，用于获取一个具有序列号码和序列清单的专利文件；序列清单提取单元，用于基于该专利文件所注册的国家的典型表达方式来从专利文件中提取序列清单；序列号码提取单元，用于基于该专利文件所注册的国家的典型表达方式来从专利文件中提取序列号码；以及序列提取单元，用于从所提取的序列清单中提取与所提取的序列号码相应的序列。

附图说明

本发明的上述和其它的特征及优点将通过参照附图对示范性实施例的详细描述，而变得更加显而易见：

图1A示出了根据本发明一个实施例的序列索引方法的流程图；

图1B示出了根据本发明另一个实施例的序列索引方法的流程图；

图2示出了根据本发明一个实施例的序列索引系统的构成的示意图；

图3示出了根据本发明另一个实施例的序列索引系统的构成的示意图；

图4示出了采用根据本发明的序列索引系统的整个系统的示意图；

图5示出了通过连接到U.S.Patent & Trademark Office的因特网来提取序列号码的实例的示意图；

图6示出了提取图5中所提取的序列号码“SEQ ID NO：108”的序列清单的一个实例的示意图；

图7示出了在数据库中存储相应于序列号码的序列清单的一个实例的示意图；以及

图8示出了为用户显示通过序列索引系统而索引到的序列信息的一个实例的示意图。

详细说明优选实施例

为了获得对本发明、本发明的优点以及通过实施本发明所达到的目的的充分理解，将参考用于示出本发明的优选实施例的附图进行描述。

在下文中，将通过参考附图解释本发明的优选实施例来描述本发明。相同的参考数字表示相同的部分。

图1A是示出根据本发明一个实施例的序列索引方法的流程图。

参考图1A，首先对专利文件进行语法分析(S100)。该专利文件包括：说明书、权利要求书、必要的图、必要的序列清单和与该专利文件相关的文献(bibliographic)数据。专利文件所附的序列清单是基于每个国家所确定的预定格式来准备的，或者是基于WIPO的标准形式来准备的。

这里，序列清单指的是专利申请所附的说明书的一部分，或指的是在申请提交后再提交的文件的一部分。序列清单指的是对基因序列的详细的公开，即核酸和氨基酸序列的序列，以及其它可得到的信息。序列号码，作为序列的标识，是给予序列清单中的每个序列的整数。

通常，序列清单的序列基于发明的详细说明、权利要求书或附图中的序列标识来引用，并在其前面加上“SEQ ID NO：”。序列引用的方法是相似的，但是可按照每个国家的专利准备方法而不同。在这种情况下，本发明的序列索引方法是按照每个国家的准备方法来具体化的。

可以使用超文本标记语言(HTML)、标准普通标记语言(SGML)和多种文件表示方法来准备专利文件。例如，如果专利文件是以HTML格式提供的，则通过移走HTML标记而将专利文件转换成字符串。将大型的专利文件转换成至少两个字符串。并且，从专利文件中移走不必要的空白，从而降低字符串的大小。

此外，对于被转换成至少一个字符串的专利文件，执行象面向词(word-oriented)和面向句子(sentence-oriented)的语法分析那样的语法分析处理。

在这之后，从所转换的专利文件中提取以典型格式描述的序列号码和序列清单(S105)。通常，描述包含“SEQ ID NO：”的序列号码，并且将序列清单作为一个单独段落附加在说明书上。此外，采用说明书、权利要求书和附图中的典型表达方式来描述序列号码。假如想要检索涉及权利要求书的序列号码，即涉及到专利权的范围的序列号码，则提取包含在权利要求书里的序列号码。将提取的序列号码和序列清单存储在每个字符串变量中。

相同的序列号码可在专利文件中重复提取，甚至能在权利要求书中提取。因此，基于相同提取的序列号码而从序列清单中重复提取相同的序列的效率很低。所以，为了提高提取的效率，相同的序列号码只提取一次序列。

将所提取的序列清单被检索，以便将与所提取的序列号码相应的序列可提取(S110)。换句话说，每个所提取的序列号码都以每个字符串变量来存储。每个序列都基于存储在每个字符串变量中的序列号码来从所提取的序列清单中提取。或者，只要提取了序列号码，序列就可以从序列清单中提取。

将所提取的序列索引，并与专利文件的文献数据一起存储到数据库中(S115)。专利文件的文献数据包含申请日期、申请人、专利所有人、专利期、发明名称等等。因此，在权利要求中提取与序列号码相应的序列后，将所提取的序列进行索引，并与专利文件的文献数据一起存储到数据库中，然后，就能从数据库中检索和提供用户需要的序列信息。

图1B是示出根据本发明另一个实施例的序列索引方法的流程图。

参考图1B，输入检索专利文件的检索询问(S150)。基于输入的检索询问来检索用于在其中存储专利文件的数据库，以获得相应的专利文件(S155)。作为用来获得专利文件的检索询问，可以是专利号、申请号、专利权人、申请的公开号、注册公告号等等。

例如，如果使用专利权人作为检索询问来检索专利文件，那么就可以在数据库中提供多个相关的专利文件。在这种情况下，对这些专利文件按序进行索引。

从所获得的专利文件中提取包含在权利要求书中的序列清单和序列号码(S160)。另外，从所提取的序列清单中提取与所提取的序列号码相应的序列(S165)。提取序列号码、序列清单以及序列的处理过程已在图1A中详细描述了。

由于权利要求书包括了一个以上的序列号码，因此在数目上对从权利要求书中提取的序列号码进行计数(S170)。这时，相同的序列号码不再计数。而且，可在数目上对包含在整个专利文件中的序列号码进行计数。

将所提取的序列、专利文件的文献数据以及序列号码的数目索引，并与序列号码一起存储在数据库中(S175)。经索引并被存储在数据库中的序列信息根据用户的请求来提供(S180)。用户可以基于序列号码来请求存储在数据库中的序列信息。或者，用户可以基于作为文献数据的专利权人来请求存储在数据库中的序列信息。

图2是示出根据本发明一个实施例的序列索引系统的构成的示意图。

参考图2，序列索引系统包括输入单元200、文件获取单元210、第一数据库220、第一提取单元230、第二提取单元240、第二数据库250和显示单元260。第一提取单元包括序列号码提取单元和序列清单提取单元。

输入单元200接收来自试图检索专利文件的序列信息的用户的检索询问。文件获取单元210基于所接收的检索询问，检索存储着该专利文件的第一数据库220，以获得相应的专利文件。例如，如果输入单元200接收专利号、申请号以及专利权人中的任意一个作为检索询问，文件获取单元210就基于该专利号、申请号或专利权人来检索第一数据库220。

将第一数据库220提供给每个国家的专利局，或者安装在一个单独的服务器上来提供所有的专利文件。例如，如果要基于专利号来检索美国专利商标局(USPTO)的专利文件，那么用户就要通过作为USPTO的专利检索网址的统一资源定位符(URL)来建立连接，然后获得与该专利号相应的专利文件。

而且，文件获得单元210对从第一数据库单元220中提取的专利文件进行语法分析。例如，如果专利文件是以HTML来准备的，那么就在HTML标记、段落之间的空白等等从该专利文件中移走之后，将该专利文件转换为字符串。而且，如果该专利文件是以预定的方法来准备的，并包含依赖于该方法的标记等等，那么就在从该专利文件中移走这些标记之后，将该专利文件转换为字符串。

第一提取单元230从由文件获取单元210所获得的专利文件中提取序列号码和序列清单。例如，第一提取单元230使用“SEQ ID NO：”从被转换为字符串的专利文件中提取序列号码。由于序列号码的表示方法随国家不同而不同，所以应以每个国家的典型表示方法来提取序列号码。第一提取单元230将所提取的序列号码和序列清单存储在每个字符串变量中。如果要索引与权利要求书相关的序列信息，第一提取单元230就提取存储在权利要求书中的序列号码。

第二提取单元240基于所提取的序列号码，从所提取的序列清单中提取相应的序列。详细地，第二提取单元240基于存储在字符串变量中的序列号码，检索由第一提取单元230存储在字符串变量中的序列清单，以提取与序列号码相应的序列。另外，将序列号码和与该序列号码相应的序列存储在第二数据库250中。

显示单元260将的经索引的序列信息与文献数据在一起显示给用户。可以使用打印机、监视器等等来作为显示单元260。

图3是示出根据本发明另一个实施例的序列索引系统的构成的示意图。

参考图3，序列索引系统包括权利要求提取单元310、序列号码提取单元320、序列清单提取单元330、申请人提取单元340、序列号码提取单元350和序列提取单元360。

权利要求提取单元310从专利文件300中提取权利要求312。权利要求提取单元310将具有权利要求312的权利要求书以字符串变量的方式来存储。序列号码提取单元350从所提取的权利要求312中提取序列号码352至356。

序列号码提取单元320对包含在专利文件300或权利要求312中的序列号码进行计数。冗余的序列号码不计数。

序列清单提取单元330提取包含在专利文件中的序列清单332。申请人提取单元340提取包含在专利文件300中的文献数据。该文献数据包括申请人信息、专利权人信息、专利号，等等。

序列提取单元360基于由序列号码提取单元350提取的序列号码352至356，来检索由序列清单提取单元330提取的序列清单332，以提取相应的序列362至366。

图4是示出采用根据本发明的序列索引系统的整个系统的示意图。

参考图4，本发明的序列索引系统410连接到至少一个终端400至404以及至少一台检索服务器420至424。检索服务器420至424连接到至少一个数据库430和432。

如果用户经由终端400至402输入要检索的专利号，序列索引系统410就连接到任何一台检索服务器420至424，来请求与该专利号相应的专利文件。检索服务器420至424在数据库430和432中检索与该专利号相应的专利文件，以提取该专利文件并将所提取的专利文件传送给序列索引系统410。

因此，序列索引系统410在数据库430和432中提取并存储序列号码、序列清单、序列号码的数目以及文献数据。通过提取并索引那些没有经索引的专利文件、序列号码等等而获得的序列信息，可以存储在同一数据库中并进行管理，或者存储在一个单独的数据库中并进行管理。

根据本发明一个实施例的序列索引系统410包括一个由MySQL组成的数据库管理系统(DBMS)的数据库表格和使用PERL编制的程序。此时，需要MySQL或具有与MySQL相应的功能的关系数据库管理系统(RDBMS)，以及ActivePERL作为在先准备环境。需要PERL解释器Windows家族操作系统(OS)、UNIX家族OS以及LINUX家族OS中的任何一个。而且，在因特网连接内联网的环境中，LAN连接RDMBS以及PERL可用在单独的不同的系统中。在下文中，基于一篇U.S.专利文件来描述使用PERL来体现序列索引系统的一个实例。

如果序列索引系统使用PERL来体现，就将专利号作为自变量，这样整个专利文本都可以字符串变量的存储。通过典型表达方式从整个专利文本的字符串中提取权利要求书。返回所提取的权利要求书的整个文本。此时，用于提取权利要求的典型表达方式如下：

“WnClaimsWn((.|Wn)^*)WnDescriptionWn”.

因此，通过典型表达方式从整个专利文本的字符串变量中提取序列号码的数目，并且所提取的序列号码的数目被分配给整数变量。这时，用于提取序列号码的数目的典型表达方式如下：

“NUMBERWsOFWs(SEQWsIDWsNOS|SEQUENCES)：Ws(.^*)Wn”.

在下一个步骤中，通过典型表达方式从整个专利文本的字符串变量中提取序列清单，并返回所提取的序列清单。此时，用于提取序列清单的典型的表达方式如下：

“Ws+SEQUENCE LISTINGWn)).|Wn)^*”.

通过典型表达方式从所提取的权利要求书的字符串变量中提取序列号码。在那以后，执行对所提取的序列号码的冗余校验和冗余码移走，然后将所提取的序列号码存储在一个数组中，然后返回。这时，用于提取序列号码的典型表达方式如下：

“SEQWs+IDWs+NO(：Ws|(W.Ws))Ws^*([0-9]+)”

在提取序列清单和序列号码之后，通过采用存储在数组中的序列号码来准备的典型表达方式，从用于序列清单的字符串变量中提取与序列号码相应的序列。另外，以字符串类型的型式返回所提取的序列。

为了从专利文件中提取文献数据，通过典型表达方式从用于该专利文件的字符串变量中提取申请人信息，然后将所提取的申请人信息分配给字符串变量。之后，将所存储的字符串变量返回。除申请人之外的例如专利文件的必要文献数据，以相同方式来提取。此时，用于提取申请人信息的典型表达方式如下：

“Assignee：Wn(Ws^*)Wn(.^*)Wn”

将如上所述，专利号、申请人、序列数目、权利要求书中所描述的序列数目、权利要求书中所描述的序列清单等等提取并分配给变量。通过与数据库连接，每个变量都通过SQL插入文本来作为数据库的绑定参数输入。

图5至图8是示出根据本发明的一个实施例的序列索引方法的每个处理的示意图。

图5是示出通过连接到U.S.Patent & Trademark Office的互联网来提取字符串的一个实例的示意图。在图5中，示出了权利要求，序列号码是以“SEQ ID NO：”来区分的。权利要求书中包括四个序列号码，但其中包含两对相同的序列号码。结果，可从该权利要求书中提取两个序列号码。

图6是示出提取图5中所提取的序列号码“SEQ ID NO：108”的序列清单的一个实例的示意图，并示出了所提取的与该序列号码相应的序列号码和序列清单的信息。

图7是示出在数据库中存储相应于序列号码的序列清单的一个实例的示意图。将与序列号码相应的序列清单被引，并存储在数据库中，并且根据用户的请求提供相应的序列清单。

图8是示出为用户显示通过序列索引系统而索引到的序列信息的一个实例的示意图。在从专利文件中提取序列号码、序列清单、序列号码的数目以及文献数据之后，为用户显示结果数据。根据一种预定的输出方法，序列信息将与合法人的信息一起进行表示，并为用户显示在屏幕或纸以及其它显示单元上。此后，该序列信息存储在数据库中。

根据本发明，使用位置分析处理中的典型表达方式并在专利文件内标记序列，来并发识别序列范围，从而更精确快速地通过序列的提取、存储及序列的表达方法来获取序列信息。

而且，如果对通过因特网接收的专利文件依照序列号码来执行专利文件的检索和分类工作，那么就能提供精确快速的检索结果。

本发明的序列索引系统，起基于典型表达方式的专利文件中的序列分离器的作用，能够与包括基因序列的其它数据库相关联，并且能够为在与包含有获得专利权的序列信息的基因序列的常规数据库的联合中的分析提供工具。

在权利要求书中指定的序列包括不同于常规基因序列的工业上可用的信息，或者包括作为疾病原因或者特殊变异状态而知的序列信息。因此，本发明有利于分析序列的权利，以便为相关技术提出专利策略。

在基因序列的正常状态与变异状态(例如，在序列被插入、删除以及替换的情况中，例如突变)的比较中，可以容易地获取关于基因的功能的信息，并有助于开发诊断产品或发展医学治疗。因此，本发明能在短时间内提取在权利要求书中指定的基因序列，并提供基因序列的合法人和使用的情况。所以，本发明有助于为相似的序列的权利提出专利策略。

另外，本发明的序列索引方法可用于在短时间内大量提取并确定与疾病相关的序列或与特殊功能相关的序列，并且分析其权利以谋求商业用途。

本发明还可以具体化为计算机可读记录介质上的计算机可读代码。计算机可读记录介质是任何一种数据存储设备，它能够存储此后可由计算机系统读取的数据。这种计算机可读记录介质的实例包括只读存储器(ROM)、随机存取存储器(RAM)、CD-ROM、磁带、软盘、光学数据存储设备以及载波(例如经由因特网的数据传输)。计算机可读记录介质也可以分布在经网络耦合的计算机系统中，以便以分布的方式来存储并执行计算机可读代码。

尽管已参照示意性实施例详尽地示出并描述了本发明，但本领域的普通技术人员可以理解，可以在不背离由权利要求所定义的本发明的精神和范围的情况下，做出形式上和细节上的各种改变。

Claims

1、一种序列索引方法，包括：

基于专利文件所注册的国家的典型表达方式，来对具有序列号码和序列清单的专利文件进行语法分析；

从经语法分析的专利文件里首次提取序列号码和序列清单；以及

从所提取的序列清单中二次提取与所提取的序列号码相应的序列。

2、根据权利要求1的序列索引方法，其中专利文件是根据世界知识产权组织(WIPO)的序列清单的准备标准来准备的。

3、根据权利要求1的序列索引方法，其中对专利文件进行语法分析包括：从用HTML准备的专利文件中移走HTML(超文本标记语言)标记和空白，然后将该专利文件转换为字符串。

4、根据权利要求1的序列索引方法，其中首次提取包括：

从专利文件中提取权利要求书；

从权利要求书中提取序列号码；以及

从专利文件中提取序列清单。

5、根据权利要求1的序列索引方法，其中首次提取包括：在所提取的序列号码中检查冗余，以便移走冗余的序列号码。

6.根据权利要求1的序列索引方法，还包括：对所提取的序列号码在数目上进行计数。

7、根据权利要求6的序列索引方法，其中对数目的计数包括：对所提取的序列号码中不冗余的序列号码进行计数。

8、根据权利要求1的序列索引方法，还包括：在从专利文件提取文献数据之后，将与该文献数据以及所提取的序列号码相应的序列存储在数据库中。

9、根据权利要求8的序列索引方法，其中文献数据包括：专利权人、所提取的序列号码的数目以及专利号。

10、根据权利要求1的序列索引方法，还包括：显示与所提取的序列号码相应的文献数据和序列。

11、一种序列索引方法，包括：

接收检索专利文件的检索询问；

基于该检索询问，从存储至少一个专利文件的第一数据库中检索并获取专利文件；

从所获取的专利文件中首次提取权利要求的序列清单和序列号码；以及

12、根据权利要求11的序列索引方法，其中获取专利文件包括：连接到第一数据库所在的网站的URL(统一资源定位符)，以便获得与该检索询问相应的专利文件。

13、根据权利要求11的序列索引方法，还包括：将与所提取的序列号码相应的序列信息、该专利文件的文献数据存储在第二数据库中。

14、根据权利要求13的序列索引方法，其中获取专利文件包括：如果与检索询问相应的专利文件的序列信息存在于第二数据库中，就提供存储在该第二数据库中的序列信息。

15、根据权利要求11的序列索引方法，其中获取专利文件包括：通过将专利号、申请人以及专利权人中的任意一个用作检索询问来检索专利文件。

16、一种序列索引系统，包括：

文件获取单元，用于获取具有序列号码和序列清单的专利文件；

序列清单提取单元，用于基于该专利文件所注册的国家的典型表达方式来从专利文件中提取序列清单；

序列号码提取单元，用于基于该专利文件所注册的国家的典型表达方式来从专利文件中提取序列号码；以及

序列提取单元，用于从所提取的序列清单中提取与所提取的序列号码相应的序列。

17、根据权利要求16的序列索引系统，其中序列号码提取单元提取包含在该专利文件的权利要求书中的序列号码。

18、根据权利要求16的序列索引系统，其中文件获取单元将移走了HTML标记和空白的HTML专利文件转换为字符串。

19、根据权利要求16的序列索引系统，还包括一个数据库，用于存储与所提取的序列号码相应的基因序列，以及该专利文件的文献数据。

20、根据权利要求16的序列索引系统，还包括一个显示单元，用于将与所提取的序列号码相应的序列连同文献数据一起显示出来。

21、根据权利要求16的序列索引系统，还包括一个输入单元，用于接收检索专利文件的检索询问，其中该文件获取单元基于该检索询问，从存储至少一个专利文件的第一数据库中获取该专利文件。

22、根据权利要求16的序列索引系统，其中文件获取单元连接到第一数据库所在的URL，以便获得与该检索询问相应的专利文件。

23、根据权利要求16的序列索引系统，还包括存储与所提取的序列号码相应的序列信息以及该专利文件的文献数据的第二数据库。

24、根据权利要求23的序列索引系统，其中如果与检索询问相应的专利文件的序列信息存在于第二数据库中，文件获取单元就提供存储在该第二数据库中的序列信息。

25、一种计算机可读记录介质，记录用于在计算机中执行权利要求1或11的序列索引方法的程序。