CN109448793A

CN109448793A - 基因序列的权利范围认定、检索及侵权判定方法、系统

Info

Publication number: CN109448793A
Application number: CN201811197975.2A
Authority: CN
Inventors: 庞卡·库玛; 蔡洁; 马库斯·汉斯; 阿里·侯赛因
Original assignee: Wisdom Bud Information Technology (suzhou) Co Ltd
Current assignee: Wisdom Bud Information Technology (suzhou) Co Ltd
Priority date: 2018-10-15
Filing date: 2018-10-15
Publication date: 2019-03-08
Anticipated expiration: 2038-10-15
Also published as: WO2020078341A1; US20210358570A1; JP2022508857A; EP3869511A1; EP3869511A4; CN109448793B

Abstract

本说明书实施例提供一种基因序列的权利要求保护范围认定、检索及侵权判定方法、系统，其中，所述方法包括：从当前专利申请的权利要求书中识别基因序列；根据预设关键词从所述权利要求书中提取所述基因序列的描述文字；根据提取的所述描述文字，确定所述基因序列的相似度信息，并基于所述相似度信息标注所述基因序列的权利范围。本说明书实施例提供的技术方案，能够在专利库中进行序列检索，并提高基因序列的检索准确度。

Description

基因序列的权利范围认定、检索及侵权判定方法、系统

技术领域

本说明书实施例涉及互联网技术领域，特别涉及一种基因序列的权利范围认定、检索及侵权判定方法、系统。

背景技术

目前，在对生物领域的基因序列进行检索时，检索引擎通常会接收用户提供的待检索的基因序列，然后将该待检索的基因序列与基因库中的基因序列进行比对，从基因库中查询出相关的基因序列。

发明内容

本说明书实施例的目的是提供一种基因序列的权利要求保护范围认定、检索及侵权判定方法、系统，能够在专利库中对基因序列进行检索。

为实现上述目的，本说明书的一些实施例是这样实现的：

一种基因序列的权利要求保护范围认定方法，所述方法包括：

从当前专利申请的权利要求书中识别基因序列；

根据预设关键词从所述权利要求书中提取所述基因序列的描述文字；

根据提取的所述描述文字，确定所述基因序列的相似度信息，并基于所述相似度信息标注所述基因序列的权利要求保护范围。

一种基因序列的权利要求保护范围认定系统，所述系统包括：

基因序列识别单元，用于从当前专利申请的权利要求书中识别基因序列；

描述文字提取单元，用于根据预设关键词从所述权利要求书中提取所述基因序列的描述文字；

权利范围确定单元，用于根据提取的所述描述文字，确定所述基因序列的相似度信息，并基于所述相似度信息标注所述基因序列的权利要求保护范围。

一种基因序列的检索方法，所述方法包括：

获取待检索的基因序列；

从专利库的专利申请中抓取文本基因序列，并将所述待检索的基因序列与抓取的所述文本基因序列进行比较，以确定与所述待检索的基因序列相似的目标基因序列；

展示包含所述目标基因序列的专利申请的检索结果。

一种基因序列的检索方法，所述方法包括：

获取待检索的基因序列以及预设相似度阈值；

基于所述预设相似度阈值，将所述待检索的基因序列拆分为多个基因子序列；

分别对各个所述基因子序列在专利库中进行序列检索，以确定所述基因子序列对应的目标专利申请，并输出所述目标专利申请的检索结果。

一种基因序列的侵权判定方法，所述方法包括：

获取待检索的基因序列，并查询与所述待检索的基因序列相匹配的专利申请；所述专利申请中包含与所述待检索的基因序列相似的目标基因序列；

从所述专利申请的权利要求书中提取包含所述目标基因序列的描述文字，并根据所述描述文字确定所述目标基因序列的权利范围；

确定所述待检索的基因序列与所述目标基因序列之间的相似度，并比较所述相似度与所述目标基因序列的权利范围；

根据比较结果，标注所述专利申请相对于所述待检索的基因序列的侵权风险信息。

由以上可见，本说明书一个或多个实施例中，在获取到用户提供的待检索的基因序列后，首先可以按照基因序列之间的相似度，查询到与该待检索的基因序列相匹配的专利申请。具体地，可以从专利库的专利申请中抓取文本基因序列，并将该待检索的基因序列与抓取的所述文本基因序列进行比较，以确定与所述待检索的基因序列相似的目标基因序列。包含该目标基因序列的专利申请便可以作为与该待检索的基因序列相匹配的专利申请。在这些专利申请中，可以包括与待检索的基因序列相似的目标基因序列。然而，在侵权检索分析等场景中，仅提供基因序列相似度的检索结果是不够的。假设用户针对一个基因序列进行侵权检索分析，那么根据相似度检索出的专利申请中可能仅存在一个相似度为90％的目标基因序列，而没有完全一致的基因序列。然而，此时并不能认定该基因序列能够被自由使用。原因在于，检索得到的专利申请中包含的目标基因序列通常会有一个保护范围，该保护范围例如可以涵盖与专利申请中涉及的目标基因序列相似度在80％以上的基因序列。这样，由于待检索的基因序列与该目标基因序列的相似度为90％，实际上也落入了该专利申请的保护范围，因此依然会存在侵权可能。鉴于此，在本说明书中，在依据相似度检索得到专利申请之后，可以进一步地从该专利申请的权利要求书中提取包含所述目标基因序列的描述文字，并根据所述描述文字确定所述目标基因序列的保护范围。然后，可以将该专利申请对应的相似度以及保护范围一并在检索结果中展示，从而可以让用户比对相似度与保护范围之间的大小关系，进而判断待检索的基因序列是否有侵权可能。由上可见，本说明书一个或多个实施例提供的技术方案，不仅能够在专利库中对基因序列进行检索，还能够向用户提供更加丰富的检索信息，从而提高检索结果的准确度。

附图说明

为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本说明书提供的一种基因序列的权利要求保护范围认定方法流程图；

图2是本说明书提供的识别目标基因序列的方法示意图；

图3是本说明书提供的基因序列的权利要求保护范围认定系统的功能模块示意图；

图4是本说明书提供的基因序列的权利要求保护范围认定系统的结构示意图；

图5是本说明书提供的基因序列的检索方法示意图；

图6是本说明书提供的检索结果页面的展示图；

图7是本说明书提供的基因序列的相似度图谱示意图；

图8是本说明书提供的基因序列发展进度图谱示意图；

图9是本说明书提供的基因序列的检索方法示意图；

图10是本说明书提供的基因序列的拆分示意图；

图11是本说明书提供的基因序列的侵权判定方法流程图；

图12是本说明书提供的基因序列的侵权判定系统的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本说明书保护的范围。

本申请提供一种基因序列的权利要求保护范围认定方法，所述方法可以应用于检索引擎中，请参阅图1，所述方法可以包括以下步骤。

S11：从当前专利申请的权利要求书中识别基因序列。

在本实施例中，针对专利库中已存在的与基因序列相关的专利申请，可以分别确定各个专利申请中，基因序列的权利范围。所述当前专利申请可以是待分析的专利申请，所述待分析的专利申请的权利要求书中记载的基因序列，可以作为当前待分析的目标基因序列。

在本实施例中，可以按照图2所示的方式从当前专利申请的权利要求书中识别基因序列。具体地，基因序列通常是由一些简写的字母构成的字母序列。例如，字母A表示丙氨酸，字母R表示精氨酸，字母H表示组氨酸等。这样，若权利要求书中存在由连续的字母构成的字母序列，那么该字母序列有可能为基因序列。因此，可以通过文本匹配的方式，从当前专利申请的权利要求书中识别由指定字母构成的字母序列。其中，所述指定字母为基因序列的简写字母。这样，在识别出由指定字母构成的字母序列后，考虑到一般的基因序列往往会具备一定的长度。如果字母序列的长度较短，则可能只是普通的英文单词或者短语。鉴于此，可以进一步地对字母序列的长度进行判断，在所述字母序列的长度达到指定长度阈值时，可以将所述字母序列作为基因序列。其中，所述指定长度阈值可以是对大量的基因序列的长度进行统计后计算的平均值，也可以是在该平均值的基础上减去或者加上一定的冗余量得到的。

在另一个实施例中，考虑到专利申请的权利要求书中，为了满足语言简洁的要求，通常会将基因序列通过序列标识来表示，真正的基因序列则是在序列表中注明。因此，在本实施方式中，可以从当前专利申请的权利要求书中识别序列标识，并从所述当前专利申请的序列表中读取所述序列标识对应的基因序列。其中，所述序列标识可以是用于表征基因序列的序列编号，例如，所述序列标识在权利要求书中可以是“一号序列”、“二号序列”这样的指代性标识。通过文本匹配的方式，可以在当前专利申请的权利要求书中识别出这样的指代性标识，然后，可以读取专利申请的序列表，并从序列表中读取出序列标识对应的基因序列。

当然，需要说明的是，专利申请中的基因序列，有时候是通过文本的形式，标注于说明书中，还有时候是通过附图的形式在说明书附图中注明。因此，请参阅图2，在实际应用中，针对文本形式出现的基因序列，则可以通过上述实施例中阐述的方式，识别由指定字母构成的字母序列，或者从序列表中读取出对应的基因序列。而对于通过附图形式进行展示的基因序列，则可以通过OCR(Optical Character Recognition，光学字符识别)技术，从附图中识别出包含的字符串，并可以将识别出的字符串作为基因序列。

S13：根据预设关键词从所述权利要求书中提取所述基因序列的描述文字。

在本实施例中，可以对当前专利申请的权利要求书进行分析，从而从权利要求书中提取包含所述基因序列的描述文字。该描述文字可以用于限定基因序列的权利范围。具体地，可以通过自然语言处理((Natural Language Processing，NLP)技术，对专利申请的权利要求书进行语义分析，从而提取出该基因序列的描述文字。具体地，检索引擎可以预先将大量描写基因序列的权利要求作为训练样本，通过机器学习的方法，训练一个能够识别权利要求中不同短语所表征的含义以及能够识别多个短语之间的关联关系的自然语言模型。在进行自然语言模型的训练时，首先可以通过人工标注的方式，在训练样本中将与描写基因序列的保护范围相关的文字进行标注。举例来说，针对以下的训练样本：

“一种多肽结构，包括二号序列中至少70％的氨基酸，或者包括四号序列中48到56位、90到101位以及161到169位的氨基酸。”

在该训练样本中，可以对引用的基因序列进行标注。例如，对于上述例子中的“二号序列”和“四号序列”，可以利用seq_id来标注。此外，还可以对用于限定基因序列中部分子序列长度的文字进行标注。其中，描述子序列长度的文字可以包括百分比数值，例如上述的“70％”，还可以包括用于限定子序列在基因序列中所处位置的区域信息，例如上述的“48到56位”、“90到101位”以及“161到169位”。在对描述子序列长度的文字进行标注时，可以根据不同的类型进行不同的标注。例如，对于百分比数值，可以利用quantity来标注；对于区域信息，则可以利用region来标注。此外，描述子序列长度的文字通常会与引用的基因序列相关联，例如，上述例子中“70％”关联的是二号序列，而“48到56位”、“90到101位”以及“161到169位”这些文字关联的则是四号序列。因此，在进行人工标注时，还可以将存在关联关系的两个对象通过键值对(key-value)的形式标注出来。例如，标注的结果可以是“70％-二号序列”，“48到56位、90到101位、161到169位-四号序列”。当然，在实际应用中，上述的标注方式还可以按照不同的规则灵活更改，上述例举的标注情形只是为了描述本实施例的技术方案，并非表示本实施例的技术方案只能通过上述的标注方式进行标注。这样，可以将标注后的训练样本输入自然语言模型中自然语言模型中的神经网络可以对标注后的训练样本进行学习，从而根据权利要求的撰写方式，分辨其中各个语句的语义，以及不同语句之间的关联关系。在通过大量样本训练之后，训练得到的自然语言模型可以对未标注的权利要求进行识别，从而识别出其中引用的基因序列以及描述子序列长度的文字等在训练阶段标注过的内容。后续在对未标注的权利要求书进行分析时，首先可以通过训练得到自然语言模型识别出权利要求书中部分短语对应的标注信息，这些识别出的标注信息便可以作为预设关键词，用于从权利要求书中提取出基因序列的描述文字。

在本实施例中，检索引擎中可以集成训练后的自然语言模型，那么针对当前专利申请，可以通过自然语言模型在所述权利要求书中识别所述基因序列所处的位置。在识别出该基因序列所处的位置后，可以继续通过自然语言模型，从识别出的所述位置的上下文中查找用于限定所述基因序列中部分子序列长度的长度标识。该长度标识便可以是上述的用于描述百分比以及用于描述子序列区域信息的文字。这样，将所述长度标识作为预设关键词，通过截取包含所述长度标识和所述基因序列的语句，从而可以得到所述基因序列的描述文字。

S15：根据提取的所述描述文字，确定所述基因序列的相似度信息，并基于所述相似度信息标注所述基因序列的权利要求保护范围。

在本实施例中，在提取得到包含所述基因序列的描述文字之后，可以对该描述文字进行语义分析，从而确定出该描述文字中对基因序列的权利范围。具体地，若提取出的描述文字中，包含了用于描述基因序列的百分比数值，那么可以直接在所述描述文字中识别所述基因序列对应的有效百分比，并将所述有效百分比作为所述基因序列的相似度信息。例如，上述的例子中，“70％”便可以作为二号序列的相似度信息。然而，在某些专利申请中，并不会直接描述基因序列的有效百分比，而是会对其中子序列的区域信息进行描述。例如上述例子中针对四号序列描述的“48到56位”、“90到101位”以及“161到169位”这些区域信息。在这种情况下，可以在所述描述文字中识别用于限定所述基因序列中基因子序列或者核心功能序列所处位置的区域信息，并根据所述区域信息确定所述基因子序列或者核心功能序列的长度。其中，所述基因子序列可以指由区域信息所限定的位于所述基因序列中的部分基因序列。所述核心功能序列也可以是由所述区域信息所限定，在所述基因序列中具备重要意义的部分基因序列。例如，在人体的众多基因序列中，有一部分核苷酸序列能够表征人体中的潜在患癌风险。在这种情况下，这些核苷酸序列便可以作为基因序列中的核心功能序列。在上述例子中，所述基因子序列或者核心功能序列由三部分构成，这三部分的长度之和为9+12+9＝30位。然后，可以计算所述基因子序列或者核心功能序列的长度在所述基因序列的总长度中所占的百分比，并可以将计算的所述百分比作为所述基因序列的相似度信息。假设四号序列的总长度为200位，那么计算得到的百分比就是30/200＝15％，因此，四号序列的相似度信息就是15％。

在本实施例中，在确定出基因序列的相似度信息后，该基因序列在权利要求书中的权利范围就是以该相似度信息表征的百分比数值为下限值。例如，基因序列在权利要求书中的相似度信息为70％，则表示只要与基因序列之间的相似度大于或者等于70％，都应当属于权利要求的保护范围。因此，可以将所述相似度信息表征的百分比作为所述基因序列的权利范围的下限值，从而确定该基因序列在权利要求书中的保护范围。

在实际应用中，专利申请的权利要求书中有时候会直接对某个基因序列进行保护，并且在权利要求书中可以写出该基因序列的详细内容，或者可以在权利要求书中用序列标识替代该基因序列，而在序列表中将该基因序列的详细内容书写出来。在这种情况下，在从权利要求中提取出该基因序列的描述文字，并根据训练得到的自然语言模型对该描述文字的语义进行分析之后，可以确定权利要求保护的就是该基因序列本身。也就是说，根据描述文字确定出的该基因序列的相似度信息为100％的有效百分比。这样，针对这一类专利申请，从权利要求书中识别出基因序列之后，该基因序列的权利要求保护范围就是该基因序列本身，其对应的相似度信息为100％。

请参阅图3，本申请还提供一种基因序列的权利要求保护范围认定系统，所述系统包括：

权利范围确定单元，用于根据提取的所述描述文字，确定所述基因序列的相似度信息，并基于所述相似度信息标注所述基因序列的权利范围。

请参阅图4，本申请还提供一种基因序列的权利要求保护范围认定系统，在硬件层面，上述的基因序列的权利要求保护范围认定系统可以包括处理器、内部总线和存储器。所述存储器可以包括内存以及非易失性存储器。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行。所述计算机程序被所述处理器执行时，可以实现上述的基因序列的权利要求保护范围认定方法。本领域普通技术人员可以理解，图4所示的结构仅为示意，其并不对上述识别系统的结构造成限定。例如，所述识别系统还可包括比图4中所示更多或者更少的组件，例如还可以包括其他的处理硬件，如GPU(Graphics Processing Unit，图像处理器)，或者具有与图4所示不同的配置。当然，除了软件实现方式之外，本申请并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等。

需要说明的是，本说明书实施例上述所述的系统，根据相关方法实施例的描述还可以包括其他的实施方式。具体的实现方式可以参照方法实施例的描述，在此不作一一赘述。

本申请还提供一种计算机存储介质，所述计算机存储介质用于存储计算机程序，所述计算机程序被处理器执行时，可以实现上述的基因序列的权利要求保护范围认定方法。

在本实施例中，所述计算机存储介质可以包括用于存储信息的物理系统，通常是将信息数字化后再以利用电、磁或者光学等方法的媒体加以存储。本实施方式所述的计算机存储介质又可以包括：利用电能方式存储信息的系统，如RAM、ROM等；利用磁能方式存储信息的系统，如硬盘、软盘、磁带、磁芯存储器、磁泡存储器、U盘；利用光学方式存储信息的系统，如CD或DVD。当然，还有其他方式的存储器，例如量子存储器、石墨烯存储器等等。

请参阅图5，本申请还提供一种基因序列的检索方法，所述方法包括以下步骤。

S21：获取待检索的基因序列。

S23：从专利库的专利申请中抓取文本基因序列，并将所述待检索的基因序列与抓取的所述文本基因序列进行比较，以确定与所述待检索的基因序列相似的目标基因序列。

S25：展示包含所述目标基因序列的专利申请的检索结果。

在本实施例中，所述待检索的基因序列可以是用户在检索引擎中输入的基因序列。针对该待检索的基因序列，检索引擎可以从专利库中查询出与其相关的专利申请。具体地，可以从专利库的专利申请中，抓取出文本基因序列。该文本基因序列可以是专利申请的权利要求书或者说明书中包含的基因序列。在抓取该文本基因序列时，可以参照图2所示的方式，从当前专利申请的权利要求书中识别由指定字母构成的字母序列，并在所述字母序列的长度达到指定长度阈值时，将所述字母序列作为文本基因序列。此外，还可以从当前专利申请的权利要求书中识别目标序列标识，并从所述当前专利申请的序列表中读取所述目标序列标识对应的文本基因序列。

在本实施例中，抓取到文本基因序列之后，可以根据预设算法计算所述待检索的基因序列和所述文本基因序列之间的相似度，若计算得到的所述相似度大于或者等于指定相似度阈值，则表示文本基因序列与待检索的基因序列之间比较相似，从而可以将所述文本基因序列作为与所述待检索的基因序列相似的目标基因序列。在实际应用中，所述预设算法例如可以是KMP，Shift-And，Shift-Or，BM(Boyer-Moore)，Horspool，BNDM，BOM等算法中的一种或多种。所述指定相似度阈值可以是检索引擎设置的默认值，该默认值例如可以是20％等数值。

在本实施例中，在确定出与待检索的基因序列相似的目标基因序列之后，便可以从专利库中确定包含所述目标基因序列的专利申请，这样，确定出的这些专利申请均可以是与待检索的基因序列相关的专利申请。检索引擎可以将这些专利申请的检索结果向用户展示，以供用户进一步浏览各个专利申请的详细内容。

在一个实施例中，在确定与所述待检索的基因序列相似的目标基因序列之后，还可以确定目标基因序列在专利申请中的权利范围。具体地，首先可以确定包含所述目标基因序列的专利申请，然后可以根据预设关键词从所述专利申请的权利要求书中提取所述目标基因序列的描述文字。具体地，可以按照前述实施例的方式，通过NLP技术训练得到自然语言模型，然后通过自然语言模型在专利申请的权利要求书中识别所述目标基因序列所处的位置。在识别出该目标基因序列所处的位置后，可以继续通过自然语言模型，从识别出的所述位置的上下文中查找用于限定所述目标基因序列中部分子序列长度的长度标识。该长度标识便可以是上述的用于描述百分比以及用于描述子序列区域信息的文字。这样，将所述长度标识作为预设关键词，通过截取包含所述长度标识和所述目标基因序列的语句，从而可以得到所述目标基因序列的描述文字。最后，可以根据提取的所述描述文字，确定所述目标基因序列的相似度信息，并基于所述相似度信息标注所述目标基因序列的权利范围。具体地，一方面可以在所述描述文字中识别所述目标基因序列对应的相似度可变范围的百分比，并将所述相似度可变范围的百分比作为所述目标基因序列的相似度信息。其中，所述相似度可变范围的百分比可以具备起始值和终止值，所述起始值便可以是上述实施例中描述的有效百分比，所述终止值可以是100％。另一方面，可以在所述描述文字中识别用于限定所述目标基因序列中基因子序列或者核心功能序列所处位置的区域信息，并根据所述区域信息确定所述基因子序列或者核心功能序列的长度，然后计算所述基因子序列或者核心功能序列的长度在所述目标基因序列的总长度中所占的百分比，并将计算的所述百分比作为所述目标基因序列的相似度信息。在本实施例中，确定出所述目标基因序列的相似度信息后，便可以将所述相似度信息表征的百分比作为所述目标基因序列的权利范围的下限值。这样，在根据基因序列之间的相似度向用户提供了专利申请的检索结果后，还可以在检索结果中展示目标基因序列的权利范围。该权利范围便可以通过表征下限值的百分比数值来表示。在实际应用中，可以按照图6所示向用户展示专利申请的检索结果。在该检索结果中，可以包括专利申请的名称、公开日、申请号、申请人、代理机构等常用信息，还可以包括所述待检索的基因序列与所述目标基因序列之间的相似度以及用于表征所述目标基因序列的权利范围的标识。其中，所述相似度和用于表征权利范围的标识均可以通过百分比的形式来表示。例如，在图6中，第一篇检索结果中，89％表示该专利申请中的目标基因序列与待检索的基因序列之间的相似度，95％则表示目标基因序列的权利范围的下限值。在实际应用中，检索引擎可以按照后台设定的规则，按照相似度大小或者按照权利范围大小对检索结果进行排序。

在一个实施例中，用户在输入待检索的基因序列时，还可以一并限定该待检索的基因序列对应的指定相似度范围。该指定相似度范围可以对按照相似度查询得到的检索结果进行筛选。具体地，检索引擎可以从所述目标基因序列中筛选出与所述待检索的基因序列之间的相似度处于所述指定相似度范围内的筛选基因序列，并展示包含所述筛选基因序列的专利申请的检索结果。这样，最终查询得到的所述专利申请中包含的目标基因序列与所述待检索的基因序列之间的相似度均可以处于所述指定相似度范围内，从而能够使得检索结果更加符合用户的期望，提高检索结果的精度。

在一个实施例中，为了更加直观地向用户展示检索结果，在查询与所述待检索的基因序列相匹配的专利申请之后，可以根据所述专利申请中所述目标基因序列与所述待检索的基因序列之间的相似度，将查询得到的所述专利申请转换至相似度图谱中。请参阅图7，在所述相似度度图谱中，待检索的基因序列可以位于图谱中心(填充阴影的圆形)，与该待检索的基因序列相匹配的专利申请可以分布于四周，并且专利申请与该待检索的基因序列之间的距离，可以通过专利申请中目标基因序列与该待检索的基因序列之间的相似度来确定。相似度越高，距离则越近。因此，在所述相似度图谱中，所述专利申请与所述待检索的基因序列之间的距离，与所述相似度成反比。通过相似度图谱的可视化展示方式，用户可以直观地看到检索结果的分布状况，并且，该相似度图谱中的专利申请被点击之后，可以跳转至对应的专利申请的详细页面，以供用户进一步地浏览。

在本实施例中，对于展示的相似度图谱，用户还可以通过调节相似度范围，使得相似度图谱中展示的结果随之变动。具体地，检索引擎可以接收用户输入的相似度范围，并将相似度处于所述相似度范围之外的专利申请从所述相似度图谱中去除。这样，用户可以输入自己关心的相似度范围，从而可以将相似度图谱中满足该相似度范围的专利申请保留，以减少其它专利申请的影响。

在实际应用中，当用户输入了相似度范围之后，检索引擎也可以依然保留全部的检索结果，只不过将相似度范围内和相似度范围外的检索结果通过不同的颜色进行展示，以向用户区分这种不同情况的专利申请。具体地，检索引擎可以接收用户输入的相似度范围，并在所述相似度图谱中确定相似度处于所述相似度范围内的第一专利申请，并在所述相似度图谱中确定相似度处于所述相似度范围之外的第二专利申请，然后可以将所述第一专利申请和所述第二专利申请在所述相似度图谱中分别通过不同的颜色进行展示。例如，处于相似度范围之外的第二专利申请，可以通过灰色进行展示；而处于相似度范围内的第一专利申请，可以通过红色进行展示。

在一个实施例中，用户对于基因序列的检索结果可能还有其它方面的需求，例如，用户有时候想要了解基因序列的发展历程。在这种情况下，检索引擎可以向用户提供发展历程展示的功能。当用户触发该功能后，检索引擎可以将查询得到的所述专利申请按照申请日信息构建为基因序列发展进度图谱。具体地，请参阅图8，检索得到的专利申请可以构成申请序列，在该申请序列中从左到右的顺序对应着申请日从旧到新。这样，用户能够清晰地看出基因序列的发展进度。

此外，在一个实施例中，用户可能只对待检索的基因序列中的核心功能序列感兴趣，想了解核心功能序列的发展历程。所述核心功能序列可以是在所述基因序列中具备重要意义的部分基因序列。例如，在人体的众多基因序列中，有一部分核苷酸序列能够表征人体中的潜在患癌风险。在这种情况下，这些核苷酸序列便可以作为基因序列中的核心功能序列。在实际应用中，专利库中可以预先构建各个核心功能序列的序列库，这样，在接收到用户输入的待检索的基因序列之后，检索引擎便可以将该待检索的基因序列与序列库中的各个核心功能序列进行比对，从而从待检索的基因序列中识别出包含的核心功能序列。然后，检索引擎可以从查询得到的专利申请中筛选出包含所述核心功能序列的目标专利申请。这样，检索引擎可以将所述目标专利申请按照申请日信息构建为核心序列发展进度图谱。同样地，可以将目标专利申请构成申请序列，在该申请序列中从左到右的顺序对应着申请日从旧到新。这样，用户能够清晰地看出基因序列中核心功能序列的发展进度。

本申请还提供一种基因序列的检索系统，所述系统包括：

检索信息获取单元，用于获取待检索的基因序列；

目标基因序列检索单元，用于从专利库的专利申请中抓取文本基因序列，并将所述待检索的基因序列与抓取的所述文本基因序列进行比较，以确定与所述待检索的基因序列相似的目标基因序列；

检索结果展示单元，用于展示包含所述目标基因序列的专利申请的检索结果。

本申请还提供一种基因序列的检索系统，所述系统包括存储器和处理器，所述存储器用于存储计算机程序，所述计算机程序被所述处理器执行时，可以实现上述的基因序列的检索方法。

本申请还提供一种计算机存储介质，所述计算机存储介质用于存储计算机程序，所述计算机程序被处理器执行时，可以实现上述的基因序列的检索方法。

请参阅图9，本申请还提供一种基因序列的检索方法，所述方法可以包括以下步骤。

S31：获取待检索的基因序列以及预设相似度阈值。

S33：基于所述预设相似度阈值，将所述待检索的基因序列拆分为多个基因子序列。

在本实施方式中，用户可以一并输入待检索的基因序列和待检索的预设相似度阈值。该预设相似度阈值例如可以是80％，这表明用户想要查询与待检索的基因序列相似度在80％以上的专利申请。在这种情况下，检索引擎一方面可以先根据待检索的基因序列，在专利库中查询到相似的专利申请。然后再根据预设相似度阈值，对查询到的专利申请进行筛选。另一方面，还可以先根据预设相似度阈值，对待检索的基因序列进行拆分。

请参阅图10，在对待检索的基因序列进行拆分时，可以根据所述预设相似度阈值以及所述待检索的基因序列的长度，确定拆分后的基因子序列的目标长度。例如，所述待检索的基因序列的长度为100，预设相似度阈值为80％，那么拆分后的基因子序列的目标长度便可以是80。此时，可以从所述待检索的基因序列中提取符合所述目标长度的子序列，并将提取的所述子序列作为拆分后的基因子序列。例如，针对长度为100的待检索的基因序列，从中可以提取出至少21个长度为80的不同的基因子序列。提取出的这些基因子序列便可以作为拆分后的基因子序列。

S35：分别对各个所述基因子序列在专利库中进行序列检索，以确定所述基因子序列对应的目标专利申请，并输出所述目标专利申请的检索结果。

在本实施例中，针对不同的基因子序列，可以在专利库中分别进行序列检索。检索的目的是查询包含所述基因子序列的专利申请。这样便可以保证检索出的专利申请中的基因序列，与待检索的基因序列之间的相似度大于或者等于80％，从而满足用户输入的预设相似度阈值。

在本实施例中，在对基因子序列进行序列检索时，可以参照图5所示的方法。首先可以从专利库的专利申请中抓取文本基因序列，并判断抓取的所述文本基因序列中是否包含所述基因子序列。若抓取的所述文本基因序列中包含所述基因子序列，则可以将包含所述文本基因序列的专利申请作为所述基因子序列对应的目标专利申请。该目标专利申请便可以作为待检索的基因序列的一个检索结果。

在一个实施例中，在从专利库的专利申请中抓取文本基因序列时，可以分别从权利要求书和说明书中进行抓取。具体地，一方面可以从当前专利申请的权利要求书中识别由指定字母构成的字母序列，并在所述字母序列的长度达到指定长度阈值时，将所述字母序列作为文本基因序列；另一方面可以从当前专利申请的权利要求书中识别目标序列标识，并从所述当前专利申请的序列表中读取所述目标序列标识对应的文本基因序列。

本申请还提供一种基因序列的检索系统，所述系统包括：

检索信息获取单元，用于获取待检索的基因序列以及预设相似度阈值；

子序列拆分单元，用于基于所述预设相似度阈值，将所述待检索的基因序列拆分为多个基因子序列；

检索结果输出单元，用于分别对各个所述基因子序列在专利库中进行序列检索，以确定所述基因子序列对应的目标专利申请，并输出所述目标专利申请的检索结果。

本申请还提供一种基因序列的检索系统，所述系统包括存储器和处理器，所述存储器用于存储计算机程序，所述计算机程序被所述处理器执行时，实现上述的基因序列的检索方法。

本申请还提供一种计算机存储介质，所述计算机存储介质用于存储计算机程序，所述计算机程序被处理器执行时，实现上述的基因序列的检索方法。

本申请提供一种基因序列的侵权判定方法，所述方法可以应用于检索引擎中。请参阅图11，所述方法可以包括以下步骤。

S41：获取待检索的基因序列，并查询包含有与所述待检索的基因序列相似的目标基因序列的专利申请。

在本实施例中，所述待检索的基因序列可以是用于描述DNA、RNA、其它核苷酸或者蛋白质的一串字母串。在所述待检索的基因序列中，各个字母可以作为核苷酸或者氨基酸的简写字符。这样，具备复杂生物结构的DNA、RNA、其它核苷酸或者蛋白质便可以通过字符化的形式，转换为对应的基因序列。

在本实施例中，用户想要检索某个基因序列时，可以将该待检索的基因序列输入至检索引擎的关键词输入框内，这样，检索引擎便可以获取到该待检索的基因序列。检索引擎可以通过文本搜索的方式，在检索库中查询与该待检索的基因序列相匹配的专利申请。具体地，在包含基因序列的专利申请中，基因序列可以通过序列表的方式来表示。这样，检索引擎可以将待检索的基因序列与专利申请的序列表中包含的各个基因序列进行文本匹配，从而查询出与该待检索的基因序列相似的目标基因序列。其中，待检索的基因序列与该目标基因序列的联系可以通过两者的相似度来表示。相似度越高，则表示两者联系越紧密。在计算所述带检索的基因序列与目标基因序列之间的相似度时，可以逐一比对这两个基因序列中相同位置处的字母，并可以标记出相同的字母。这样，在比对完这两个基因序列之后，便可以计算相同的字母在待检索的基因序列中所占的比例，该比例便可以作为两者的相似度。需要说明的是，在同一篇专利申请中，可能会具备多个与该待检索的基因序列相似的目标基因序列，那么检索引擎可以分别计算这些目标基因序列与该待检索的基因序列之间的相似度，并在后台保存计算出的这些相似度。

当然，在实际应用中，有时候专利申请中出现的基因序列并不会都在权利要求书中进行保护，部分基因序列可能是在说明书中为了阐述技术方案而例举的。在这种情况下，由于后续需要确定各个目标基因序列的保护范围，因此在进行相似度检索时，可以舍弃那些没有在权利要求书中出现的目标基因序列。具体地，针对检索库中的专利申请，可以先从权利要求书中识别出包含的基因序列，然后再计算权利要求书中包含的这些基因序列与待检索的基因序列之间的相似度。这样便可以保证最终确定出的目标基因序列均在权利要求书中出现过。

在一个实施例中，若根据基因序列之间的相似度查询到的专利申请的数量较多，检索引擎可以在后台根据相似度大小，对查询到的专利申请进行筛选，从而保留相似度较高的专利申请。

S43：从所述专利申请的权利要求书中提取包含所述目标基因序列的描述文字，并根据所述描述文字确定所述目标基因序列的权利范围。

在本实施例中，在根据基因序列的相似度查询得到专利申请之后，可以进一步地判断目标基因序列在该专利申请中限定的权利范围。具体地，可以对专利申请的权利要求书进行分析，从而从权利要求书中提取包含所述目标基因序列的描述文字，并可以根据所述描述文字确定所述目标基因序列的权利范围。

在本实施例中，可以通过自然语言处理((Natural Language Processing，NLP)技术，对专利申请的权利要求书进行语义分析，从而识别出权利要求书对目标基因序列限定的权利范围。具体地，检索引擎可以预先将大量描写基因序列的权利要求作为训练样本，通过机器学习的方法，训练一个能够识别权利要求中不同短语所表征的含义以及能够识别多个短语之间的关联关系的自然语言模型。在进行自然语言模型的训练时，首先可以通过人工标注的方式，在训练样本中将与描写基因序列的保护范围相关的文字进行标注。举例来说，针对以下的训练样本：

在该训练样本中，可以对引用的基因序列进行标注。例如，对于上述例子中的“二号序列”和“四号序列”，可以利用seq_id来标注。此外，还可以对用于限定基因序列中部分子序列长度的文字进行标注。其中，描述子序列长度的文字可以包括百分比数值，例如上述的“70％”，还可以包括用于限定子序列在基因序列中所处位置的区域信息，例如上述的“48到56位”、“90到101位”以及“161到169位”。在对描述子序列长度的文字进行标注时，可以根据不同的类型进行不同的标注。例如，对于百分比数值，可以利用quantity来标注；对于区域信息，则可以利用region来标注。此外，描述子序列长度的文字通常会与引用的基因序列相关联，例如，上述例子中“70％”关联的是二号序列，而“48到56位”、“90到101位”以及“161到169位”这些文字关联的则是四号序列。因此，在进行人工标注时，还可以将存在关联关系的两个对象通过键值对(key-value)的形式标注出来。例如，标注的结果可以是“70％-二号序列”，“48到56位、90到101位、161到169位-四号序列”。当然，在实际应用中，上述的标注方式还可以按照不同的规则灵活更改，上述例举的标注情形只是为了描述本实施例的技术方案，并非表示本实施例的技术方案只能通过上述的标注方式进行标注。这样，可以将标注后的训练样本输入自然语言模型中自然语言模型中的神经网络可以对标注后的训练样本进行学习，从而根据权利要求的撰写方式，分辨其中各个语句的语义，以及不同语句之间的关联关系。在通过大量样本训练之后，训练得到的自然语言模型可以对未标注的权利要求进行识别，从而识别出其中引用的基因序列以及描述子序列长度的文字等在训练阶段标注过的内容。

在本实施例中，检索引擎中可以集成训练后的自然语言模型，那么在根据相似度查询得到专利申请之后，首先可以从所述专利申请的序列表中确定所述目标基因序列在权利要求书中的序列标识，然后可以通过自然语言模型在所述权利要求书中识别所述序列标识所处的位置。在识别出该序列标识所处的位置后，可以继续通过自然语言模型，从识别出的所述位置的上下文中查找用于限定所述目标基因序列中部分子序列长度的长度标识。该长度标识便可以是上述的用于描述百分比以及用于描述子序列区域信息的文字。这样，通过截取包含所述长度标识和所述序列标识的语句，从而可以得到包含所述目标基因序列的描述文字。

在本实施例中，在提取得到包含所述目标基因序列的描述文字之后，可以对该描述文字进行语义分析，从而确定出该描述文字中对目标基因序列的权利范围。具体地，若提取出的描述文字中，包含了用于描述目标基因序列的百分比数值，那么可以直接在所述描述文字中识别所述目标基因序列对应的相似度可变范围的百分比，并将所述相似度可变范围的百分比作为所述目标基因序列的权利范围。其中，所述相似度可变范围的百分比可以具备起始值和终止值，所述起始值便可以是上述实施例中描述的有效百分比，所述终止值可以是100％。例如，上述的例子中，“70％”便可以作为相似度可变范围的下限值。然而，在某些专利申请中，并不会直接描述目标基因序列的百分比数值，而是会对其中子序列的区域信息进行描述。例如上述例子中针对四号序列描述的“48到56位”、“90到101位”以及“161到169位”这些区域信息。在这种情况下，可以在所述描述文字中识别用于限定所述目标基因序列中基因子序列或者核心功能序列所处位置的区域信息，并根据所述区域信息确定所述基因子序列或者核心功能序列的长度。在上述例子中，所述基因子序列或者核心功能序列由三部分构成，这三部分的长度之和为9+12+9＝30位。然后，可以计算所述基因子序列或者核心功能序列的长度在所述目标基因序列的总长度中所占的百分比，并可以将计算的所述百分比作为所述目标基因序列的权利范围的下限值。假设四号序列的总长度为200位，那么计算得到的百分比就是30/200＝15％，因此，四号序列的权利范围的下限值就是15％。

S45：确定所述待检索的基因序列与所述目标基因序列之间的相似度，并比较所述相似度与所述目标基因序列的权利范围。

S47：根据比较结果，标注所述专利申请相对于所述待检索的基因序列的侵权风险信息。

在本实施例中，在进行相似度检索时，可以确定待检索的基因序列与目标基因序列之间的相似度。根据S43中的描述，又可以确定出目标基因序列在专利申请中的权利范围。此时，一方面可以按照图6所示，向用户展示专利申请的检索结果。在该检索结果中，可以包括专利申请的名称、公开日、申请号、申请人、代理机构等常用信息，还可以包括所述待检索的基因序列与所述目标基因序列之间的相似度以及用于表征所述目标基因序列的保护范围的标识。其中，所述相似度和用于表征保护范围的标识均可以通过百分比的形式来表示。例如，在图6中，第一篇检索结果中，89％表示该专利申请中的目标基因序列与待检索的基因序列之间的相似度，95％则表示目标基因序列的保护范围。在实际应用中，检索引擎可以按照后台设定的规则，按照相似度大小或者按照保护范围大小对检索结果进行排序。

需要说明的是，在检索得到的某些专利申请中，可能存在至少两个与待检索的基因序列相似的目标基因序列。在这种情况下，可以分别确定出每个目标基因序列的相似度以及保护范围，然后可以在检索结果中，将这些目标基因序列的相似度和保护范围均列出来，以供用户查阅。

在实际应用中，检索结果中展示的相似度和保护范围可以通过超链接的形式进行展示。当用户点击其中的相似度或者保护范围时，可以直接跳转至专利申请的详细内容中，并且可以在当前页面中展示与相似度或者保护范围相关的内容。例如，用户点击了第一个检索结果中的保护范围，此时可以在跳转的页面中，直接展示该第一个检索结果的权利要求书部分，并将用于表征保护范围的文字通过标黄的形式展示出来。

另一方面，检索引擎可以在后台对相似度和权利范围进行比较，若所述相似度落入所述权利范围内，那么便表示当前待检索的基因序列存在侵权风险。例如，待检索的基因序列与目标基因序列之间的相似度为80％，而该目标基因序列的权利范围为75％以上。那么该待检索的基因序列是处于该目标基因序列的保护范围内的，此时检索引擎可以在检索结果中标注出所述专利申请相对于所述待检索的基因序列的侵权风险信息。在实际应用中，该侵权风险信息可以通过文字与背景色的组合进行表示。例如，当待检索的基因序列处于目标基因序列的保护范围内时，可以标注“侵权”字样，并且该“侵权”字样的背景色可以是红色。又例如，当待检索的基因序列处于目标基因序列的保护范围之外，但是相似度与权利范围的下限值之间相差较小时，可以标注“可能侵权”的字样，并且该字样的背景色可以是黄色。又例如，当待检索的基因序列处于目标基因序列的保护范围之外，但是相似度与权利范围的下限值之间相差较大时，可以标注“无侵权风险”的字样，并且该字样的背景色可以是绿色。当然，在实际应用中还可以通过其它方式进行标注侵权风险信息，本申请对此并不作限定。

在一个实施例中，用户在输入待检索的基因序列时，还可以一并限定该待检索的基因序列对应的指定相似度范围。该指定相似度范围可以对按照相似度查询得到的检索结果进行筛选。具体地，检索引擎可以接收用户输入的指定相似度范围，并且按照相似度查询得到该待检索的基因序列对应的专利申请之后，可以计算各个专利申请中目标基因序列的相似度。然后，可以将计算得到的相似度与用户输入的指定相度范围进行比较，从而保留处于所述指定相似度范围内的检索结果。这样，最终查询得到的所述专利申请中包含的目标基因序列与所述待检索的基因序列之间的相似度均可以处于所述指定相似度范围内，从而能够使得检索结果更加符合用户的期望，提高检索结果的精度。

本申请还提供一种基因序列的侵权判定系统，所述系统包括：

专利申请查询单元，用于获取待检索的基因序列，并查询包含有与所述待检索的基因序列相似的目标基因序列的专利申请；

权利范围确定单元，用于从所述专利申请的权利要求书中提取包含所述目标基因序列的描述文字，并根据所述描述文字确定所述目标基因序列的权利范围；

比较单元，用于确定所述待检索的基因序列与所述目标基因序列之间的相似度，并比较所述相似度与所述目标基因序列的权利范围；

风险判定单元，用于根据比较结果，标注所述专利申请相对于所述待检索的基因序列的侵权风险信息。

本说明书一个实施例还提供一种基因序列的侵权判定系统，所述系统包括存储器和处理器，所述存储器用于存储计算机程序，所述计算机程序被所述处理器执行时，可以实现上述的基因序列的侵权判定方法。具体地，如图12所示，在硬件层面，该系统可以包括处理器、内部总线和存储器。所述存储器可以包括内存以及非易失性存储器。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行。本领域普通技术人员可以理解，图12所示的结构仅为示意，其并不对上述识别系统的结构造成限定。例如，所述识别系统还可包括比图12中所示更多或者更少的组件，例如还可以包括其他的处理硬件，如GPU(Graphics Processing Unit，图像处理器)，或者具有与图12所示不同的配置。当然，除了软件实现方式之外，本申请并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等。

本说明书实施例中，所述的处理器可以包括中央处理器(CPU)或图形处理器(GPU)，当然也可以包括其他的具有逻辑处理能力的单片机、逻辑门电路、集成电路等，或其适当组合。本申请实施例所述的存储器可以是用于保存信息的记忆设备。在数字系统中，能保存二进制数据的设备可以是存储器；在集成电路中，一个没有实物形式的具有存储功能的电路也可以为存储器，如RAM、FIFO等；在系统中，具有实物形式的存储设备也可以叫存储器等。实现的时候，该存储器也可以采用云存储器的方式实现，具体实现方式，本说明书不错限定。

本申请还提供一种计算机存储介质，所述计算机存储介质用于存储计算机程序，所述计算机程序被处理器执行时，实现上述的基因序列的侵权判定方法。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

虽然本申请提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或客户端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device，PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

上述实施例阐明的系统、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上系统时以功能分为各种单元分别描述。当然，在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的系统。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令系统的制造品，该指令系统实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储、石墨烯存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本说明书的实施例可提供为方法、系统或计算机程序产品。因此，本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本说明书的实施例而已，并不用于限制本说明书。对于本领域技术人员来说，本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在权利要求范围之内。

Claims

1.一种基因序列的权利要求保护范围认定方法，其特征在于，所述方法包括：

从当前专利申请的权利要求书中识别基因序列；

2.根据权利要求1所述的方法，其特征在于，从当前专利申请的权利要求书中识别基因序列包括：

从当前专利申请的权利要求书中识别由指定字母构成的字母序列，并在所述字母序列的长度达到指定长度阈值时，将所述字母序列作为基因序列；

或者

从当前专利申请的权利要求书中识别序列标识，并从所述当前专利申请的序列表中读取所述序列标识对应的基因序列。

3.根据权利要求1所述的方法，其特征在于，根据预设关键词从所述权利要求书中提取所述基因序列的描述文字包括：

在所述权利要求书中识别所述基因序列所处的位置，并从识别出的所述位置的上下文中查找用于限定所述基因序列中部分子序列长度的长度标识；

将所述长度标识作为预设关键词，截取包含所述长度标识和所述基因序列的语句，并将截取的所述语句作为所述基因序列的描述文字。

4.根据权利要求1所述的方法，其特征在于，确定所述基因序列的相似度信息包括：

在所述描述文字中识别所述基因序列对应的有效百分比，并将所述有效百分比作为所述基因序列的相似度信息；

或者

在所述描述文字中识别用于限定所述基因序列中基因子序列或核心功能序列所处位置的区域信息，并根据所述区域信息确定所述基因子序列或核心功能序列的长度；计算所述基因子序列或核心功能序列的长度在所述基因序列的总长度中所占的百分比，并将计算的所述百分比作为所述基因序列的相似度信息。

5.一种基因序列的权利要求保护范围认定系统，其特征在于，所述系统包括：

6.一种基因序列的检索方法，其特征在于，所述方法包括：

获取待检索的基因序列；

展示包含所述目标基因序列的专利申请的检索结果。

7.根据权利要求6所述的方法，其特征在于，确定与所述待检索的基因序列相似的目标基因序列包括：

根据预设算法计算所述待检索的基因序列和所述文本基因序列之间的相似度，若计算得到的所述相似度大于或者等于指定相似度阈值，将所述文本基因序列作为与所述待检索的基因序列相似的目标基因序列。

8.一种基因序列的检索方法，其特征在于，所述方法包括：

获取待检索的基因序列以及预设相似度阈值；

9.根据权利要求8所述的方法，其特征在于，基于所述预设相似度阈值，将所述待检索的基因序列拆分为多个基因子序列包括：

根据所述预设相似度阈值以及所述待检索的基因序列的长度，确定拆分后的基因子序列的目标长度；

从所述待检索的基因序列中提取符合所述目标长度的子序列，并将提取的所述子序列作为拆分后的基因子序列。

10.一种基因序列的侵权判定方法，其特征在于，所述方法包括：

获取待检索的基因序列，并查询包含有与所述待检索的基因序列相似的目标基因序列的专利申请；