CN109643322A

CN109643322A - 字符串辞典的构建方法、字符串辞典的检索方法及字符串辞典的处理系统

Info

Publication number: CN109643322A
Application number: CN201680088917.9A
Authority: CN
Inventors: 木村宏; 木村宏一
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2016-09-02
Filing date: 2016-09-02
Publication date: 2019-04-16
Anticipated expiration: 2036-09-02
Also published as: US20190205394A1; US10867134B2; GB201902142D0; WO2018042609A1; JP6622921B2; GB2567390A; GB2567390B; CN109643322B; JPWO2018042609A1; DE112016007194T5

Abstract

字符串数据解析装置(1)的多核CPU(101)，关于将划分字符串辞典(112)而得到的多个块在存储器(102)上展开、将字符串数据(111)的未登记字符串从末尾字符起逐个字符地向各块作为新的条目登记的条目登记处理，针对能够相互独立地执行的块的组并行地执行，在没有了各块的未登记字符串的状态下，将各块的条目中所登记的字符串连结而成的字符串作为字符串数据(111)已登记的字符串辞典(112)的BW变换数据输出。

Description

字符串辞典的构建方法、字符串辞典的检索方法及字符串辞典的处理系统

技术领域

本发明涉及字符串辞典的构建方法、字符串辞典的检索方法及字符串辞典的处理系统。

背景技术

随着DNA(DeoxyriboNucleic Acid，脱氧核糖核酸)测序(sequencing)技术的进步，DNA测序器输出的DNA排列数据的量正在迅速地增大。因此，在调查大量得到的DNA排列数据之中是否不包含有害的变异排列的变异解析等数据解析中，需要的计算开销也不断增大。

为了使数据解析有效率化，将以被计测的顺序输出的DNA排列数据(字符串数据)以字母(拉丁字母)顺序(辞典式顺序)排序是有效的。这是因为对于排序后的数据能够进行高速的检索。特别是，作为适合于DNA排列数据的方法，已知有采用BW(Burrows－Wheeler、伯罗斯-惠勒)变换(或FM索引)的方法(非专利文献1)。

将DNA排列数据进行BW变换后的数据被表现为以DNA和分隔字符($)为要素的1条排列，其各要素与将处于原来的DNA排列数据内的全部排列的全部后缀以字母顺序排序而列举的列表的各要素一对一地对应。进而，已知有能够利用BW变换的结果作为将全部的后缀以字母顺序排序的辞典利用的有效率的方法(非专利文献1)。因此，将BW变换结果也称作字符串辞典。

由于DNA排列数据的尺寸较大，所以在字符串辞典的构建中也花费较大的计算开销。已知有高速地构建字符串辞典的方法(专利文献1、非专利文献2、非专利文献3)。为了更高速化，还使用将字符串辞典的构建按照碱基的种类(字母字符)A、C、G、T并行化的方法(非专利文献4)。结果，能得到与碱基的种类数(字母尺寸)大致相等的并行度，能得到约4倍的高速化率，但不能得到其以上的并行度。

现有技术文献

专利文献

专利文献1：美国专利第8798936号说明书

非专利文献

非专利文献1：Ferragina P,Manzini G.Proceedings of the 41st Symposiumon Foundations of Computer Science(FOCS 2000).Los Alamitos,CA,USA:IEEEComputer Society；2000.Opportunistic data structures with applications；p.390-398.

非专利文献2：Lippert,Ross A.,Clark M.Mobarry,and Brian P.Walenz."Aspace-efficient construction of the Burrows-Wheeler transform for genomicdata."Journal of Computational Biology 12.7(2005):943-951.

非专利文献3：Ferragina P,Gagie T,Manzini G.“Lightweight Data Indexingand Compression in External Memory.”LATIN 2010:Theoretical Informatics.Volume6034of the series Lecture Notes in Computer Science,Springer,pp 697-710.

非专利文献4：Li,Heng."Fast construction of FM-index for long sequencereads."Bioinformatics(2014):btu541.

发明内容

发明要解决的课题

另一方面，对于近年来的计算机而言，通过使用多个多核心化的CPU的多线程处理，以数十倍的并行度能够进行数十倍的高速化的情况较多。但是，在将对于大量的字符串数据的字符串辞典的构建按照字符种类进行并行化的方法(非专利文献4)中，并行度被抑制在字母的尺寸的程度(例如，如果是DNA排列数据的情况，则碱基是4种，所以为4倍左右)。因而，对于具备几十个以上的CPU核心的计算机而言，不能进行有效地使用全部核心的并行计算的高速化。

由此，研究了使并行度进一步提高那样的并行计算的方法。通常，为了使处理高速化，经常将整体处理划分为部分处理而并行地执行。此时，在部分处理之间，将相互的计算结果相互参照，访问共有存储器或输入输出设备等，因此需要等待会合(同步)的情况较多。如果频繁地发生这样的等待会合，则处理器的开工率(运转率、产能利用率)下降，成为妨碍处理的高速化的原因。

此外，通常在部分处理所需要的计算时间中有偏差，如果部分处理的数量是CPU核心数量的程度，则对于CPU核心的计算负荷而言发生不平衡，难以有效地利用全部的CPU核心。所以，为了将对于全部的CPU核心的计算负荷分散进行均等化、从而进行有效率的高速化，需要细分化为与核心数量相比充分多的部分处理。如果能够这样，则通过多线程的动态负荷分散，能够使核心间的计算负荷均等化，能够实现因为将全部的核心有效地使用的有效率的并行化所带来的高速化。

所以，本发明的主要的目的是提供一种并行化的方法，在登记字符串数据的字符串辞典的构建处理中、能够进行有效地利用了CPU核心的数量的高速化。

用来解决课题的手段

为了解决上述课题，本发明的字符串辞典的构建方法是执行以下的各处理的方法。

即，本发明的特征在于，由字符串数据解析装置执行，

该字符串数据解析装置具备多个CPU核心所构成的多核CPU、和存储器；

对于展开到上述存储器上的、将字符串辞典划分得到的多个块，对各块分别赋予不同的标签，标签由构成字符串数据的字母与分隔字符以1字符以上而构成；

上述多核CPU：

关于被输入的各个上述字符串数据，针对带有分隔字符的标签的块，将上述字符串数据的末尾字符作为块的条目登记，将上述字符串数据的其余的字符串作为未登记字符串针对该末尾字符建立对应；

关于将上述未登记字符串与各块中的条目建立了对应的登记源块读入、针对根据上述登记源块的标签及条目所确定的登记目标块、将上述登记源块的上述未登记字符串的末尾字符作为新的条目向上述登记目标块登记、将上述未登记字符串的其余的字符串作为新的未登记字符串而针对该新的条目建立对应的条目登记处理，对于能够相互独立地执行的块的组并行地执行；

在成为没有各块的上述未登记字符串的状态下，关于登记在各块的条目中的字符串，将以块的标签表示的字母及分隔字符的顺序连结而成的字符串作为已登记上述字符串数据的上述字符串辞典的BW(Burrows－Wheeler、伯罗斯-惠勒)变换数据而输出。

其他技术方案将在后面进行叙述。

发明效果

根据本发明，能够提供一种在登记字符串数据的字符串辞典的构建处理中、能够进行有效地利用了CPU核心的数量的高速化那样的并行化的方法。

附图说明

图1是表示关于本发明的一实施方式的字符串检索系统的结构图。

图2是将关于本发明的一实施方式的图1的字符串检索系统应用到DNA解析系统中的例子。

图3是表示关于本发明的一实施方式的图1的字符串检索系统的整体处理的流程图。

图4是表示关于本发明的一实施方式的字符串辞典的构建处理的详细情况的流程图。

图5是表示关于本发明的一实施方式的处理P(w)及处理I(c)的详细情况的流程图。

图6是表示关于本发明的一实施方式的处理Q(w)的详细情况的流程图。

图7是表示关于本发明的一实施方式的处理R(w，a)的详细情况的流程图。

图8是表示关于本发明的一实施方式的处理S及处理P(w)的具体例的说明图。

图9是表示关于本发明的一实施方式的在图8后执行的处理Q(w)及处理R(w，a)的具体例的说明图。

图10是表示关于本发明的一实施方式的在图9后执行的处理Q(w)及处理R(w，a)的具体例的说明图。

图11是表示关于本发明的一实施方式的在图10后执行的处理Q(w)及处理R(w，a)的具体例的说明图。

图12是表示关于本发明的一实施方式的在图11后执行的字符串辞典的输出处理的说明图。

具体实施方式

以下，参照附图详细地说明本发明的一实施方式。

图1是表示字符串检索系统的结构图。字符串数据解析装置1由具有通常的计算机结构的服务器等的计算机实现。

字符串数据解析装置1具备在总线107上连接着多核CPU(CentralProcessingUnit)101、存储器102、HDD103、NIF104、输入部105和显示/输出部106的结构。

多核CPU101是具备多个核心、能够进行并行计算的中央处理部。以下说明的各种处理经过由多核CPU101进行的程序的执行而实现。

存储器102是暂时地存储程序及各种作业用数据等的存储部。

HDD103是作为存储字符串辞典112或各种作业用数据等的存储部发挥功能的硬盘驱动器。存储在HDD103中的字符串辞典112既可以存储到与字符串数据解析装置1外部连接的存储装置中，也可以存储到经由网络连接的数据中心等。

NIF104是用来连接到因特网等的网络接口。字符串数据解析装置1经由NIF104所连接的LAN(Local Area Network)及因特网等与外部装置连接，访问处于连接目的地的字符串数据111。该字符串数据111是被登记在字符串辞典112的数据。

输入部105是进行命令输入及参数输入等的键盘等的输入机构。输入部105受理查询字符串(query sequence)121的输入。

显示/输出部106显示用于操作的GUI(Graphical User Interface)及解析结果等。显示/输出部106显示查询字符串121的出现次数(hits)等，作为以查询字符串121为检索键字的来自字符串辞典112的检索结果122。另外，也可以代替出现次数，而设为出现1次以上(有出现)还是0次出现(不出现)这样的出现的有无信息。

图2是将图1的字符串检索系统应用到DNA解析系统中的例子。另外，如果使用DNA排列数据作为字符串数据111，则能够将字符串检索系统应用到DNA排列数据的检索系统中。此外，如果使用氨基酸排列(蛋白)数据作为字符串数据111，则能够将字符串检索系统应用到蛋白数据的检索系统中。

这里，使用对于从患者501采集的DNA样本502通过DNA测序器503进行解析后的结果的DNA排列数据504，作为图1的字符串数据111。

字符串辞典112是按照各个患者501而独立的DNA排列辞典505，基于字符串数据111而构建。

首先，输入部105受理对于哪个患者使用哪个基因面板来进行变异解析的解析指示521。字符串数据解析装置1经由NIF104，从连接在网络上的数据库512取得被指示的基因面板511的信息。在基因面板511的信息中，包括各基因的野生型排列W和变异型排列M、以及关于各变异的附带信息(该变异为原因而产生的病状、有效的治疗法及药剂等)。

接着，字符串数据解析装置1对于基因面板511内的各基因，通过以其野生型排列和变异型排列为查询字符串121、调查在DNA排列辞典505中是否登记有查询字符串121的各排列，从而判定在患者501的DNA样本502中是否检测到查询字符串121。显示/输出部106将该判定结果作为解析结果522显示或输出。

此外，显示/输出部106对于由解析结果522检测到的变异，通过GUI(Graphic UserInterface)等提供基因面板511中所包含的附带信息的链接。通过追溯该链接，能够得到用来预测患者501的病状的发展的参照信息、及用来选择适合于患者501的治疗法或药剂的参照信息。

图3是表示图1的字符串检索系统的整体处理的流程图。

作为S231，多核CPU101以字符串数据111和正整数参数r为输入，构建字符串辞典112(详细情况见图4)。

作为S232，多核CPU101输入查询字符串121。

作为S233，多核CPU101利用使用了字符串辞典112的公知的高速检索方法(非专利文献1)，调查字符串数据111内的查询字符串121的出现次数。

作为S234，多核CPU101将S233的出现次数作为检索结果122输出或显示。

以下，定义在字符串辞典112的构建处理(S231)中使用的数据构造。

所述的“块”，是将构建中的字符串辞典112划分而成的，构成为以字母字符或分隔字符为构成要素(条目)的列表。所述的“空块”，是空的列表。各块被配置在共有存储器上。

所述的“标签”，是块的识别符，为了确定未登记字符串的登记源及作为登记目标的块而使用。标签的表述，是对长度r(设r为正整数参数)的字母字符串或长度为0以上且r－1以下的字母字符串的末尾附加了分隔符$。将以标签w起始的后缀的组称作“w块”。

所述的“链接”，是从块内的条目向块外的字符串连接。从1个条目(链接源)向1个链接目标字符串设立链接。另外，在块内可能既存在有链接的条目也存在没有链接的条目。另外，由于链接目标字符串以后被新登记到块内的条目中，所以将链接目标字符串也可以称作目前对于块的“未登记字符串”。

在1个块上带有1个标签。例如，图8的$块412，是标签为“$”的块。这样，将块用矩形表示，在该块的左侧表示标签，在该块的右侧表示链接目标字符串。例如，从$块412的第1个条目“A”链接着“AATT”(链接目标字符串413)。

图4是表示字符串辞典112的构建处理(S231)的详细情况的流程图。

作为S301，多核CPU101以正整数参数r为输入，对于长度r以下的各标签，在存储器102上制作空块。

作为S302，多核CPU101作为处理S而将新的字符串数据111一条条地经由NIF104输入，将该输入字符串的末尾字符登记到$块中，将输入字符串的其余的字符串链接到其末尾字符。输入字符串的末尾字符也可以说是长度0的后缀(空字符串ε)。

作为S311，多核CPU101将参数m设置为0。

作为S312，多核CPU101对于长度m的全部的字母字符串w，并行地执行图5的处理P(w)。

作为S313，多核CPU101将m的值增加1。

作为S314，多核CPU101判定是否为m<r。在S314中如果为是，则向S312返回，如果为否，则向S321前进。

作为S321，多核CPU101判定是否留有从块内的条目链接的未登记字符串。在S321中如果为是则向S322前进，如果为否则向S331前进。

作为S322，多核CPU101对于长度r－1的全部的字母字符串w，并行地执行图6的处理Q(w)。

作为S331，多核CPU101制作将各块内的登记的条目字符连结而成的每个块的连结字符串。

作为S332，多核CPU101制作将S331的连结字符串以块的标签顺序连结为1条的输出字符串，将该输出字符串作为字符串辞典112向HDD103输出。

图5是表示从S312调用的处理P(w)及处理I(c)的详细情况的流程图。

首先，对处理P(w)进行说明。

作为S351，多核CPU101将指针H复位至w$块开头。

作为S352，多核CPU101对于全部的字母字符c进行处理I(c)。

作为S361，多核CPU101将指针H的参照目标的登记字符设为c，将从该登记字符c链接的字符串(未登记字符串)设为u。

作为S362，多核CPU101判定是否存在S361的字符串u。在S362中如果为是则向S363前进，如果为否则向S371前进。

作为S363，多核CPU101将u的末尾字符设为d，将从u去除了末尾字符d后的其余的字符串设为v。

作为S364，多核CPU101将d插入到指针K(c)的位置，设立从该插入的d向v的链接。

作为S365，多核CPU101将u及从其c向u的链接删除。

作为S371，多核CPU101将指针K(c)每次1个地向下个条目前进。

作为S372，多核CPU101判定H是否是w$块末尾。在S372中如果为是则将处理P(w)结束，如果为否则向S373前进。

作为S373，多核CPU101将指针H每次1个地向下个条目前进。

接着，对处理I(c)进行说明。

作为S353，多核CPU101判定是否为r<m－1。S353中为是则向S354前进，如果为否则向S355前进。

作为S354，多核CPU101将指针K(c)复位为cw$块开头。

作为S355，多核CPU101将指针K(c)复位为cw块开头。

图6是表示从S322调用的处理Q(w)的详细情况的流程图。

作为S201，多核CPU101向变量a代入字母的最初的字符。例如，如果字母字符是A和T这两种，则向变量a代入“A”。

作为S202，多核CPU101将指针K(a)复位为处理P(w)被写入到aw块内的位置的紧接着之后的位置。

作为S203，多核CPU101将a更新为字母的下个字符。例如，字母字符是A和T这两种，如果在当前的变量a中代入了“A”，则将接着的“T”向变量a代入。

作为S204，多核CPU101判定是否存在能够在S203中代入的a。在S204中如果为是则向S202返回，如果为否则向S211前进。

作为S211，多核CPU101与S201同样，再次将a设为字母的最初的字符。

作为S212，多核CPU101依次执行图7的处理R(w，a)。

作为S213，多核CPU101与S203同样，将a更新为字母的下个字符。

作为S214，多核CPU101与S204同样，判定是否存在能够在S213中代入的a。在S214中如果为是则向S212返回，如果为否则结束处理Q(w)。

图7是表示从S212调用的处理R(w，a)的详细情况的流程图。

作为S220，多核CPU101将指针H复位至wa块开头。

作为S221，多核CPU101将指针H的参照目标的登记字符设为c，将从该c的链接目标字符串设为u。

作为S221b，多核CPU101判定是否存在u。在S221b中如果为是则向S221c前进，如果为否则向S222前进。

作为S221c，多核CPU101判定u是否是空字符串ε。在S221c中如果为是则向S223前进，如果为否则向S224前进。

作为S222，多核CPU101将指针K(c)每次1个地向下个条目前进。

作为S223，多核CPU101将分隔字符$插入到指针K(c)的位置。

作为S224，多核CPU101将u的末尾字符设为d，将从u去除了末尾字符d后的其余的字符串设为v。

作为S225，多核CPU101将d插入到指针K(c)的位置，设立从该d向v的链接。

作为S226，多核CPU101将u及从c向u的链接删除。

作为S227，多核CPU101判定H是否是wa块末尾。在S227中如果为是则结束处理R(w，a)，如果为否则向S228前进。

作为S228，多核CPU101将指针H每次1个地向下个条目前进。

以上，对于在图3～图7的流程图中说明的各处理，通过图8～图12的具体例使其变得清楚。该具体例是构成字符串数据111的字母字符为A和T这两种，r＝2的情况。

在S301(空块生成处理)中，制作$块、A$块、T$块、AA块、AT块、TA块、TT块各自的空块。

图8是表示处理S及处理P(w)的具体例的说明图。

在S302(处理S)中，进行框内400所表示的处理。即，将是空块的$块412通过处理S登记以下的3个条目。另外，在框内411中读入了3行的字符串数据111。

·作为处理S，将框内411的第1行“AATTA”作为$块412的新的A和其链接目标的AATT(标号413)登记。

·作为处理S，将框内411的第2行“ATAAT”作为$块412的新的T和其链接目标的ATAA(标号414)登记。

·作为处理S，将框内411的第3行“TATAT”作为$块412的新的T和其链接目标的TATA(标号415)登记。

如框内420所示，在从S312调用的第1次(m＝0)的处理P(w)中，从$块412的第3条目起分别每次1个字符地向其他的块登记。另外，由于长度m＝0的字符串w仅为空字符串ε，所以在m＝0时仅执行处理P(ε)。

·作为处理P(ε)，将从$块412的A链接的AATT(标号413)作为A$块421的新的T和其链接目标的AAT登记。在其登记后，将$块412的A保留，并将其链接目标的AATT(标号413)和其链接删除。

·作为处理P(ε)，将从$块412的T链接的ATAA(标号414)作为T$块422的新的A和其链接目标的ATA登记。在其登记后，将$块412的T保留，并将其链接目标的ATAA(标号414)和其链接删除。

·作为处理P(ε)，将从$块412的T链接的TATA(标号415)作为T$块422的新的A和其链接目标的TAT登记。在其登记后，将$块412的T保留，并将其链接目标的TATA(标号415)和其链接删除。由此，$块412成为$块481。

另外，与图5的处理P(w)建立对应地来说明，将从$块412的A链接的AATT(标号413)作为A$块421的新的T和其链接目标的AAT登记、在其登记后将$块412的A保留、并将其链接目标的AATT(标号413)和其链接删除的例子。

上述的例子中的作为此次的登记对象的未登记字符串是“AATT(标号413)”。作为向该未登记字符串的链接源的条目所属的登记源块是“$块412”。

在上述的流程图中，在处理P(w)中，将登记源块设为w$块(S351)，将未登记字符串设为字符串u(S361)，将链接源的条目设为处于指针H表示的位置的字符c(S361)而进行了说明。

上述例子中的未登记字符串的登记目标块是“A$块421”。新登记在该登记目标块内的条目“T”是未登记字符串“AATT”的末尾字符。从条目“T”的链接目标的字符串“AAT”是将未登记字符串“AATT”的末尾字符去除后的其余的字符。

在上述的流程图中，在处理P(w)中，将登记目标块设为cw$块(S354)或cw块(S355)，将新登记的条目设为向指针K(c)表示的位置插入的字符d(S363)，将新登记的链接目标的字符串设为字符串v(S363)而进行了说明。

如框内420所示，在从S312调用的第2次(m＝1)的处理P(w)中，作为长度m的字符串w，由于有A和T这两种，所以将处理P(A)和处理P(T)并行地执行。换言之，将处理P(A)处置的块的集合和处理P(T)处置的块的集合作为能够相互独立地执行的部分处理而分组为2个组。

·作为处理P(A)，将从A$块421的T链接的AAT作为TA块433的新的T和其链接目标的AA登记。在其登记后，将A$块421的T保留，并将其链接目标的AAT和其链接删除。由此，A$块421成为仅条目T保留的A$块482。此外，AA块431作为此次的处理P(A)，虽然不符合登记目标块，但由于在下个处理(框内435)中处置，所以在这里为了容易理解而进行了记载。也适当图示了不符合登记目标块的这样的块。

·作为处理P(T)，将从T$块422的A链接的ATA作为AT块432的新的A和其链接目标的AT登记。在其登记后，将T$块422的A保留，并将其链接目标的ATA和其链接删除。

·作为处理P(T)，将从T$块422的A链接的TAT作为AT块432的新的T和其链接目标的TA登记。在其登记后，将T$块422的A保留，并将其链接目标的TAT和其链接删除。

然后，成为m＝r＝2，由于在S314中为否，所以不执行第3次(m＝2)的处理P(w)。

并且，由于TA块433的未登记字符串“AA”等保留，所以在S321中成为是，执行S322。

图9是表示在图8之后执行的处理Q(w)及处理R(w，a)的具体例的说明图。

如框内440所示，在从S322调用的第1次的处理Q(w)中，由于长度r－1的全部的字母字符串有A和T这两种，所以将处理Q(A)和处理Q(T)并行地执行。

在处理Q(A)内的S212中，对于字符a＝A、T，将处理R(A，A)和处理R(A，T)以该顺序依次执行。

表示处理Q(A)的输入组(框内435)和处理Q(A)的输出组(框内437)。

在处理Q(A)的输入组侧，将应依次参照的块集中而分组。在处理Q(A)的输出组侧，将应同时并行地写入的块集中而分组。

·作为处理Q(A)的处理R(A，A)，由于在AA块431中没有具有链接的条目，所以将处理跳过。

·作为处理Q(A)的处理R(A，T)，将从AT块432的A链接的AT作为AA块441的新的T和其链接目标的A登记。在其登记后，将AT块432的A保留，并将其链接目标的AT和其链接删除。

·作为处理Q(A)的处理R(A，T)，将从AT块432的T链接的TA作为TA块443的新的A和其链接目标的T登记。在其登记后，将AT块432的T保留，并将其链接目标的TA和其链接删除。

另外，与图7的R(w，a)建立对应而说明，将从AT块432的A链接的AT作为AA块441的新的T和其链接目标的A登记、在其登记后将AT块432的A保留并将其链接目标的AT和其链接删除的例子。

上述的例子中的作为此次的登记对象的未登记字符串是“AT”。作为向该未登记字符串的链接源的条目所属的登记源块是“AT块432”。

在上述的流程图中，在R(w，a)中，将登记源块设为wa块(S220)，将未登记字符串设为字符串u(S221)，将链接源的条目设为处于指针H表示的位置的字符c(S221)而进行了说明。

上述的例子中的未登记字符串的登记目标块是“AA块441”。被新登记到该登记目标块内的条目“T”是未登记字符串“AT”的末尾字符。从条目“T”的链接目标的字符串“A”是将未登记字符串“AT”的末尾字符去除后的其余的字符。

在上述的流程图中，在R(w，a)中，将登记目标块设为aw块(S202)，将新登记的条目设为向指针K(c)表示的位置插入的字符d(S224)，将新登记的链接目标的字符串设为字符串v(S224)而进行了说明。即，R(w，a)的登记目标块是由cw块构成的组(c是任意的字符)，关于全部的a是共通的，此外，将在S202中被复位后的相同的指针K(c)依次继续利用。结果，将向各cw块的写入以辞典顺序正确地进行。

在处理Q(T)内的S212中，对于字符a＝A，T，将处理R(T，A)和处理R(T，T)以该顺序依次执行。

表示处理Q(T)的输入组(框内436)和处理Q(T)的输出组(框内438)。

·作为处理Q(T)的处理R(T，A)，将从TA块433的T链接的AA作为TT块444的新的A和其链接目标的A登记。在其登记后，将TA块433的T保留，并将其链接目标的AA和其链接删除。

·作为处理Q(T)的处理R(T，T)，由于在TT块434中没有具有链接的条目，所以将处理跳过。

并且，由于AA块441的未登记字符串“A”等保留，所以在S321中成为是，执行S322。

图10是表示在图9之后执行的处理Q(w)及处理R(w，a)的具体例的说明图。

如框内450所示，在第2次的处理Q(w)中，也将处理Q(A)和处理Q(T)并行地执行。

表示处理Q(A)的输入组(框内445)和处理Q(A)的输出组(框内447)。

·作为处理Q(A)的处理R(A，A)，将从AA块441的T链接的A作为TA块453的新的A和其链接目标的ε登记。由指针K(T)指示用于该登记的插入位置439。在其登记后，将AA块441的T保留，并将其链接目标的A和其链接删除。

·作为处理Q(A)的处理R(A，T)，由于在AT块442中没有具有链接的条目，所以将处理跳过。即，将向AA块451内的指针K(A)与向TA块453内的指针K(T)向前推进。

表示处理Q(T)的输入组(框内446)和处理Q(T)的输出组(框内448)。

·作为处理Q(T)的处理R(T，A)，将从TA块443的A链接的T作为AT块452的新的T和其链接目标的ε登记。由指针K(A)指示用于该登记的插入位置459。在其登记后，将TA块443的A保留，并将其链接目标的T和其链接删除。

·作为处理Q(T)的处理R(T，T)，将从TT块444的A链接的A作为AT块452的新的A和其链接目标的ε登记。在其登记后，将TT块444的A保留，并将其链接目标的A和其链接删除。

并且，由于TA块453的未登记字符串“ε”等保留，所以在S321中成为是，执行S322。

图11是表示在图10之后执行的处理Q(w)及处理R(w，a)的具体例的说明图。

如框内460所示，在第3次的处理Q(w)中，也将处理Q(A)和处理Q(T)并行地执行。

表示处理Q(A)的输入组(框内455)和处理Q(A)的输出组(框内457)。

·作为处理Q(A)的处理R(A，A)，由于在AA块451中没有具有链接的条目，所以将处理跳过。即，将向AA块461内的指针K(A)和向TA块463内的指针K(T)向前推进。

·作为处理Q(A)的处理R(A，T)，将从AT块452的T链接的ε作为TA块463的新的$登记。在其登记后，将AT块452的T保留，并将其链接目标的ε和其链接删除。

·作为处理Q(A)的处理R(A，T)，将从AT块452的A链接的ε作为AA块461的新的$登记。在其登记后，将AT块452的A保留，并将其链接目标的ε和其链接删除。

表示处理Q(T)的输入组(框内456)和处理Q(T)的输出组(框内458)。

·作为处理Q(T)的处理R(T，A)，将从TA块453的A链接的ε作为AT块462的新的$登记。在其登记后，将TA块453的A保留，并将其链接目标的ε和其链接删除。

·作为处理Q(T)的处理R(T，T)，由于在TT块454中没有具有链接的条目，所以将处理跳过。即，将向AT块462内的指针K(A)和向TT块464内的指针K(T)向前推进。

由此，由于未登记字符串被全部消除，所以在S321中成为否，执行S331。

图12是表示在图11之后执行的字符串辞典112的输出处理的说明图。

在S331(按照块的连结字符串的制作处理)中，将在以标签顺序排序的各块($块481、A$块482、AA块461、AT块462、T$块483、TA块463、TT块464)中登记的条目以图示的箭头的顺序作为字符串471～477提取。

在S332(字符串辞典112的输出处理)中，如框内490所示，制作将字符串471～477依次连结为1条的输出字符串作为字符串辞典112。

在以上说明的本实施方式中，作为字符串辞典112的构建处理(S231)，字符串数据解析装置1经由NIF104输入、从字符串数据111输入字符串。字符串数据解析装置1将所输入的字符串作为未登记字符串，将其全部的后缀从较短者起依次按照在处理P(w)、处理Q(w)、处理R(w，a)中表示的各次序，依次向空块登记。

这里，所述的将后缀向块登记，是将先行于后缀的字符(其中，在后缀与字符串整体一致的情况下为分隔字符$)向块登记。对于登记在块中的各字符将后续于它的后缀复原的有效率的计算方法是公知的(非专利文献1)。此外，将从未登记字符串去除了后缀的其余的字符串链接到此次登记的后缀并暂时地保持。

在对于全部的字符串的全部的后缀完成了向块的登记处理后，按照在图12中表示的次序，对全部的块制作将登记在其中的字符连结而成的字符串，再将按照块的标签的辞典式顺序把这些字符串连结的字符串辞典112作为BW变换，向HDD103内输出。

另外，在S301中，在HDD103内(或从网络的连接目的地经由NIF104取入而HDD103内)有已制作的字符串辞典112的情况下，也可以代替空块而将制作字符串辞典112时的块的信息装载到存储器上。在此情况下，可以对于已制作的字符串辞典112，将经由NIF104新输入的字符串数据111追加登记。

此外，如在S364、S223、S225中说明那样，当向存储器102上的块每次追加登记新的条目时，需要向作为列表的块的插入处理。所以，作为块的数据构造，既可以采用(在非专利文献4中记载那样的平衡木那样的)动态构造，或者也可以采用(如在专利文献1中记载那样每次再构建列表的拷贝那样的)静态构造。

以下，关于本实施方式的字符串辞典112的构建处理，对其并行计算中的并行度及等待会合等进行补充说明。

在上述的例子中，将字母字符设为A和T这两种，但将字母字符的种类扩展为h种(字符a₁，a₂，…，a_h)。

首先，对处理P(w)的并行度进行说明。

处理P(w)读入的登记源块是w$块，对于各m，如果字符串w不同则相异。

处理P(w)写出的登记目标块，如果m不到r－1，则是a₁w$块，a₂w$块，…，a_hw$块，如果m＝r－1，则是a₁w块，a₂w块，…，a_hw块。在登记目标块中，在任一情况下，若字符串w不同则相互不相容。因而，对于各m，处理P(w)不相互干涉而能够独立并行地执行。

接着，对处理Q(w)的并行度进行说明。

处理Q(w)读入的登记源块是wa₁块，wa₂块，…，wa_h块，如果字符串w不同则相互不相容。

处理Q(w)写出的登记目标块是a₁w块，a₂w块，…，a_hw块，它们也是如果字符串w不同则相互不相容。因而，处理Q(w)不相互干涉而能够独立并行地执行。

接着，对处理R(w，a)的并行度进行说明。

处理R(w，a₁)，R(w，a₂)，…，R(w，a_h)中的登记目标块有h个，它们在a₁w块，a₂w块，…，a_hw块中是共通的。由于它们的登记处理以字母顺序依次地执行，所以向各块的登记处理也以字母顺序正确地进行。

这样，必须遵守顺序而依次执行的处理R(w，a)的数量等于字母的尺寸，且不依存于参数r而为一定。因而，即使增加参数r而使作为并行处理的粒度变细，依次执行的等待会合的长度也被保持为一定，不会发生因等待会合造成的CPU开工率下降。

通过以上，细分化为能够相互独立地进行的部分处理，除了依次执行处理R(w，a₁)，R(w，a₂)，…，R(w，a_h)以外，不需要等待会合，能够避免因等待会合所造成的处理器开工率的下降。

这里，多核CPU101既可以输入正整数参数r的值，也可以基于多核CPU101的CPU核心数量而自动计算。

如在S301中说明那样，当r＝2，字母字符为A和T这两种时，使用7种块($块、A$块、T$块、AA块、AT块、TA块、TT块)。即，通过将计算式“7＝2的3次幂－1”一般化得到的计算式“(块数量)＝((h的(r+1)次幂－1)/(h－1)”，能够求出块数量。并且，多核CPU101例如如(CPU核心数量)×K＝(块数量)，(K例如为表示数十倍的10～90的常数)那样，根据CPU核心数量求出块数量，通过将该块数量代入到上述的一般化的计算式中，能够自动计算参数r。

如果将正整数参数r增加，则块数量以指数函数增大，所以可以设定r的值以使块数量成为CPU核心数量的数十倍左右。此时，如果进行借助多线程的动态负荷分散，则即使发生处理P(w)或处理Q(w)的计算时间的偏差，也能够使核心间的计算负荷均等化，能够实现有效地使用了全部的核心的有效率的高速化。

例如，能够独立地并行执行的处理Q(w)的数量相当于长度r－1的字符串w的数量。如果设字母的尺寸为h，则该数量等于h的r－1次幂。因而，即使是如DNA排列数据那样h＝4的情况，也能够选择r以使处理Q(w)的数量成为可利用的CPU核心数量的数十倍左右。

由此，能够提供细分化为CPU核心数量的数十倍左右的部分处理的方法，此外提供避免因部分处理彼此的等待会合所造成的处理器开工率的下降的方法。

另外，本发明并不限定于上述的实施例，而包含各种的变形例。例如，上述的实施例是为了容易理解本发明而进行了详细地说明，并不限定于一定具备所说明的全部的结构。

此外，可以将某个实施例的结构的一部分替换为其他实施例的结构，此外，也可以对某个实施例的结构添加其他实施例的结构。

此外，关于各实施例的结构的一部分，能够进行其他结构的追加、删除、替换。此外，上述的各结构、功能、处理部、处理机构等也可以通过将它们的一部分或全部例如用集成电路设计等而由硬件实现。

此外，上述的各结构、功能等也可以通过处理器将实现各个功能的程序解释并执行而由软件实现。

实现各功能的程序、表格、文件等的信息可以放置到存储器或硬盘、SSD(SolidState Drive)等的记录装置、或者IC(Integrated Circuit)卡、SD卡、DVD(DigitalVersatile Disc)等的记录介质中。

此外，控制线及信息线表示在说明上被认为所需要的，并不一定表示全部的控制线及信息线。实际上可以考虑几乎全部的结构被相互连接。

标号说明

1字符串数据解析装置；101多核CPU；102存储器；103HDD；104NIF；105输入部；106显示/输出部；107总线；111字符串数据；112字符串辞典；121查询字符串；122检索结果；501患者；502DNA样本；503DNA测序器；504DNA排列数据；505DNA排列辞典；521解析指示；522解析结果；511基因面板；512数据库。

Claims

1.一种字符串辞典的构建方法，其特征在于，

由字符串数据解析装置执行，该字符串数据解析装置具备：由多个CPU核心构成的多核CPU；以及存储器；

上述字符串辞典的构建方法，关于上述存储器上所展开的、划分字符串辞典而得到的多个块，对于各块分别赋予不同的标签，标签由构成字符串数据的字母与分隔字符以1字符以上而构成；

上述多核CPU，

关于被输入的各个上述字符串数据，对于被赋予了分隔字符的标签的块，将上述字符串数据的末尾字符作为块的条目进行登记，将上述字符串数据的剩余的字符串作为未登记字符串而针对该末尾字符建立对应；

关于条目登记处理，对于能够相互独立地执行的块的组并行地执行，上述条目登记处理将上述未登记字符串与各块之中的条目建立了对应的登记源块读入，对于根据上述登记源块的标签及条目所确定的登记目标块，将上述登记源块的上述未登记字符串的末尾字符作为新的条目登记于上述登记目标块中，将上述未登记字符串的剩余的字符串作为新的未登记字符串而针对该新的条目建立对应；

在没有了各块的上述未登记字符串的状态下，关于登记在各块的条目中的字符串，将以块的标签所示的字母及分隔字符的顺序连结而成的字符串作为登记了上述字符串数据的上述字符串辞典的BW变换数据即伯罗斯-惠勒变换数据而输出。

2.如权利要求1所述的字符串辞典的构建方法，其特征在于，

上述多核CPU基于构成上述多核CPU的核心数量，计算用来决定在上述存储器上所展开的块的数量的各块的标签的长度。

3.如权利要求1所述的字符串辞典的构建方法，其特征在于，

上述多核CPU，作为上述条目登记处理，将依次读入的上述登记源块的组、和同时并行地写入的上述登记目标块的组分别进行分组，在上述登记源块的组间并行地执行上述登记源块的读入处理，在上述登记源块的组内依次地执行上述登记源块的读入处理。

4.一种字符串辞典的检索方法，其特征在于，

由检索装置执行，该检索装置具有：存储机构，存储通过权利要求1～3中任一项所述的字符串辞典的构建方法所构建的上述字符串辞典；以及控制机构；

上述控制机构，

经由输入机构受理查询字符串的输入；

检索上述字符串辞典中所登记的上述字符串数据中的上述查询字符串的出现次数；

经由输出机构，将检索到的出现次数输出。

5.如权利要求4所述的字符串辞典的检索方法，其特征在于，

上述字符串辞典是将每个患者的DNA样本用DNA测序器解析的结果的DNA排列数据作为上述字符串数据而登记的DNA排列辞典；

上述输入机构受理预先被设定为基因面板的有变异的DNA排列数据作为上述查询字符串；

上述控制机构通过检索上述字符串辞典中所登记的上述字符串数据中的上述查询字符串的出现次数，解析在上述患者的DNA排列数据中是否发生了变异；

经由上述输出机构，输出出现的有变异的DNA排列数据、和相对于该DNA排列数据通过上述基因面板建立了对应的附带信息。

6.一种字符串辞典的处理系统，其特征在于，

被构成为包括：

执行如权利要求1所述的字符串辞典的构建方法的上述字符串数据解析装置；

执行如权利要求5所述的字符串辞典的检索方法的上述检索装置；以及

上述DNA测序器，在如权利要求5所述的字符串辞典的检索方法中，解析上述每个患者的DNA样本，将其解析结果作为DNA排列数据输出。