EA015925B1 - Способ получения полипептидов - Google Patents
Способ получения полипептидов Download PDFInfo
- Publication number
- EA015925B1 EA015925B1 EA200900096A EA200900096A EA015925B1 EA 015925 B1 EA015925 B1 EA 015925B1 EA 200900096 A EA200900096 A EA 200900096A EA 200900096 A EA200900096 A EA 200900096A EA 015925 B1 EA015925 B1 EA 015925B1
- Authority
- EA
- Eurasian Patent Office
- Prior art keywords
- codons
- codon
- pairs
- sequence
- given
- Prior art date
Links
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/63—Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
- C12N15/67—General methods for enhancing the expression
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/63—Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
- C12N15/79—Vectors or expression systems specially adapted for eukaryotic hosts
- C12N15/80—Vectors or expression systems specially adapted for eukaryotic hosts for fungi
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/63—Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
- C12N15/79—Vectors or expression systems specially adapted for eukaryotic hosts
- C12N15/80—Vectors or expression systems specially adapted for eukaryotic hosts for fungi
- C12N15/81—Vectors or expression systems specially adapted for eukaryotic hosts for fungi for yeasts
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N9/00—Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
- C12N9/14—Hydrolases (3)
- C12N9/24—Hydrolases (3) acting on glycosyl compounds (3.2)
- C12N9/2402—Hydrolases (3) acting on glycosyl compounds (3.2) hydrolysing O- and S- glycosyl compounds (3.2.1)
- C12N9/2405—Glucanases
- C12N9/2408—Glucanases acting on alpha -1,4-glucosidic bonds
- C12N9/2411—Amylases
- C12N9/2414—Alpha-amylase (3.2.1.1.)
- C12N9/2417—Alpha-amylase (3.2.1.1.) from microbiological source
- C12N9/242—Fungal source
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N9/00—Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
- C12N9/90—Isomerases (5.)
- C12N9/92—Glucose isomerase (5.3.1.5; 5.3.1.9; 5.3.1.18)
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N2800/00—Nucleic acids vectors
- C12N2800/22—Vectors comprising a coding region that has been codon optimised for expression in a respective host
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Genetics & Genomics (AREA)
- Engineering & Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Zoology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Organic Chemistry (AREA)
- Wood Science & Technology (AREA)
- Biotechnology (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Microbiology (AREA)
- Biochemistry (AREA)
- General Health & Medical Sciences (AREA)
- Mycology (AREA)
- Plant Pathology (AREA)
- Physics & Mathematics (AREA)
- Biophysics (AREA)
- Medicinal Chemistry (AREA)
- Micro-Organisms Or Cultivation Processes Thereof (AREA)
- Preparation Of Compounds By Using Micro-Organisms (AREA)
Abstract
Настоящее изобретение касается способов оптимизации кодирующих белки последовательностей для экспрессии в заданных клетках хозяина. В этих способах для оптимизации последовательностей, кодирующих заданную аминокислотную последовательность, по пригодности отдельных кодонов и/или по пригодности пар кодонов применяются генетические алгоритмы. При создании новых вариантов последовательностей и последующем отборе наилучших вариантов алгоритм выполняет итерацию до тех пор, пока варианты кодирующих последовательностей не достигнут минимального значения пригодности отдельных кодонов и/или пригодности пар кодонов. Изобретение также касается компьютера, включающего процессор и запоминающее устройство (память), причем компьютер настроен на чтение из памяти и запись в неё, при этом память включает данные и инструкции, предназначенные для придания процессору способности к выполнению генетических алгоритмов для оптимизации пригодности отдельных кодонов и/или пригодности пар кодонов. Изобретение также касается нуклеиновых кислот, содержащих кодирующую последовательность для заданной аминокислотной последовательности, причем кодирующая последовательность оптимизирована по пригодности отдельных кодонов и/или по пригодности пар кодонов для данного хозяина способами изобретения, а также клеток хозяина, содержащих такие нуклеиновые кислоты, и способов получения полипептидов и других продуктов ферментации, в которых применяются эти клетки хозяина.
Description
Настоящее изобретение касается способа получения полипептидов в клетках хозяина, при котором нуклеотидные последовательности, кодирующие полипептид, подвергаются модификации в отношении употребительности кодонов, в частности того, какие употребляются пары кодонов с тем, чтобы улучшить экспрессию нуклеотидной последовательности, кодирующей полипептид, и/или улучшить продукцию полипептида.
Предшествующий уровень техники
Настоящее изобретение касается усовершенствованных способов получения полипептидов. При создании штаммов для суперэкспрессии и/или продукции полипептидов применялись разнообразные подходы, в том числе и создание штаммов с множественными копиями гена, кодирующего искомый белок, и применение сильных последовательностей промоторов.
Каждая конкретная аминокислота кодируется как минимум одним кодоном и максимум шестью кодонами. Предшествующие исследования показали, что в генах, кодирующих клеточные полипептиды, употребительность кодонов смещается между разными видами (Катауа 8., Υ. Уашаба, Υ. К ибо апб Т. 1кетига (1999), 8!иб1ек οί собоп икаде апб ίΒΝΆ депек а! 18 ишсе11и1аг огдашктк апб с.|иапППс;Шоп οί ВасШик киЬййк ΐΒΝΑκ: депе ехргеккюп 1еуе1 апб крес1ек-крес1Пс бкеткйу οί собоп икаде Ьакеб оп ти1!1уат1а!е апа1ук1к. Сепе. 238: 143-155). В предшествующих публикациях изложена оптимизация употребления кодонов в определенных клетках для улучшения продукции полипептидов (для примера см. \νϋ 97/11086). В частности, в νθ 03/70957 описана оптимизация употребления кодонов у нитчатых грибов для получения растительных полипептидов. Во всех этих случаях классической оптимизации кодонов исходный кодон заменяется самым частым кодоном из стандартного набора генов, при этом считается, что скорость трансляции кодонов для каждой аминокислоты будет высокой (оптимальной).
Совсем недавно в νθ 03/85114 описана гармонизация употребления кодонов, при которой учитывается распределение всех кодонов в генах организма хозяина, полагая, что это влияет на укладку белков.
В последние годы доступность полностью расшифрованных геномов многих организмов, например ВасШик киЫШк (Кипк! е! а1., 1997), ВасШик ату1ο1^^иеίас^епк, АкретдШик шдет (Ре1 е! а1., 2007, №1. Вю1ес11. 25: 221-231), К1иууетошусек 1асйк, 8ассйатошусек сетеу1к1ае (ййр://тетете.уеак!депоте.отд/), геномов различных растений, мыши, крысы и человека, дает возможность анализировать различные аспекты последовательностей самих генов в отношении их естественного уровня экспрессии (уровня мРНК или белка). Хорошим примером является анализ употребительности (смещенности) кодонов и последующая оптимизация их на уровне отдельных кодонов. Отметим, что под оптимизацией на уровне отдельных кодонов в настоящем изобретении понимаются такие методы оптимизации кодонов или гармонизации кодонов, которые сосредоточены на оптимизации кодонов как отдельных независимых единиц, в отличие от оптимизации на уровне пар кодонов, что является темой настоящего изобретения.
В то время как употребительность (смещенность) отдельных кодонов до этого уже широко изучалась (см. обзор СикРйккоп е! а1., 2004, Тгепбк Вю!есйпо1. 22: 346-353), существует лишь несколько работ по употребительности пар кодонов и по оптимизации пар кодонов.
Так, исследовали эффект нескольких специфических пар кодонов на рибосомные сдвиги рамки считывания у Е.со11 в отношении пары АСС-АСС (8рап)аагб апб уап Энш. 1988, Ргос. №11. Асаб. 8а. И8А, 85: 7967-7971; Сшуюй е! а1., 2005, 1. Вас!епо1. 187: 4023-432) и сайтов υυυ-ΥΝΝ (8с11\\аг/ апб Сиггап, 1997, №с1ею Аабк Век. 25: 2005-2011).
Си!тап апб НаШе1б (1989, Ргос. №11. Асаб. 8а. и8А. 86: 3699-3703) проанализировали большой набор последовательностей по всем возможным парам кодонов у Е.сой и обнаружили, что пары кодонов смещены направленно. Кроме того, они отмечали, что в генах с высокой экспрессией очень слабо представленные пары употребляются почти в два раза чаще, чем сильно представленные пары, тогда как в генах с низкой экспрессией чаще употребляются сильно представленные пары. В и8 5082767 (НаЙле1б апб Си!тап, 1992) изложен способ определения относительной предпочтительности естественных пар кодонов у организма и изменения сочетаний пар кодонов у представляющего интерес гена в соответствии с этими предпочтениями для изменения кинетики трансляции данного гена определенным образом, на примере Е.со11 и 8.сетеу1к1ае. Однако в методе НаЙте1б апб Си!тап подвергаются оптимизации только индивидуальные пары соседних кодонов. Более того, в их патенте (υ8 5082767) утверждается, что кинетика трансляции как минимум части гена повышается при такой модификации последовательности, при которой пары кодонов меняются таким образом, чтобы повысилось количество тех пар кодонов, которые, по сравнению со случайным употреблением пар кодонов, у организма встречаются чаще, но представлены слабее. В настоящем изобретении изложен способ повышения трансляции при такой модификации последовательности, при которой пары кодонов меняются таким образом, чтобы повысилось количество тех пар кодонов, которые, по сравнению со случайным употреблением пар кодонов, у организма представлены в большей степени.
- 1 015925
Моига с1 а1. (2005, Се по те Вю1о§у. 6: В28) проанализировали весь ОВЕ-геном 8.сетеу181ае, но не обнаружили статистически значимой смещенности примерно у 47% пар кодонов. Соответствующие значения отличались от одного вида к другому, образуя карты контекста кодонов, которые можно рассматривать как видоспецифические отпечатки употребительности пар кодонов.
ВоусНеуа е1 а1. (2003, ВютГогтаЕск 19(8): 987-998) идентифицировали у Е.соН две группы пар кодонов, названные гипотетически (взаимно) ослабляющими и гипотетически неослабляющими, при поиске сильно и слабо представленных пар кодонов среди генов с высоким и низким уровнем экспрессии. Однако они не предложили способа применения этих результатов и не представили экспериментального обоснования своей гипотезы. Отметим, что эти группы определяются полностью противоположно тому, как они были определены СШтап апй На(Пе1й (1989, 1992, кирга), предположившими неослабляющий эффект у очень слабо представленных пар в генах с высоким уровнем экспрессии.
ВисНап. Лисой апй 81апГ1е1й (2006, ШсЫс Лайк ВекеагсН. 34(3): 1015-1027) анализировали свойства тРНК в связи со смещенностью пар кодонов.
Что касается последствий смещенности при употреблении пар кодонов, то Ιτ^νίπ е1 а1. (1995, 1. Вю1. СНет. 270: 22801-22806) показали, что на самом деле скорость синтеза у Е.со11 существенно снижается при замене очень слабо представленной пары кодонов на очень сильно представленную пару и повышается при замене менее слабо представленной пары кодонов на более слабо представленную пару. Это весьма примечательно, так как оно противоречит тому, что можно ожидать с учетом влияния смещенности отдельных кодонов на уровень белков.
Однако ни в одной из вышеприведенных работ не сказано, как оптимизировать употребительность пар кодонов в полномерной нуклеотидной последовательности с учетом того, что по определению пары кодонов перекрываются, поэтому оптимизация каждой отдельной пары кодонов влияет на смещенность прилегающих спереди и сзади пар кодонов. Более того, ни в одной из приведенных работ не описан способ, в котором сочеталась бы оптимизация как отдельных кодонов, так и пар кодонов. Оптимизация пар кодонов с учетом перекрывания пар кодонов и необязательно сочетание оптимизации пар кодонов с оптимизацией отдельных кодонов должны сильно улучшить экспрессирование нуклеотидной последовательности, кодирующей искомый полипептид, и/или улучшить продукцию этого полипептида.
Таким образом, в данной области все еще существует потребность в новых способах оптимизации кодирующих последовательностей для улучшения продукции полипептидов в клетках хозяина.
Сущность изобретения
Целью настоящего изобретения является получение способа оптимизации кодирующих последовательностей для эффективной транскрипции генов и трансляции белков. С этой целью в изобретении представлен способ оптимизации нуклеотидной последовательности, кодирующей заданную аминокислотную последовательность, при этом кодирующая последовательность подвергается оптимизации для экспрессирования в заданных клетках хозяина, а способ включает: (а) создание по меньшей мере одной исходной кодирующей последовательности, кодирующей заданную аминокислотную последовательность; (Ь) создание по меньшей мере одной новой кодирующей последовательности из этой по меньшей мере одной исходной кодирующей последовательности путем замены в ней одного или нескольких кодонов на синонимический кодон; (с) определение значения пригодности данной по меньшей мере одной исходной кодирующей последовательности и значения пригодности данной по меньшей мере одной новосозданной кодирующей последовательности с помощью функции пригодности, определяющей пригодность отдельных кодонов и/или пригодность пар кодонов для заданных клеток хозяина; (й) выбор одной или нескольких кодирующих последовательностей, отобранных из данной по меньшей мере одной исходной кодирующей последовательности и данной по меньшей мере одной новосозданной кодирующей последовательности в соответствии с заданным критерием отбора, при котором чем больше значение пригодности, тем больше шансов быть выбранной; и (е) повторение операций (Ь)-(й) с тем, что данная одна или несколько отобранных кодирующих последовательностей рассматриваются как одна или несколько исходных кодирующих последовательностей при операциях (Ь)-(й) до тех пор, пока не будет выполняться заданный критерий прекращения итерации.
В воплощениях изобретения предусматриваются такие аспекты, как употребительность отдельных кодонов, гармонизация кодонов, употребление динуклеотидов и все, что связано со смещенностью пар кодонов. Способ может выполняться компьютерной программой, установленной на компьютере, в котором используется математический алгоритм для анализа и оптимизации последовательностей, который может работать в МАТЬЛВ (1Шр://\у\у\у.та111\уогк8.сот/).
Наряду с положительной оптимизацией кодонов (например, для модулирования экспрессии генов и продукции белков положительным образом), изобретением также предусмотрен способ приспособления кодонов в направлении плохих пар кодонов (т.е. оптимизации пар кодонов отрицательным образом). Последний способ полезен в целях контроля, а также для отрицательного модулирования экспрессии генов.
- 2 015925
Краткое описание чертежей
Далее настоящее изобретение будет раскрыто с привлечением нескольких фигур, которые предназначаются лишь для иллюстрации изобретения, а не для ограничения его рамок, которые определяются прилагаемой формулой изобретения и ее эквивалентами.
На фиг. 1 представлена компьютерная система, на которой может выполняться способ изобретения.
На фиг. 2 представлена блок-схема воплощения изобретения.
На фиг. 3 представлено распределение значений смещенности пар кодонов по 3721 парам смысловых кодонов у различных организмов. Цифры в правом верхнем углу гистограмм представляют стандартное отклонение для наблюдаемого распределения; средние значения (не приведены) колеблются от -0,06 до -0,01 у всех организмов.
На фиг. 4 представлены корреляции по смещенности пар кодонов у различных организмов. Коэффициенты корреляции приведены в правом верхнем углу каждого из отдельных графиков.
На фиг. 5 представлена карта смещенности кодонов у Л.пщсг. Значения смещенности колеблются от -0,67 до 0,54, тогда как у других организмов они могут даже слегка превышать ±0,9 (см. также фиг. 3). Наиболее интенсивным черным цветом на этих диаграммах представлены значения, равные 0,9 (на фиг. 5А и 5С приведены положительные значения, в оригинале зеленый цвет) и -0,9 (на фиг. 5В и 5Ό приведены отрицательные значения, в оригинале красный цвет). На фиг. 5А и 5В строки и столбцы упорядочены по кодонам в алфавитном порядке. На фиг. 5С и 5Ό строки упорядочены в алфавитном порядке по нуклеотидам в третьем положении в качестве первого критерия упорядочения, по нуклеотидам в среднем положении в качестве второго критерия и по нуклеотидам в первом положении в качестве третьего критерия упорядочения.
На фиг. 6 представлена карта смещенности кодонов у В.киЫШк. Значения смещенности колеблются от -0,97 до 0,87, тогда как у других организмов они могут даже слегка превышать ±0,9 (см. также фиг. 3). Наиболее интенсивным черным цветом на этих диаграммах представлены значения, равные 0,9 (на фиг. 6А приведены положительные значения, в оригинале зеленый цвет) и -0,9 (на фиг. 6В приведены отрицательные значения, в оригинале красный цвет).
На фиг. 7 представлена карта смещенности кодонов у Ε.εοίί. Значения смещенности колеблются от -0,97 до 0,85, тогда как у других организмов они могут даже слегка превышать ±0,9 (см. также фиг. 3). Наиболее интенсивным черным цветом на этих диаграммах представлены значения, равные 0,9 (на фиг. 7А приведены положительные значения, в оригинале зеленый цвет) и -0,9 (на фиг. 7В приведены отрицательные значения, в оригинале красный цвет).
На фиг. 8 представлена карта смещенности кодонов по 479 генам с высоким уровнем транскрипции у Л.шдег, аналогично предыдущим фиг. 5-7. Наиболее интенсивным черным цветом на этих диаграммах представлены значения, равные 0,9 (на фиг. 8А приведены положительные значения, в оригинале зеленый цвет) и -0,9 (на фиг. 8В приведены отрицательные значения, в оригинале красный цвет). Максимальное значение смещенности в этой группе равно 0,91, а минимальное равно -1, т.е. некоторые возможные пары кодонов не встречаются совсем, хотя их индивидуальные кодоны и кодируемые ими пары аминокислот имеются. Это может быть результатом меньшего размера в 188067 пар кодонов по сравнению с 5885942 в полном геноме. Однако главной причиной является реальная меньшая представительность таких пар вследствие селекции в генах с высоким уровнем экспрессии.
На фиг. 9 представлен график рассеяния смещенности в группе из 479 генов с высоким уровнем экспрессии (по вертикальной оси) в сравнении со смещенностью во всех генах (по горизонтальной оси) у А.шдег. Представлены все пары кодонов (3721), не считая стоп-кодонов. Цвета от светло-серого до черного присваивали в соответствии с абсолютными значениями ζ-показателя во всем геноме, т.е. светлые точки на графике не обладают значимой смещенностью во всех генах, а размеры соответствуют абсолютным значениям ζ-показателя в группе с высоким уровнем экспрессии, т.е. очень маленькие точки не обладают значимой смещенностью (при этом ^-показатель|<1,9). Сплошная черная линия показывает, когда оба значения смещенности равны; а пунктирная линия представляет наилучшую линейную аппроксимацию фактической корреляции (методом анализа основной компоненты), её наклон примерно равен 2,1.
На фиг. 10 представлены значения пригодности у 4584 генов А.шдег в сравнении с логарифмом их уровня транскрипции. Коэффициент корреляции равен -0,62.
На фиг. 11 представлена оптимизация отдельных кодонов в сравнении с оптимизацией пар кодонов. Дикий тип (Гй8С(дриА)=0,165, Гйср(дриА)=0,033) не попадает на этот график (он должен находиться справа и выше). Ясно, что параметр ср1 задает компромисс между пригодностью отдельных кодонов и пригодностью пар кодонов. Оптимальным всегда является ген с наименьшими значениями Гфс и й!ср. Судя по положению точек, не совсем ясно, при каких значениях ср1 можно получить самый лучший ген, так как еще не знаем, что более важно - употребительность отдельных кодонов или употребительность пар кодонов. Тем не менее, примеры дают убедительное свидетельство того, что пригодность пар кодонов очень важна в дополнение к пригодности отдельных кодонов, а это значит, что ср1 должно быть по меньшей мере >0.
- 3 015925
На фиг. 12 представлены две диаграммы, показывающие добротность последовательности первых 20 (из 499) кодонов вышеупомянутой грибковой α-амилазы (ЕИА) (см. также пример 2). Черными точками обозначены желательные доли кодонов, а крестиками представлены фактические значения (в целом гене), соединенные пунктиром. При этом пригодность отдельных кодонов можно интерпретировать как среднее значение длины этих пунктиров (отметим, что у тех кодонов, у которых желательные и фактические доли равны, к примеру у ТОО (у которого нет синонимичных кодонов) в положении 4 и 5, эта длина равна 0; также отметим, что длина не может быть отрицательной). Черными столбиками, в свою очередь, представлены веса пар, образованных двумя соседними кодонами. Черными точками (посредине, под столбиками) обозначен минимальный вес любой пары кодонов, кодирующей один и тот же дипептид. При этом пригодность пар кодонов составляет среднее значение высоты этих столбиков (отметим, что при этом высота может быть и отрицательной).
На фиг. 13 представлена сходимость Йсоты при использовании описанного в изобретении подхода на основе генетического алгоритма для оптимизации гена атуВ, при этом получается 8Е0 ΙΌ N0: 6.
На фиг. 14 представлена, с целью объяснения, часть диаграммы распределения отдельных кодонов типа одной из тех, что приведены, к примеру, на фиг. 15. На двух гистограммах представлена употребительность кодонов для двух синонимичных кодонов, кодирующих фенилаланин: ϋϋϋ (наверху) и ϋϋΟ (внизу). Оси X и Υ на обеих гистограммах простираются от 0 до 100%. Серая гистограмма представляет собой нормализованную гистограмму употребительности кодонов по каждой аминокислоте (группе синонимичных кодонов) для группы из 250 генов А.шдет с высоким уровнем экспрессии, причем гены разбиты на группы, охватывающие 0%, от >0 до <10%, от 10 до <20%, ..., от 90 до <100% и 100%. Например, 50% генов с высоким уровнем экспрессии попадают в группу с 0% употребительности кодона ϋϋϋ и соответственно 100% употребительности кодона ИИС при кодировании фенилаланина. Белым столбиком представлена употребительность кодонов гена А (в данном случае атуВ дикого типа) в таком же разбиении, как на гистограмме: так, у гена А 100% приходится на группу 20-30% ϋϋϋ (при 20% 3/15 кодонов представлены иии) и соответственно 100% приходится на группу 80-<90% ИИС (при 80% 12/15 кодонов представлены ИИС). Черным столбиком представлена статистика для гена В (в данном случае оптимизированного по отдельным кодонам варианта атуВ).
Аналогичным образом можно создать матрицу из 16x4 диаграмм, представляющих статистику для всех 64 кодонов, например, см. фиг. 15.
На фиг. 15 (1 и 2 части) представлена частотность употребления отдельных кодонов у оптимизированного по отдельным кодонам гена атуВ (черные столбики) в сравнении с геном атуВ дикого типа (белые столбики). Серая гистограмма отражает статистику для 250 генов Л.пщег с высоким уровнем экспрессии. Видно, что некоторые кодоны, как-то кодоны, кодирующие цистеин (ϋΟϋ/иОС), гистидин (САи/САС), тирозин (ИАи/иАС) и другие, действительно подверглись улучшению.
На фиг. 16 (1 и 2 части) представлена частотность употребления отдельных кодонов у оптимизированного как по отдельным кодонам, так и парам кодонов гена атуВ (черные столбики) в сравнении с геном атуВ дикого типа (белые столбики). Серая гистограмма отражает статистику для 250 генов А.шдет с высоким уровнем экспрессии. Видно, что эти гистограммы сильно напоминают ситуацию при оптимизации гена по отдельным кодонам, приведенную на фиг. 15.
На фиг. 17 представлена часть полной диаграммы (фиг. 18) со статистикой по отдельным кодонам и парам кодонов для гена атуВ дикого типа А.шдет. На оси X представлены последовательные кодоны в гене, начиная со старт-кодона АТС в положении 1. Черными точками обозначены заданные доли отдельных кодонов для кодона в этом положении относительно синонимичного ему кодона. Для АТС это равно 1,0 (100%). Крестиками обозначены фактические доли кодонов в приведенном гене; пунктиром представлена разность между заданными и фактическими долями. Значения веса пар кодонов находятся между -1 и 1. Столбиками обозначен фактический вес пары смежных кодонов, а звездочками обозначен вес оптимальной достижимой синонимичной пары кодонов (не учитывая соседние пары). Например, первый столбик равен -0,23, что соответствует весу пары АТО-ОТС, а второй равен 0,66, что соответствует весу пары ОТС-ОСО.
На фиг. 18 представлена статистика по отдельным (атуВ дикого типа).
На фиг. 19 представлена статистика по отдельным (оптимизированного по отдельным кодонам атуВ).
На фиг. 20 представлена статистика по отдельным (оптимизированного по отдельным кодонам и парам кодонов атуВ).
На фиг. 21 представлена плазмидная карта экспрессионного вектора рОВЕЮТиА-1. Фиг. 21 кодонам кодонам кодонам парам парам парам кодонов кодонов кодонов для для для
8Ер
8Ер
8Ер
ΙΌ
ΙΌ
ΙΌ
N0:
N0:
N0:
также служит репрезентативной картой плазмид рОВЕЮТиА-2 и р6ВЕЮТиА-3. Все клоны происходят из экспрессионного вектора ρΟΒΕΙΝ-12 (описанного в \У0 99/32617). Обозначены фланкирующие участки д1аА относительно различных последовательностей промотора атуВ и последовательности кДНК атуВ А.шдет, кодирующей α-амилазу. ДНК Е.сой может быть удалена при расщеплении рестрикционным ферментом ΝοΐΙ перед трансформацией штаммов А.шдет.
- 4 015925
На фиг. 22 представлена схема встраивания посредством однократной гомологической рекомбинации. Экспрессионный вектор содержит селекционный маркер атй8 и промотор д1аА, соединенный с геном атуВ. Эти элементы фланкированы гомологичными участками локуса д1аА (3'-д1аА и 3''-д1аА соответственно) для прямого встраивания в геномный локус д1аА.
На фиг. 23 представлена α-амилазная активность в культуральной жидкости от штаммов А.шдег при экспрессии трех разных конструкций. Представлена α-амилазная активность в культуральной жидкости штаммов А.шдег при экспрессии конструкции с нативным геном атуВ, в которой: (1) модифицированы последовательности инициации трансляции и терминации трансляции (рСВРЮТиА-1); (2) модифицированы последовательности инициации трансляции и терминации трансляции и употребительность отдельных кодонов (рСВРЮТиА-2) и модифицированы последовательности инициации трансляции и терминации трансляции и употребительность отдельных кодонов и пар кодонов (рСВРЮТИА-З) в соответствии со способом изобретения. α-Амилазная активность представлена в относительных единицах [ЛИ], принимая за 100% среднее значение из 6 штаммов с одной копией гена из группы РИА1 в 10 штаммов на 4-й день. Из каждой указанной группы независимо выделяли и культивировали 10 трансформантов.
На фиг. 24 (А и В) представлена частотность употребления отдельных кодонов при оптимизации по отдельным кодонам у ВаеШик киЬййк. Объяснение частей диаграмм приведено при фиг. 14. Серая гистограмма представляет распределение кодонов у 50 генов В.киЫШк с наиболее высоким уровнем экспрессии, см. текст. Черными столбиками представлена заданная частотность отдельных кодонов.
На фиг. 25 представлена статистика по отдельным кодонам и парам кодонов для 8ЕО ΙΌ N0: 14 (1/3), 8ЕО ΙΌ N0: 17 (2/3) и 8Е0 ΙΌ N0: 14 (3/3), причем последовательности оптимизированы по парам кодонов + отдельным кодонам (1/3), по отдельным кодонам (2/3) и по отрицательной оптимизации пар кодонов + отдельным кодонам (3/3) соответственно, см. объяснения диаграмм для фиг. 17.
На фиг. 26 представлен челночный вектор рВНА-12 для Е.еой/ВаеШик. Приведены сайты множественного клонирования (МС8) 1 и 2.
На фиг. 27 представлен пример клонирования гена в челночном векторе рВНА-12 для Е.еой/ВаеШик. Представлены клонируемые части А и В (серые стрелки) 8Е0 ΙΌ N0: 9. Приведены сайты для клонирования на участке 1А: Ше1 и ВатН1; на участке 1В: 8та1 и ΚρηΙ. Область Е.еой вырезали с помощью РуиП.
Раскрытие сущности изобретения
Наряду со смещенностью отдельных кодонов, на экспрессию белков могут влиять и другие структуры в нуклеотидной последовательности, например динуклеотиды или повторы определенньгх коротких последовательностей нуклеотидов (употребительность кодонов в конечном счете можно интерпретировать как некий шаблон в последовательности тринуклеотидов в одной рамке считывания). В настоящей работе представлен способ выявления предпочтительности определенных пар кодонов, т. е. либо кодоны появляются в генах так, как если бы они отбирались согласно установленной частотности употребления кодонов, а затем распределялись по гену случайным образом (относительно аминокислотной последовательности), либо некоторые кодоны чаще встречались рядом с определенными кодонами и реже рядом с другими кодонами.
пара I I
пара 4 лара ...пара
Анализ пар кодонов также охватывает и другие аспекты, а именно употребительность динуклеоти дов на границах рамок считывания и возможная предпочтительность некоторых единичных нуклеотидов рядом с кодоном. В настоящем изобретении изложены способы создания таблицы смещенности пар кодонов для данного организма, в котором в качестве исходных данных используются либо все идентифицированные открытые рамки считывания (0КР) всего расшифрованного генома, либо отдельные группы генов, например гены с высоким уровнем экспрессии. В настоящем изобретении изложен способ, в котором установленная таким образом таблица смещенности пар кодонов впоследствии применяется для оптимизации распределения пар кодонов в представляющем интерес гене для улучшения экспрессии соответствующего белка.
Оптимизация отдельных кодонов является хорошей отправной точкой для улучшения уровня экспрессии представляющих интерес белков. В то время как другие пытались преодолеть недостатки, вытекающие из присутствия неиспользуемых кодонов в заданном гене путем перестройки организма хозяина, встраивая дополнительные копии генов тРНК, кодирующих малораспространенные тРНК (например, компетентные клетки ВЬ-21 СойопР1ик™ фирмы 81га1адеп, реципиентные штаммы Кокейа™ фирмы Ноуадеп. все из Е.еой), авторы настоящего изобретения сконцентрировались на адаптации самих генов. Нежелательные кодоны в генетической последовательности заменяются синонимичными с тем, чтобы распределение отдельных кодонов в образовавшейся последовательности стало как можно ближе к ранее установленным желательным соотношениям кодонов.
- 5 015925
Однако при такой гармонизации кодонов все еще содержится очень большое число возможных генов, являющихся одинаково оптимальными, так как критерием отбора является общее распределение кодонов в оптимизированном гене, поэтому появляется возможность учесть и другие желательные свойства последовательности кодонов, например отсутствие рестрикционных сайтов некоторых ферментов или пар кодонов, вызывающих сдвиги рамки считывания. На следующей стадии можно оптимизировать употребительность пар кодонов в некоторой степени. Но при оптимизации пар кодонов гена, например, в направлении употребления наиболее распространенных кодонов употребительность отдельных кодонов в оставшейся последовательности может не быть близкой к оптимуму, поскольку могут оказаться предпочтительные пары кодонов, состоящие из недостаточно представленных отдельных кодонов, поэтому необходимо найти баланс между оптимизацией отдельных кодонов и пар кодонов. В настоящем изобретении изложены способы, позволяющие сбалансировать оптимизацию и отдельных кодонов, и пар кодонов. Оптимизация пар кодонов с учетом перекрывания кодонов и необязательно комбинирование такой оптимизации пар кодонов с оптимизацией отдельных кодонов сильно улучшают экспрессию нуклеотидной последовательности, кодирующей искомый полипептид, и/или улучшают продукцию данного полипептида.
В контексте настоящего изобретения кодирующая последовательность нуклеотидов или кодирующая последовательность определяется как нуклеотидная последовательность, кодирующая полипептид. Границы кодирующей последовательности обычно определяются старт-кодоном (обычно это АТС у эукариот, тогда как у прокариот им может быть АТС, СТС, СТС или ТТС), располагающимся в начале открытой рамки считывания на 5'-конце мРНК, и стоп-кодоном (обычно это ТАА, ТСА или ТАС, хотя есть исключения из этой универсальной кодировки), располагающимся сразу же после открытой рамки считывания на З'-конце мРНК. Кодирующая последовательность может включать ДНК, кДНК, РНК и рекомбинантные последовательности нуклеиновых кислот (ДНК, кДНК, РНК) (отметим, что, как известно в данной области, урацил и заменяет дезоксинуклеотид тимин Т в РНК). Если кодирующая последовательность предназначена для экспрессии в эукариотических клетках, то по З'-сторону от нее обычно находится сигнал полиаденилирования и последовательность терминации транскрипции. Кодирующая последовательность включает инициирующую последовательность трансляции и необязательно сигнальную последовательность, а также последовательности одного или нескольких интронов. Несмотря на то что термины кодирующая последовательность и ген относятся не к тому же самому объекту, в настоящем изобретении оба термина часто применяются взаимозависимым образом, и специалист сможет понять из контекста, относится ли термин к полному гену или только к его кодирующей последовательности.
Способ и компьютерная система для адаптации по отдельным кодонам и/или парам кодонов
Что касается характеристик употребления кодонов у генов с высоким уровнем экспрессии, то сравнение относительных долей отдельных кодонов вручную во всех генах и в группе генов с высоким уровнем экспрессии привело к выявлению желательных долей кодонов для улучшения генов в отношении их уровня экспрессии.
Адаптация гена по отдельным кодонам может затем осуществляться путем: (1) вычисления фактических долей в гене, повторного выбора кодона (например, случайным образом), у которого желательная доля меньше, чем фактическая, и замены его синонимичным кодоном с более низким значением либо (2) вычисления желательного количества каждого кодона с помощью желательных долей кодонов, составления групп синонимических кодонов и повторного выбора кодона (например, случайным образом) из синонимической группы, кодирующей заданную аминокислоту, по каждому положению в гене; создания множественных вариантов с использованием способа (1) и/или (2) и выбора наиболее подходящего гена на основе дополнительных критериев (например, желательных и нежелательных рестрикционных сайтов и/или энергии свертывания).
Однако этот подход не годится для адаптации по парам кодонов, во-первых, потому, что рассмотрение данных по смещенности вручную по всем парам кодонов исключается из-за его сложности, вовторых, потому, что изменение одной пары кодонов, означающее замену как минимум одного из двух участвующих кодонов, повлияет и по меньшей мере на одну соседнюю пару кодонов, поэтому желательное соотношение пар кодонов будет недостижимо. Из-за связанных с этим затруднений детерминистический подход посчитали слишком сложным и недостаточно перспективным, поэтому был выбран подход на основе генетического алгоритма.
Отметим, что термин генетический алгоритм является обманчивым в том смысле, что он как будто связан с генетической инженерией. Однако генетический алгоритм - это подход из области вычислительной техники, который применяется для приближенного решения задач по многомерной оптимизации (М|с11а1с\\'1сх Ζ., Сеиейе А1дой1йшк + Эа1а 8йис1иге = Еуо1ийои Ртодгашк, §рйидет Ует1ад 1994; Όανίά Е. Со1йЬегд. Сеиейс А1дой1йшк ίη 8еатсй, ОрШшхайоп апй МасЫпе Ьеатшид. Айййоп-\Уек1еу. Веайшд МА, 1989; 1Шр://еп.\у|к|реЙ1а.огд/\\зк|/0епе11с а1доп11ип). В настоящем изобретении этот подход применяется при решении задачи оптимизации выбора наилучшего возможного гена, т.е. кодирующей последовательности для определенного белка. В этом подходе каждое положение в гене, т.е. каждый кодон, можно рассматривать как одно измерение, при этом набор значений является дискретным и определяется
- 6 015925 доступными синонимическими кодонами.
В общем, в генетическом алгоритме обычно сначала создается набор возможных решений задачи случайным образом либо путем варьирования изначально представленных решений (хотя существует и много других методических подходов). Этот набор называется популяция, его элементы - индивиды или хромосомы, которые обычно представлены векторами (в математическом смысле), содержащими координаты для каждого измерения. Поскольку генетические алгоритмы создавались при моделировании процессов, связанных с естественньм отбором, то большая часть терминологии была заимствована из генетики. Однако, поскольку они в основном (но не в данном случае) применяются в области вычислительной техники, но все же были и некоторые примеры применения генетических алгоритмов при решении биологических задач, например, для предсказания вторичной структуры белков (Агтапо с1 а1. 2005, ВМС ВютГогтаЕск. 1(6), 8ирр1. 4:83); оптимизации метаболических сетей ίη кШсо (ΡαΙίΙ с1 а1. 2005, ВМС ВюшТогтаЕск. 23(6): 308); кластеризации данных по экспрессии генов (Όί Секи с1 а1. 2005, ВМС ВюшТогтаЕск. 7(6): 289).
В настоящем случае вектор содержит кодоны. Из этой популяции создаются новые индивиды путем изменения определенных позиций существующего индивида (мутации) или путем комбинирования одной части (т.е. определенных координат) индивида с другой частью (т.е. координатами для других измерений) от другого индивида (кроссовер). Затем проверяют, насколько хорошими будут эти индивиды (так как новые индивиды представляют собой возможные решения исходной задачи оптимизации), а самых лучших (самых пригодных) индивидов опять используют в качестве исходной популяции для создания новых индивидов (нового поколения, например сохраняют наилучшие 10, 20, 30, 40, 50, 60%, хотя существует и много других возможностей для отбора подгруппы потомства для достижения сходимости в направлении более пригодных индивидов, например, отбор методом колеса рулетки, см. М|с11а1е\\'1сх Ζ., 1994). При переводе самых лучших индивидов из исходной популяции в новое поколение проверяют, чтобы с каждой популяцией добротность возможных решений улучшалась или, по крайней мере, оставалась такой же. При этом подразумевается, что при прогоне этого алгоритма через много поколений (= итераций; от сотен до нескольких тысяч, в зависимости от сложности задачи) получится решение, близкое к оптимальному. Генетические алгоритмы тщательно изучали в теории вычислительных систем, включая такие свойства, как оптимальное соотношение между размером популяции и числом поколений, как предотвратить зависание алгоритма в локальных оптимумах и т.д., но сейчас это не имеет большого значения для нас. Насчет информации о том, как настроить эти параметры для конкретной процедуры оптимизации, см. описание выполнения генетического алгоритма в МАТЬАВ в примере 2.
Это будет подробно раскрыто со ссылкой на фиг. 2. На фиг. 2 представлена блок-схема генетического алгоритма для оптимизации генов. Такой генетический алгоритм может выполняться на компьютере с соответствующей программой, пример которого будет представлен со ссылкой на фиг. 1. На фиг. 1 представлена схема компьютерной системы, которая может использоваться для выполнения способа по изобретению. Система включает процессор 1 для выполнения арифметических операций.
Отметим, что генетические алгоритмы обычно не являются детерминированными, так как они включают рандомизированные операции (например, рандомизированные критерии отбора, и/или рандомизированный выбор операторов, и/или рандомизированное создание возможных решений), однако есть исключения, которые работают детерминированным образом. Генетические алгоритмы - это родовой термин для тех алгоритмов, которые работают с группой (именуемой популяцией) возможных решений, полученных путем скринирования, и/или отбора, и/или отбрасывания, и/или введения созданных (заново) решений, ведущих к оптимальному решению с использованием одной или нескольких целей. С учетом этого определения к одному классу алгоритмов относятся методы, которые описывают как эволюционное программирование, эволюционные алгоритмы, классические генетические алгоритмы, генетические алгоритмы с реальной кодировкой, алгоритмы модельной закалки, а также методы Монте-Карло (метод статистических испытаний) и хемотаксиса, в противоположность методам, основанных на сходимости отдельных возможных решений к оптимальному решению с использованием детерминированного алгоритма типа линейного программирования и градиентных алгоритмов. Кроме того, специалист должен понимать из контекста, относится ли иной оригинальный термин к тому же классу алгоритмов. Более того, хотя предпочтительным методом является метод генетических алгоритмов, однако мы не исключаем любые иные методы, помимо генетических алгоритмов, для решения задач оптимизации по отдельным кодонам и/или парам кодонов, как описано в настоящем изобретении.
Процессор 1 соединен с несколькими запоминающими устройствами (ЗУ), включая жесткий диск 5, постоянное запоминающее устройство 7 - ПЗУ (КОМ), электрически стираемое программируемое постоянное запоминающее устройство 9 - ЭСППЗУ (БЕРНОМ) и оперативное запоминающее устройство 11 ОЗУ (КАМ). Не все из этих типов памяти должны быть обязательно установлены. Более того, эти компоненты памяти не обязательно должны физически находиться рядом с процессором 1, но могут находиться и вдали от процессора 1.
Процессор 1 также соединен с такими средствами ввода команд, данных и т.п. от пользователя, как клавиатура 13 и мышь 15. Могут быть установлены и другие средства ввода, известные специалистам, как-то сенсорный экран, шаровой манипулятор и/или преобразователь голоса.
- 7 015925
Имеется считывающее устройство 17, соединенное с процессором 1. Считывающее устройство 17 настроено на считывание данных из и возможную запись данных на такой носитель данных, как дискета 19 или постоянное запоминающее устройство на компакт-диске 21 (СИВОМ). Другими носителями данных могут быть магнитные пленки, ИМИ, флэш-память и др., которые известны специалистам в этой области.
Процессор 1 также соединен с принтером 23 для распечатки выходных данных на бумаге, а также с дисплеем 3, к примеру монитором или жидкокристаллическим (ЬСИ) экраном либо с дисплеем другого типа, известного специалистам в этой области.
Процессор 1 может быть подсоединен к сети связи 27, например публичной коммутируемой телефонной сети (Ρ8ΤΝ), локальной сети (ΕΆΝ), глобальной сети (^ΑΝ) и т.п. при помощи устройства ввода-вывода 25 (ВО). Процессор 1 может быть настроен на связь с другими системами связи через сеть 27.
Носитель данных 19, 21 может включать компьютерный программный продукт в виде данных и инструкций, предназначенных для придания процессору способности к выполнению способа по изобретению. С другой стороны, такой компьютерный программный продукт может быть загружен через сеть дальней связи 27.
Процессор 1 может быть реализован в виде самостоятельной системы или в виде нескольких работающих параллельно процессоров, настроенных на выполнение подзадач большой компьютерной программы, либо в виде одного или нескольких ведущих процессоров с несколькими подпроцессорами. Часть выполняемых функций изобретения даже может выполняться дистанционными процессорами, связанными с процессором 1 через сеть 27.
Далее генетический алгоритм из фиг. 2 будет объяснен в том виде, как он может выполняться на процессоре 1 при работе компьютерной программы, хранящейся в его памяти.
При операции 32 компьютер создает один или несколько генов, кодирующих заданный белок. Это может осуществляться путем привлечения соответствующих данных из таблицы, хранящейся в памяти компьютера. Например, это могут быть такие гены:
> Ато’атт’бСА’таа’тоо’тст’...
> АТС’аТА’ОСА’ТСС’ТбО’ТСА’...
> ...
В целях алгоритма эти созданные гены именуются исходными генами.
После операции 32 компьютерная программа осуществляет один или несколько циклов итерации путем выполнения операций 34-40 один или несколько раз.
При операции 34 компьютерная программа создает новые гены путем замены одного или нескольких кодонов в исходном гене на синонимичные кодоны таким образом, что новосозданный ген все еще кодирует данный белок (процесс кроссовера и мутации). Чтобы сделать это, в памяти компьютера хранится таблица употребительности кодонов, показывающая, какие кодоны кодируют какие аминокислоты. (Отметим, что существуют отклонения от универсального кода, которые принимаются во внимание в случае определенных организмов хозяина, например, см. БарЕма с1 а1., 2006, Епхушс аиб МютоЫа1 Тсс1шо1оду. 38: 741-747). Зная последовательность аминокислот у белка, компьютерная программа может выбрать альтернативные кодоны из таблицы, как это известно в данной области.
По примеру операции 32, новосозданные гены могут быть такими (выделены жирным шрифтом): АТО’ОТТ’ОСА’ТОС’ТСО’ТСТ·...
АТО’ОТА’ОСА’ТСО’ТСО’ТСА’...
АТС’СТТ’ССА’ТСО’ТСС’ТСА’...
АТО’ОТА’ОСА’ТОО’ТОО’ТСА’...
АТС’СТА’ССС’ТСС’ТСС’ТСА’...
При операции 36 компьютерная программа определяет значения добротности у всех генов, включая исходные и новосозданные гены, используя функцию пригодности, которая определяет пригодность кодонов и/или пригодность пар кодонов. Примеры таких функций пригодности будут изложены подробно ниже в разделе Выполнение оптимизации по парам кодонов.
При операции 38 какое-то число генов, проявляющих наилучшую пригодность согласно функции пригодности, отбирается для участия в процессе селекции (кроссовера и мутации), а какое-то число генов, проявляющих наихудшую пригодность согласно функции пригодности, отбирается для удаления из популяции. Эти числа могут быть заданы исходно или зависят от заданной степени улучшения пригодности. Отбор этих генов может быть детерминированным, но обычно применяется стохастический процесс, в котором самые пригодные гены имеют больше шансов на то, что они будут оставлены для селекции, а обратное верно для удаления из популяции. Этот способ селекции называется методом колеса рулетки.
- 8 015925
При этом отобранные для селекции гены могут быть, например, такими (не отобранные гены выделены зачеркиванием):
АТО’ОТТ’ОСА’ТОО’ТОС’ТСТ’...
-х^ГОЧ?ЕАЧ?6А4€Ю46О46ААт7
АТО’ОТТ’ССА’ТОО’ТСО’ТСА’...
При операции 40 компьютерная программа проверяет, выполняется ли один или несколько критериев завершения. Зачастую одним из критериев завершения является заданное максимальное число итераций. Альтернативные критерии заключаются в том, чтобы пригодность отобранных генов улучшилась, по меньшей мере, до минимального порогового значения по сравнению с пригодностью исходных генов либо в том, чтобы пригодность отобранных генов улучшилась, по меньшей мере, до минимального порогового значения по сравнению с пригодностью гена, обладавшего наилучшей пригодностью η циклов итерации тому назад (предпочтительно выбирают значение η <10 100>). Если в целом критерии завершения не выполняются, то компьютерная программа возвращается назад к операции 34, при этом отобранные гены подвергаются обработке как исходные гены.
Если при операции 40 компьютерная программа установит, что улучшение не достигает минимального порогового значения, то дальнейшее повторение операций 34-38 не имеет смысла и компьютерная программа переходит к операции 42.
Следует иметь в виду, что при операции 40 может применяться любой другой подходящий критерий завершения итерации, как-то число проведенных циклов итерации, для выхода из операций 34-40 и перехода к операции 42.
При операции 42 из всех отобранных генов отбирается ген с наилучшей пригодностью и предъявляется пользователю, например, через монитор или через распечатку на принтере.
В случае адаптации генов с помощью генетического алгоритма нужно проследить, чтобы кроссовер всегда проводился в одной рамке считывания, так как в ином случае аминокислотная последовательность может претерпеть изменения при сочетании одного нуклеотида из одного кодона и двух нуклеотидов из другого кодона. Для лучшей сходимости предлагается модифицированный оператор мутаций с тем, чтобы у него были разрешены только те замены синонимичных кодонов, которые приводят к улучшению употребительности отдельных кодонов и/или употребительности пар кодонов.
Далее, важной проблемой при оптимизации по парам кодонов является то, как измерить добротность индивидов. Так называемая функция пригодности может рассматриваться как главная часть генетического алгоритма, так как именно она подвергается оптимизации. В настоящем изобретении предпочтительный подход заключается в том, чтобы присвоить действительное число (именуемое весом) каждой паре кодонов гена и принять среднее значение весов в качестве пригодности гена, при этом происходит минимизация функции.
В настоящем описании авторы изобретения описывают процесс оптимизации гена как проблему минимизации. Это весьма произвольный подход. Отметим, что если бы была нужна максимизация функции Г, то можно бы при этом вести поиск минимума функции -Г, что не нарушает принципа универсальности.
Итак, нужно идентифицировать способ определения веса пар кодонов, при этом хорошими для уровня экспрессии считаются пары с малыми весами, а плохими - пары с большими весами.
Идентификация весов пар кодонов для адаптации генов
Для идентификации весов пар кодонов в связи с повышением уровня транскрипции/экспрессии, которые могут служить в качестве исходных данных для изменения употребительности пар кодонов, могут применяться следующие методы, представленные на примере А.шдет, в отношении которого известны уровни транскрипции для большинства экспрессирующихся генов, и В.киЫПщ, в отношении которого имеются данные по уровням транскрипции, а также набор из 300 генов с высоким уровнем экспрессии.
В отношении А.шдег, где имеется полное ранжирование извлеченных из СепеСЫр данных для вышеприведенного набора из 4584 подвергающихся экспрессии генов (см. пример 1), рассчитывали средние веса пар кодонов по каждому гену (т.е. эквиваленты значений Й1ср(д)). Затем гены упорядочивали по значениям пригодности (в порядке возрастания) и уровня экспрессии (в порядке уменьшения). Поскольку предполагается, что гены с высоким уровнем экспрессии имеют низкие значения пригодности пар кодонов, эти две классификации должны быть равными при использовании идеальных весов пар кодонов, так что сравнение этих двух классификаций может дать информацию о добротности весов, используемых в функции пригодности (при этом несколько большее внимание уделялось правильному ранжированию генов с высоким уровнем экспрессии, чем со средним уровнем). Кроме того, рассчитывали коэффициент корреляции (ковариация, деленная на стандартное отклонение каждого параметра) между ранжированием и средними весами пар кодонов у 4584 генов.
- 9 015925
В способах изобретения может использоваться несколько возможных наборов весов, включая один или несколько выбранных из группы, состоящей из (ί) значений смещенности из всего генома; (ίί) значений смещенности из группы генов с высоким уровнем экспрессии; (ίίί) смещенности с тем, что все значения, не имеющие определенного минимального ζ-показателя, принимаются равными нулю (при этом ζ-показатель определяется так, как описано в примере 1.1.4); (ίν) значений смещенности в степени 2 или 3, 4, 5 либо выше (чтобы придать очень предпочтительным или отброшенным кодонам меньшее/большее значение); (ν) самих ζ-показателей; (νί) разности значений смещенности или ζ-показателей из группы с высоким уровнем экспрессии и всего генома и (νίί) комбинаций одного или нескольких из (ί)-(νί).
Для генетического алгоритма используются их значения с обратным знаком, так как предпочтительным парам кодонов были присвоены положительные значения, тогда как генетический алгоритм выполняет минимизацию. Это применимо ко всем вышеприведенным весам.
Более предпочтительная матрица весов может быть получена, как описано выше, путем вычисления смещенности пар кодонов в группе с высоким уровнем экспрессии с помощью ожидаемых значений (математического ожидания), рассчитанных на основе долей кодонов по всему геному. Обозначим долю отдельного кодона ск в наборе данных из всего генома через та118С(ек), а встречаемость пары (с1, ср в группе с высоким уровнем экспрессии через п|||дНок1,((с|. ср), тогда совместное математическое ожидание вычисляется согласно отсюда
М«С,,с,)) =---- Г Ί----'---‘ ' тах(.Й*((с„су»,Я^-((с„С;))У где ^((с1, ср) определяется как вес пары кодонов (с1, ср в последовательности кодонов д.
Отметим, что поскольку функция оптимизации проводит поиск минимального среднего веса, то оба члена в числителе имеют обратный знак по сравнению с уравнением для значений смещенности, но это не влияет на корреляцию с уровнем экспрессии за исключением того, что при этом меняется знак.
В отличие от всех других проверенных наборов весов, при этом в слегка невыгодное положение попадают пары кодонов с участием тех кодонов, которые менее представлены в группе с высоким уровнем экспрессии. Таким образом, только эти веса отражают и различную смещенность отдельных кодонов в группе с высоким уровнем экспрессии и по всем генам. Использование этих весов влечет опасность отбрасывания некоторых пар кодонов, на самом деле имеющих положительную смещенность в группе с высоким уровнем экспрессии, но состоящих из (в группе с высоким уровнем экспрессии) редко употребляемых кодонов. Однако поскольку желательные для нас соотношения отдельных кодонов обычно не идентичны входящим в группу генов с высоким уровнем экспрессии, а более экстремальны, чем у них, то при оптимизации по отдельным кодонам они все равно будут заменены, так что можно считать описанные выше веса очень удобными для оптимизации пар кодонов. Таким образом, хотя веса пар кодонов в какой-то степени также отражают и смещенность отдельных кодонов, однако при оптимизации употребительность отдельных кодонов рассматривается как отдельный дополнительный вопрос.
Оптимизация отдельных кодонов и пар кодонов при помощи генетического алгоритма
В способе изобретения предпочтительно используется компьютерная система, запрограммированная на выполнение генетического алгоритма, как описано выше, для осуществления адаптации пар кодонов или комбинированной адаптации отдельных кодонов и пар кодонов. Применение генетического алгоритма для адаптации отдельных кодонов тоже возможно и не исключается из изобретения, но при этом нежелательные кодоны можно заменять синонимичными кодонами без ограничений в отношении соседних кодонов, поэтому использование генетического алгоритма становится ненужным.
Что касается пар кодонов, то изменение отдельного кодона вызовет изменение веса двух пар кодонов, поэтому оптимизация пар кодонов имеет сильные ограничения, так как изменение одного кодона при замене нежелательной пары кодонов непременно вызовет изменение другой пары кодонов, которое не обязательно будет переменой к лучшему, причем исправление перемены к худшему в соседней паре кодонов опять же вызовет изменение другой пары и т.д.
Что касается оператора мутаций, то допускаются лишь те изменения последовательности кодонов, которые не вызывают изменения последовательности кодируемого пептида и улучшают пригодность отдельных кодонов и/или пар кодонов, т.е перед заменой кодона оператор мутаций проводит поиск синонимичных кодонов, которые либо слабо представлены (в соответствии с желательным соотношением отдельных кодонов), либо такие, у которых обе пары кодонов, в которые они входят, имеют лучшие веса. Выбор того, какой из двух типов мутаций выполняется, осуществляется случайным образом. Выполнение первого из этих операторов мутаций по каждому отдельному кодону является достаточным для создания оптимизированного по отдельным кодонам гена без применения генетического алгоритма.
- 10 015925
Добротность гена определяется с учетом двух аспектов, а именно пригодности по отдельным кодонам и пригодности по парам кодонов. Последняя представляет собой просто среднее значение весов \у((с(к). с(к+1)) всех пар кодонов в последовательности кодонов (или гена) д. Итак, если д означает последовательность кодонов, |д| означает её длину (количество кодонов), а с(к) означает её к-й кодон, то
КЬХё) = —п +1)).
Ы~1 *.ι
Пригодность по отдельным кодонам определяется как разность между фактическими долями отдельных кодонов в гене и искомыми соотношениями кодонов, нормализованная по количеству вхождений всех кодонов. Относительные доли кодонов определяются и могут быть установлены, как описано далее в примере 1.1.2. Пусть г''де1 хс(с(к)) означает желательную долю (или частотность) кодона ск, а г®8с(с(к)), как и ранее, означает его фактическую долю в гене д, тогда пригодность по отдельным кодонам определяется как βίχ{ε}=гЬ ·
Таким образом, П1,с может принимать значения в интервале [0, 1], при этом оптимальная последовательность будет близка к 0, тогда как й!ср будет ограничиваться весами, которые в данном случае попадают в интервал [-1,1].
Для оптимизации по обоим подходам, в одном воплощении, вводится комбинированная функция пригодности
Здесь ср1, что означает важность пары кодонов, представляет собой действительное значение больше 0, и оно определяет, какая из двух функций пригодности оказывает большее влияние на комбинированную пригодность. Если ср1 близка к 0, то знаменатель стремится к 0, когда йрс(д) улучшается (т.е. также становится близким к 0), при этом небольшие изменения йрс(д) влияют на й!сотЬ1(д) больше, чем небольшие изменения й!ср(д), тогда как при больших ср1 небольшое улучшение й!ср(д) может оказать большее влияние на й!сотЬ1(д), чем умеренное улучшение П1,с(д). Отметим, что значения й!сотЬ1, полученные при различных значениях ср1, не сопоставимы (при значениях ср1, близких к 0, получаются значения й!сотЬ1, близкие к -100, тогда как при ср1>0,2й!сотЬ1 обычно заключается между 0 и -1).
В одном воплощении вводится штраф, если д содержит определенные нежелательные последовательности, например рестрикционные сайты или последовательности, образующие нежелательные вторичные структуры в мРНК. Это может оказаться полезным при конструировании синтетических генов, но само по себе не имеет отношения к оптимизации употребительности отдельных кодонов или пар кодонов. Модифицированная функция пригодности приобретает следующий вид:
где Р(д) означает штрафную функцию, выдающую положительный вес в том случае, когда нежелательная структура последовательности является частью гена д.
Следует иметь в виду, что далее в воплощениях изобретения нуклеотидные и аминокислотные последовательности могут представлять собой теоретические последовательности, которые существуют, к примеру, только на бумаге или ином носителе данных, предпочтительно предназначенном для считывания на компьютере, либо они могут существовать в виде осязаемого, созданного физически воплощения.
В первом аспекте, таким образом, изобретение касается способа оптимизации кодирующей нуклеотидной последовательности, кодирующей заданную аминокислотную последовательность, причем кодирующая последовательность оптимизирована для экспрессии в заданных клетках хозяина. Способ предпочтительно включает стадии: (а) получения по меньшей мере одной исходной кодирующей последовательности, кодирующей заданную аминокислотную последовательность; (Ь) создания по меньшей мере одной новой кодирующей последовательности из этой по меньшей мере одной исходной кодирующей последовательности путем замены в ней одного или нескольких кодонов синонимичными кодонами; (с) определения значения пригодности данной по меньшей мере одной исходной кодирующей последовательности и значения пригодности данной по меньшей мере одной новосозданной кодирующей последовательности при помощи функции пригодности, определяющей пригодность по отдельным кодонам и/или пригодность по парам кодонов для заданных клеток хозяина; (б) выбора одной или нескольких отдельных кодирующих последовательностей из данного по меньшей мере одного исходного гена и данной по меньшей мере одной новосозданной кодирующей последовательности в соответствии с заданным критерием отбора таким образом, что чем выше значение пригодности, тем больше шансов быть выбранной; и (е) повторения операций (Ь)-(б) до тех пор, пока не будет выполняться заданный критерий прекращения итерации, рассматривая данные одну или несколько отобранных кодирующих последовательностей как одну или несколько исходных кодирующих последовательностей при выполнении опера
- 11 015925 ций (Ь)-(й).
В одном воплощении изобретения способ предпочтительно включает стадии: (а) получения по меньшей мере одной исходной кодирующей последовательности, кодирующей заданную аминокислотную последовательность; (Ь) создания по меньшей мере одной новой кодирующей последовательности из этой по меньшей мере одной исходной кодирующей последовательности путем замены в ней одного или нескольких кодонов синонимичными кодонами; (с) определения значения пригодности данной по меньшей мере одной исходной кодирующей последовательности и значения пригодности данной по меньшей мере одной новосозданной кодирующей последовательности при помощи функции пригодности, определяющей пригодность по парам кодонов для заданных клеток хозяина; (й) выбора одной или нескольких отдельных кодирующих последовательностей из данного по меньшей мере одного исходного гена и данной по меньшей мере одной новосозданной кодирующей последовательности в соответствии с заданным критерием отбора таким образом, что чем выше значение пригодности, тем больше шансов быть выбранной; и (е) повторения операций (Ь)-(й) до тех пор, пока не будет выполняться заданный критерий прекращения итерации, рассматривая данные одну или несколько отобранных кодирующих последовательностей как одну или несколько исходных кодирующих последовательностей при выполнении операций (Ь)-(й).
В другом воплощении изобретения способ предпочтительно включает стадии: (а) получения по меньшей мере одной исходной кодирующей последовательности, кодирующей заданную аминокислотную последовательность; (Ь) создания по меньшей мере одной новой кодирующей последовательности из этой по меньшей мере одной исходной кодирующей последовательности путем замены в ней одного или нескольких кодонов синонимичными кодонами; (с) определения значения пригодности данной по меньшей мере одной исходной кодирующей последовательности и значения пригодности данной по меньшей мере одной новосозданной кодирующей последовательности при помощи функции пригодности, включающей определение пригодности по отдельным кодонам и пригодности по парам кодонов для заданных клеток хозяина; (й) выбора одной или нескольких отдельных кодирующих последовательностей из данного по меньшей мере одного исходного гена и данной по меньшей мере одной новосозданной кодирующей последовательности в соответствии с заданным критерием отбора таким образом, что чем выше значение пригодности, тем больше шансов быть выбранной; и (е) повторения операций (Ь)-(й) до тех пор, пока не будет выполняться заданный критерий прекращения итерации, рассматривая данные одну или несколько отобранных кодирующих последовательностей как одну или несколько исходных кодирующих последовательностей при выполнении операций (Ь)-(й).
В способах предпочтительно заданный критерий отбора состоит в том, чтобы данная одна или несколько отобранных кодирующих последовательностей имела наилучшее значение пригодности в соответствии с заданным критерием. Способы по изобретению могут дополнительно включать, после операции е), выбор наилучшей индивидуальной кодирующей последовательности из данных одной или нескольких отобранных кодирующих последовательностей, при этом данная наилучшая индивидуальная кодирующая последовательность имеет лучшее значение пригодности, чем другие отобранные кодирующие последовательности.
В способах изобретения заданный критерий прекращения итерации заключается в проверке по меньшей мере одного из: (а) чтобы по меньшей мере у одной из данных отобранных кодирующих последовательностей наилучшее значение пригодности было выше заданного порогового значения; (Ь) чтобы ни у одной из данных отобранных кодирующих последовательностей наилучшее значение пригодности не было ниже заданного порогового значения; (с) чтобы по меньшей мере у одной из данных отобранных кодирующих последовательностей по меньшей мере 30% пар кодонов с соответствующими положительными весами пар кодонов для заданных клеток хозяина в данной исходной кодирующей последовательности было превращено в пары кодонов с соответствующими отрицательными весами; и (й) чтобы по меньшей мере у одной из данных отобранных кодирующих последовательностей по меньшей мере 10, 20, 30, 40, 50, 60, 70, 80 или 90% пар кодонов с соответствующими положительными весами больше 0 для заданных клеток хозяина в данной исходной кодирующей последовательности было превращено в пары кодонов с соответствующими весами меньше 0.
В способах изобретения функция пригодности предпочтительно определяет пригодность по отдельным кодонам при помощи уравнения
Мч I
А (§) = ιοο- 'ΣΗ^'Η*)) - (с(*))| - юо где д означает кодирующую последовательность;
|д| означает её длину;
д(к) означает её к-й кодон;
гс 1агде‘(с(к)) означает желательную долю кодона с(к) (приложение 2; векторы СВ);
гс д(с(к)) означает фактическую долю в кодирующей нуклеотидной последовательности д.
- 12 015925
В способах изобретения функция пригодности предпочтительно определяет пригодность по парам кодонам при помощи уравнения х, ω=т-н Σ +1))
1?Н где те((с(к), с(к+1)) означает вес пары кодонов в кодирующей последовательности д;
|д| означает длину данной кодирующей последовательности нуклеотидов;
с(к) означает к-й кодон в данной кодирующей последовательности.
Более предпочтительно в способах изобретения функция пригодности определяется при помощи уравнения
где β^> (£> =г~Г7 ‘ Σ с(к+!)) >
Ш 1 £==1 βχ (£)=ϊτϊ £ к”'** ~ ’ ср1 принимает действительное значение, большее или равное 0;
П1ср(д) означает функцию пригодности по парам кодонов;
Г11кс(д) означает функцию пригодности по отдельным кодонам;
те((с(к), с(к+1)) означает вес пары кодонов в кодирующей последовательности д (приложение 3; матрица СР\У);
|д| означает длину данной кодирующей последовательности;
с(к) означает к-й кодон в данной последовательности кодонов;
г1а1де1 кс(с(к)) означает желательную долю кодона с(к);
г®кс(с(к)) означает фактическую долю в кодирующей последовательности д.
Предпочтительно ср1 заключается между 0 и 10, более предпочтительно между 0 и 0,5 и наиболее предпочтительно составляет около 0,2.
В способах изобретения веса ν пар кодонов (приложение 3) можно взять из матрицы 64x64 пар кодонов, включающей стоп-кодоны. Отметим, что веса пар стоп: значение и пар стоп: стоп всегда равны нулю. Веса ν пар кодонов предпочтительно вычисляют на основе компьютеризованного метода, используя в качестве исходных данных по меньшей мере одно из следующего: (а) последовательность генома заданного хозяина, в которой расшифровано по меньшей мере 5, 10, 20 или 80% кодирующих белки нуклеотидных последовательностей; (Ь) последовательность генома вида, родственного заданному хозяину, в которой расшифровано по меньшей мере 5, 10, 20 или 80% кодирующих белки нуклеотидных последовательностей; (с) группу нуклеотидных последовательностей, состоящую как минимум из 200 кодирующих последовательностей заданного хозяина; и (й) группу нуклеотидных последовательностей, состоящую как минимум из 200 кодирующих последовательностей вида, родственного заданному хозяину. При этом родственным видом считается вид, у которого нуклеотидная последовательность РНК малой субъединицы рибосом по меньшей мере на 60, 70, 80 или 90% идентична нуклеотидной последовательности РНК малой субъединицы рибосом заданных клеток хозяина (\Уиу1к е1 а1., 2004, №.1с1ею Ас1йк Кек. 32: Ό101-Ό103).
Вовсе не обязательно определять веса ν пар кодонов у всех возможных 61x64 пар кодонов, включая сигнал терминации в качестве стоп-кодона, а можно определять только у какой-то их части, например по меньшей мере у 5, 10, 20, 50 и предпочтительно 100% всех возможных 61x64 пар кодонов, включая сигнал терминации в качестве стоп-кодона.
Отбор генов с высоким уровнем экспрессии
Для вычисления матриц весов пар кодонов и векторов искомых долей отдельных кодонов может применяться набор нуклеотидных последовательностей из определенных клеток самого хозяина, набор нуклеотидных последовательностей из родственного вида либо комбинация того и другого. Набор А нуклеотидных последовательностей называется контрольным набором. Наиболее предпочтительно этот набор содержит полный набор открытых рамок считывания (0КР) у организма, который полностью расшифрован (>95%).
В предпочтительном воплощении изобретения отбирается частичный набор В, содержащий ту часть набора, в которой сильнее представлены гены с высоким уровнем экспрессии либо гены, кодирующие белки с высоким уровнем экспрессии. Этот набор может быть определен путем измерения и последующего ранжирования типа гибридизации мРНК по технологии матриц, например матриц фирмы АГГутейтх, №тЬ1едеп, Адйеп) или любого другого источника для контрольного набора А. Другие измерения могут представлять собой ОТ-ПЦР, разделение белков в геле, анализ М8-М8 или любой другой метод измерения, известный специалистам в этой области. Помимо ранжирования на основе измерений,
- 13 015925 также можно применять методы биоинформатики с тем, чтобы прямо предсказать группу генов с высоким уровнем экспрессии, например путем отбора генов с наибольшей смещенностью (СагЬопе е! а1, 2003) либо путем отбора известных генов с высоким уровнем экспрессии у широкого круга организмов. К ним относятся гены рибосомных белков, гликолиза и цикла ТКК, участвующие в первичном метаболизме, и гены, участвующие в транскрипции и трансляции.
Предпочтительно веса те пар кодонов вычисляют на основе компьютеризованного метода, используя в качестве исходных данных группу генов с высоким уровнем экспрессии в заданных клетках хозяина. Под генами с высоким уровнем экспрессии в настоящем изобретении понимаются гены, у которых мРНК обнаруживается на уровне по меньшей мере 10, предпочтительно 20, более предпочтительно 50, еще более предпочтительно 100, еще более предпочтительно 500 и наиболее предпочтительно по меньшей мере 1000 копий на клетку. Например, Суд1 е! а1. установили, что на одну дрожжевую клетку приходится ~15000 молекул мРНК. Установлено, что распространенность отдельных мРНК составляет 0,1-470 копий на клетку (Суд1 8.Р., Υ. Восйоп, В.В. Егапха апб В. АеЬегко1б (1999). Сотте1абоп Ье!теееп рто!еш апб шВNΑ аЬипбапсе ΐπ уеак!. Мо1. Се11. Вю1. 19(3): 1720-30) либо в 10 раз меньше: 0,01-50 копий на клетку (по АкакЫ Н. (2003). Ттапк1абопа1 ке1ес!юп апб уеак! рго!еоте етоШЕоп. Сепебск, 164(4): 1291-1303).
С другой стороны, группа генов с высоким уровнем экспрессии в заданных клетках хозяина может состоять из 1000, 500, 400, 300, 200 или 100 наиболее распространенных мРНК или белков. Специалисту должно быть понятно, что для вычисления долей отдельных кодонов размер группы генов с высоким уровнем экспрессии может быть небольшим, так как определяется по максимуму только 64 искомых значений. При этом контрольный набор генов с высоким уровнем экспрессии может составлять всего лишь 1 ген, но обычно репрезентативным считается набор генов с высоким уровнем экспрессии, составляющий 1% всего генома, к примеру см. СагЬопе А. е! а1. (2003). Собоп абар!абоп 1пбех ак а теакиге οί боттабпд собоп Ь1ак. ВютЕэгтаЕск. 19(16): 2005-15). Для расчета матрицы весов пар кодонов обычно достаточен набор из 200-500 контрольных генов, что соответствует 2-7% бактериального генома (300015000 генов).
Другая возможность состоит в получении вероятной подгруппы генов с высоким уровнем экспрессии из литературы. Например, для модельного организма - ВасШик киЬ!Шк существует довольно приличная литература по смещенности отдельных кодонов. Хороший обзор на современном уровне по В.киЬбйк приведен в работе Капауа е! а1. (1999). В нашем подходе, см. пример 4, набор генов с высоким уровнем экспрессии составляется на основе данных по уровням мРНК, полученным по технологии Айуте1бх, и эти последовательности подвергаются сравнению с полным комплектом ОВЕк генома. Другие возможности, применявшиеся в литературе, это данные по экспрессии белков и группы генов таких (предположительно) функциональных категорий, как рибосомные белки, белки, участвующие в трансляции и транскрипции, споруляции, энергетическом метаболизме, и белки жгутиковой системы (Капауа е! а1., 1999; Кабт апб Мгахек, 2000).
Действительно, высокая смещенность кодонов обнаруживается, к примеру, у рибосомных белков, а также у других названных групп. Однако не все гены в последней группе проявляют такое поведение. К тому же авторы изобретения не знают, как реагируют рибосомные белки в условиях низкой продукции. Поэтому кажется логичным прямой метод измерения для получения подгруппы генов с высоким уровнем экспрессии. Затем можно выбрать данные транскриптомики (ТХ) и/или протеомики (РХ). В отношении обоих есть за и против. ТХ дает довольно сложную картину уровней мРНК генов по всему геному, тогда как данные РХ могут быть искажены из-за сильной представленности водорастворимых белков. Данные ТХ являются прямой мерой наличия мРНК, подвергающейся трансляции, тогда как белок является частью процесса накопления, в котором важную роль играет и кругооборот. Так или иначе, у генов с высоким уровнем экспрессии данные ТХ и РХ хорошо коррелируют (Суд1 е! а1., 1999). Другой интересной работой является прогнозирование генов с высоким уровнем экспрессии (РНХ) по отклонению от усредненной употребительности кодонов и сходству с рибосомными белками и белковыми факторами, участвующими в процессах трансляции и транскрипции, и белками деградации чаперони (Кабт апб Мгахек, 2000). В частности, у таких быстрорастущих организмов, как ВасШик, Е.со11 и др., основные гены гликолиза и гены цикла трикарбоновых кислот принадлежат к вышеуказанной группе. Предсказания метода хорошо совпадают с известными генами с высоким уровнем экспрессии по данным экспрессии мРНК и белка.
Специалистам должно быть понятно, что веса те отдельных кодонов и пар кодонов могут определяться для модифицированных клеток хозяина, подвергнутых модификации в отношении содержания и природы кодирующих тРНК генов, т.е. клеток хозяина, содержащих дополнительные копии существующих генов тРНК, новых (экзогенных) генов тРНК, в том числе генов не встречающихся в природе тРНК, включая гены, кодирующие модифицированные тРНК, содержащие не встречающихся в природе аминокислоты или другие химические соединения, а также клеток хозяина, у которых один или несколько генов тРНК были инактивированы или удалены.
В способе изобретения исходная кодирующая последовательность нуклеотидов, кодирующая заданную аминокислотную последовательность, может быть выбрана из: (а) нуклеотидной последовательности дикого типа, кодирующей заданную аминокислотную последовательность; (Ь) продукта обратной
- 14 015925 трансляции заданной аминокислотной последовательности, при которой кодон для аминокислоты в заданном положении аминокислотной последовательности выбирается случайным образом из синонимичных кодонов, кодирующих эту аминокислоту; и (с) продукта обратной трансляции заданной аминокислотной последовательности, при которой кодон для аминокислоты в заданном положении аминокислотной последовательности выбирается в соответствии со смещенностью отдельных кодонов у заданных клеток хозяина или родственного вида.
Клетки хозяина.
В способах изобретения заданный хозяин может быть представлен любыми клетками хозяина или организма, пригодными для продукции искомого полипептида при экспрессии оптимизированной кодирующей последовательности нуклеотидов. При этом клетки хозяина могут быть прокариотическими или эукариотическими клетками. Клетки хозяина могут быть представлены клетками, пригодными для культивирования в жидкой среде или на твердой среде. С другой стороны, клетки хозяина могут быть представлены клетками, входящими в состав многоклеточной ткани или многоклеточного организма, как-то (трансгенного) растения, животного или человека.
Клетки хозяина могут быть микробными и немикробными. К подходящим немикробным клеткам хозяина относятся, например, клетки млекопитающих, как-то клетки СНО (яичников китайского хомяка), клетки ВНК (почек детенышей хомяка), клетки мыши (например, N80). клетки обезьян типа С08 или Уего, клетки человека типа РЕК..С6™ или НЕК-293; клетки насекомых, как-то клетки дрозофилы 82 и клетки сподоптеры 8Г9 или 8Г21; либо клетки таких растений, как табак, томат, картофель, рапс, капуста, горох, пшеница, кукуруза, рис, такие виды Тахик, как Тахик Ьгеуйойа, такие виды АгаЫборык, как АгаЫборык ШаПаиа, и такие виды Мсойаиа, как №соОапа 1аЬасиш. Такие немикробные клетки особенно подходят для продукции белков млекопитающих или человека для применения при лечении млекопитающих или человека.
Клетки хозяина также могут быть микробными клетками, как-то бактериальными или грибковыми. К подходящим бактериальным клеткам хозяина относятся и грамположительные, и грамотрицательные бактерии. Примеры подходящих бактериальных клеток хозяина включают бактерии родов ВасШик, Асйпотусейк, ЕксйепсЫа, 8йер1отусек, а также молочнокислые бактерии, такие как Ьас1оЬасШик, 81гер1ососсик, ЕасШсоссик, 0епососсик, ЕеисопокШс, Ребюсоссик, СагиЬас1егшт, РгорютЬас1егшт, ЕгИегососсик и ВШбоЬас1епит. Особенно предпочтительны ВасШик киЫШк, ВасШик ату1о11диеГас1еик, ВасШик 1юйешГогт1к, ЕксйепсЫа со11, 81герЮтусек сое1юо1ог, 81герЮтусек с1ауи11дегик и БасЮЬасШик р1аи1агит, БасЮсоссик 1асбк.
С другой стороны, клетки хозяина могут быть представлены эукариотическим микроорганизмом типа дрожжей или нитчатых грибов. Предпочтительно дрожжевые клетки в качестве хозяина принадлежат к родам 8ассйаготусек, К1иууеготусек, Сапб1ба, РюЫа, 8сЫхокассйаготусек, Напкепи1а, К1оескега, 8с11\\'апшотусек и ΥηπΌλνίη. Особенно предпочтительными клетками ЭеЬаготусек в качестве хозяина являются 8ассйаготусек сегеу1к1ае и К1иууеготусек 1асбк.
В соответствии с более предпочтительным воплощением клетки хозяина по настоящему изобретению представлены клетками нитчатых грибов. Нитчатые грибы охватывают все нитчатые формы подраздела ЕнтусоЮ и 0отусо1а (как они определены в На\\'кк\\'ог111 е1 а1., 1995, кирга). Нитчатые грибы характеризуются тем, что стенка мицелия состоит из хитина, целлюлозы, глюкана, хитозана, маннана и других сложных полисахаридов. Вегетативный рост происходит путем удлинения гифов, а катаболизм углерода - облигатно аэробный. К родам нитчатых грибов, штаммы которых могут использоваться в качестве клеток хозяина в настоящем изобретении, относятся штаммы родов Асгетошит, АкрегдШик, АигеоЬаыбшт, СгурШсоссик, ЕШЬаыбшт, Еикапит, Нитюо1а, Мадпароййе, Мисог, МусейорйШога, №осаШтакбх, №игокрога, Раесботусек, РешсШшт, Рпотусек, 8сЫхорЬу11ит, Скгукокропит, Та1аготусек, Тйегтоаксик, ТЫе1ау1а, То1урос1абшт и Тпсйобегта. Предпочтительно нитчатые грибы принадлежат к видам, выбранным из группы, состоящей из АкрегдШик шдег, АкрегдШик огухае, АкрегдШик ко_)ае, Тпсйобегта гееке1 и РешсШшт сйгукодеиит. Примеры подходящих штаммов хозяина включают: АкрегдШик шдег СВ8 513.88 (Ре1 е1 а1., 2007, №11. Вю1ес11. 25: 221-231), АкрегдШик огухае АТСС 20423, ΙΕ0 4177, АТСС 1011, АТСС 9576, АТСС 14488-14491, АТСС 11601, АТСС 12892, Р.сйгукодепит СВ8 455.95, РешсШшт сйппит АТСС 38065, РешсШшт сйгукодепит Р2, Асгетошит сйгукодепит АТСС 36225 или АТСС 48272, Тпсйобегта гееке1 АТСС 26921, или АТСС 56765, или АТСС 26921, АкрегдШик ко)ае АТСС 11906, Сйгукокрогшт 1искпо\\'епке АТСС 44006 и их производные.
Клетки хозяина могут быть представлены клетками нитчатых грибов дикого типа либо их вариантами, мутантами или генетически модифицированными клетками нитчатых грибов. К таким модифицированным клеткам нитчатых грибов относятся, например, клетки с пониженным уровнем протеаз, как-то дефицитные по протеазам штаммы типа АкрегдШик огухае 1аЬ 125 (описан в XV0 97/35956 или ЕР 429490); дефицитный по трипептидиламинопептидазам штамм А.шдег, описанный в ν0 96/14404, или клетки с пониженной продукцией активатора транскрипции протеаз (рйТ; описаны в ν0 01/68864, и8 2004/0191864 А1 и ν0 2006/040312); штаммы типа АкрегдШик огухае ВЕСк2, у которых инактивированы три гена ТАКА-амилазы, два гена протеаз, а также способность к образованию метаболитов циклопиазоновой кислоты и койевой кислоты (ВЕСк2 описан в ν0 00/39322); клетки нитчатых
- 15 015925 грибов с повышенной выработкой развернутых белков (ИРК) по сравнению с клетками дикого типа для повышения способности к продукции искомого полипептида (описаны в И8 2004/0186070 А1, и8 2001/0034045 А1, νθ 01/72783А 2 и νθ 2005/123763); клетки с дефицитным по оксалату фенотипом (описаны в νθ 2004/070022 А2 и νθ 2000/50576); клетки с пониженной экспрессией таких распространенных эндогенных полипептидов, как глюкоамилаза, нейтральная α-амилаза А, нейтральная α-амилаза В, а-1,6-трансглюкозидаза, протеазы, целлобиогидролаза и/или гидролаза щавелевой кислоты (которые могут быть получены путем генетической модификации в соответствии с методами, описанными в и8 2004/0191864 А1); клетки с повышенной эффективностью гомологической рекомбинации (содержащие дефектный ген НЕГА или МГВ, как описано в νθ 2005/095624) и клетки с любыми возможными комбинациями этих модификаций.
В способах изобретения заданная аминокислотная последовательность может представлять собой аминокислотную последовательность (искомого полипептида), гетерологичную заданным клеткам хозяина либо она может представлять собой аминокислотную последовательность (искомого полипептида), гомологичную заданным клеткам хозяина.
Термин гетерологичные в применении к нуклеиновым кислотам (ДНК или РНК) либо к белкам обозначает нуклеиновые кислоты или белки, которые не встречаются естественным образом в составе организма, клеток, генома или последовательности ДНК или РНК, в которых они находятся, либо встречаются в клетках или таких местах или положениях в геноме либо последовательности ДНК или РНК, которые отличаются от тех, в которых они находятся в природе. Гетерологичные нуклеиновые кислоты или белки не являются эндогенными для тех клеток, в которые они вводятся, а были получены из других клеток либо получены методом синтеза или рекомбинантным методом. Обычно, хотя и необязательно, такие нуклеиновые кислоты кодируют белки, которые в норме не вырабатываются в тех клетках, в которых они подвергаются экспрессии. Термин гетерологичная нуклеиновая кислота или белок охватывает любые нуклеиновые кислоты или белки, которые специалист в этой области признает гетерологичными или чужеродными для тех клеток, в которых они подвергаются экспрессии. Термин гетерологичные также применяется к неестественным комбинациям нуклеотидных или аминокислотных последовательностей, т.е. таким комбинациям, в которых по меньшей мере две из входящих в неё последовательностей являются чужеродными друг для друга.
Термин гомологичная в применении к обозначению связи между данной (рекомбинантной) молекулой нуклеиновой кислоты или полипептида и данным организмом или клетками хозяина понимается как то, что в природе эта молекула нуклеиновой кислоты или полипептида вырабатывается клетками хозяина или организмом одного и того же вида, предпочтительно той же разновидности или штамма.
Заданная аминокислотная последовательность может представлять собой последовательность любого представляющего интерес полипептида, обладающего коммерческой или промышленной применимостью или полезностью. Так, искомым полипептидом может быть антитело или его часть, антиген, фактор свертывания крови, фермент, гормон или вариант гормона, рецептор или его часть, регуляторный белок, структурный белок, белок-репортер или транспортный белок, внутриклеточный белок, белок, участвующий в процессе секреции, белок, участвующий в процессе упаковки белков, чапероне, пептидпереносчик аминокислот, фактор гликозилирования, фактор транскрипции. Предпочтительно искомый полипептид подвергается секреции во внеклеточную среду клеток хозяина по классическому пути секреции, по неклассическому пути секреции или по альтернативному пути секреции (описано в νθ 2006/040340). В том случае, когда искомый полипептид является ферментом, им может быть, например, оксидоредуктаза, трансфераза, гидролаза, лиаза, изомераза, лигаза, каталаза, целлюлаза, хитиназа, кутиназа, дезоксирибонуклеаза, декстраназа, эстераза. К более предпочтительным ферментам относятся, например, карбогидразы, например, такие целлюлазы, как эндоглюканазы, β-глюканазы, целлобиогидролазы или β-глюкозидазы, такие гемицеллюлазы или пектинолитические ферменты, как ксиланазы, ксилозидазы, маннаназы, галактаназы, галактозидазы, пектинметилэстеразы, пектинлиазы, пектатлиазы, эндополигалактуроназы, экзополигалактуроназы, рамнополигалактуроназы, арабаназы, арабинофуранозидазы, арабиноксилангидролазы, галактуроназы, лиазы или амилолитические ферменты; гидролазы, изомеразы или лигазы, такие фосфатазы, как фитазы, такие эстеразы, как липазы, протеолитические ферменты, такие оксидоредуктазы, как оксидазы, трансферазы или изомеразы, фитазы, аминопептидазы, карбоксипептидазы, эндопротеазы, металлопротеазы, сериновые протеазы, каталазы, хитиназы, кутиназы, циклодекстрин-гликозилтрансферазы, дезоксирибонуклеазы, α-галактозидазы, β-галактозидазы, глюкоамилазы, α-глюкозидазы, β-глюкозидазы, галопероксидазы, инвертазы, лакказы, маннозидазы, мутаназы, пероксидазы, фосфолипазы, полифенолоксидазы, рибонуклеазы, трансглутаминазы, глюкозоксидазы, гексозоксидазы и монооксигеназы. Несколько представляющих интерес терапевтических белков охватывают, например, антитела и их фрагменты, инсулин человека и его аналоги, лактоферрин человека и его аналоги, гормон роста человека, эритропоэтин, тканевой активатор плазминогена (1РА) или инсулинотропин. Полипептид может участвовать в синтезе метаболита, предпочтительно лимонной кислоты. К таким полипептидам относятся, например, аконитатгидратаза, аконитатгидроксилаза, 6-фосфофруктокиназа, цитратсинтаза, карбоксифосфоноенолпируват-фосфономутаза, гликолатре
- 16 015925 дуктаза, предшественник глюкозоксидазы дохС, нуклеозиддифосфат-сахар эпимераза, глюкозоксидаза, Ми-супероксиддисмутаза, цитратлиаза, убихинонредуктаза, белки-переносчики, белки-переносчики цитрата, белки дыхательной цепи митохондрий и белки-переносчики ионов металлов.
Компьютер, программа и носитель данных
В другом аспекте изобретение касается компьютера, включающего процессор и память, причем процессор настроен на чтение из этой памяти и запись в эту память, а память включает данные и инструкции, предназначенные для придания процессору способности к выполнению способа изобретения.
В следующем аспекте изобретение касается компьютерного программного продукта, включающего данные и инструкции и настроенного на то, чтобы загружаться в память компьютера, также включающего процессор, причем процессор настроен на чтение из этой памяти и запись в эту память, а память включает данные и инструкции, предназначенные для придания процессору способности к выполнению способа изобретения.
В следующем аспекте изобретение касается носителя данных, снабженного компьютерным программным продуктом, как определено выше.
Молекулы нуклеиновой кислоты
В следующем аспекте изобретение касается молекул нуклеиновой кислоты, включающих кодирующую последовательность, кодирующую заданную аминокислотную последовательность. Кодирующая последовательность предпочтительно представляет собой нуклеотидную последовательность, не похожую на природную кодирующую последовательность. Скорее кодирующая последовательность в молекуле нуклеиновой кислоты представляет собой нуклеотидную последовательность, не встречающуюся в природе, а искусственную, т. е. сконструированную, созданную человеком нуклеотидную последовательность, созданную на основе способа оптимизации смещенности отдельных кодонов и/или пар кодонов для заданных клеток хозяина в соответствии с методами, приведенными в настоящем изобретении, и впоследствии синтезированную в виде реальной молекулы нуклеиновой кислоты. Предпочтительно кодирующая последовательность имеет значение П1..с(д) как минимум меньше 0,2, более предпочтительно меньше 0,1 и наиболее предпочтительно меньше 0,02 для заданных клеток хозяина. Более предпочтительно кодирующая последовательность имеет значение Г11ср(д) как минимум меньше 0 для заданных клеток хозяина. Наиболее предпочтительно кодирующая последовательность имеет значение Гцср(д) как минимум меньше -0,1 для заданных клеток хозяина, а еще более предпочтительно как минимум меньше -0,2. Предпочтительно в оптимизированном гене д содержится по меньшей мере 60, 70, 75, 80, 85% пар кодонов и наиболее предпочтительно по меньшей мере 90% пар кодонов с отрицательными значениями для заданного организма хозяина.
Заданная аминокислотная последовательность, которая кодируется кодирующей последовательностью, может представлять собой любой полипептид, как определено выше, а заданные клетки хозяина могут представлять собой любые клетки хозяина, как определено выше.
В молекуле нуклеиновой кислоты кодирующая последовательность предпочтительно функционально связана с контролирующей экспрессию последовательностью, которая способна управлять экспрессией кодирующей последовательности в заданных клетках хозяина. В контексте изобретения контролирующая последовательность определяется как нуклеотидная последовательность, которая функционально связана с кодирующей последовательностью, когда они находятся вместе, и включает все компоненты, необходимые или полезные для экспрессии нуклеотидной последовательности, кодирующей вырабатываемый полипептид. Каждая контролирующая последовательность может быть нативной или чужеродной для нуклеотидной последовательности, кодирующей вырабатываемый полипептид. Такие контролирующие последовательности могут включать последовательность лидера, последовательность полиаденилирования, последовательность пропептида, промотора, инициатора трансляции, кодирующую последовательность инициатора трансляции, последовательность трансляционного терминатора транскрипции и терминатора транскрипции. Контролирующие последовательности могут быть снабжены линкерами, например, с целью введения специфических рестрикционных сайтов, способствующих лигированию контролирующих последовательностей с кодирующей областью нуклеотидной последовательности, кодирующей полипептид.
Контролирующие экспрессию последовательности обычно как минимум содержат промотор. В настоящем изобретении термином промотор обозначается фрагмент нуклеиновой кислоты, который функционирует, контролируя транскрипцию одного или нескольких генов, расположенных впереди относительно направления транскрипции сайта инициации транскрипции гена, и в структурном отношении определяется наличием связывающего сайта связывания для ДНК-зависимой РНК-полимеразы, сайтов инициации транскрипции и любых других последовательностей ДНК, в том числе сайтов связывания факторов транскрипции, сайтов связывания белков-репрессоров и активаторов и любых других последовательностей нуклеотидов, известных специалистам в этой области, которые прямо или косвенно регулируют уровень транскрипции из промотора. Конститутивным промотором является такой промотор, который активен при большинстве условий среды и развития. Индуцибельным промотором является такой промотор, который активируется под воздействием среды или стадии развития.
- 17 015925
Отрезок ДНК типа контролирующей экспрессию последовательности является функционально связанным, если он находится в функциональном отношении с другим отрезком ДНК. Например, промотор или энхансер функционально связан с кодирующей последовательностью, если он стимулирует транскрипцию этой последовательности. ДНК сигнальной последовательности функционально связана с ДНК, кодирующей полипептид, если она экспрессируется в виде пробелка, участвующего в секреции полипептида. Обычно последовательности ДНК, которые функционально связаны, являются смежными, а в случае сигнальной последовательности и являются смежными, и находятся в одной рамке считывания. Однако энхансеры не обязательно примыкают к тем кодирующим последовательностям, которые они контролируют. Присоединение осуществляется путем лигирования по удобным рестрикционным сайтам или через адаптеры, линкеры или ПЦР-фрагменты известными в этой области способами.
Выбор надлежащей последовательности промотора обычно зависит от клеток хозяина, выбранных для экспрессирования отрезка ДНК. Примеры подходящих последовательностей промоторов включают прокариотические и эукариотические промоторы, хорошо известные в этой области (например, см. 8ашЬгоок апб Яикке11, 2001, Мо1еси1аг С1ошпд: А ЬаЬогаЮгу Мапиа1 (3гб ебйюп), Со1б 8ргшд НагЬог ЬаЬога!огу, Со1б 8ргшд НагЬог ЬаЬога!огу Ргекк, Ыете Уогк). Регулирующие транскрипцию последовательности, как правило, включают гетерологичный энхансер или промотор, который распознается хозяином. Выбор надлежащей последовательности промотора зависит от хозяина, однако известны и доступны такие промоторы, как 1гр. 1ас, и промоторы фагов, промоторы тРНК и промоторы ферментов гликолиза (например, см. 8ашЬгоок апб Яикке11, 2001, кирга). Примеры предпочтительных индуцибельных промоторов, которые можно использовать, включают промоторы, индуцируемые крахмалом, медью, олеиновой кислотой. Предпочтительными промоторами для клеток нитчатых грибов, например, являются промотор глюкоамилазы А.шдег или промотор ТАКА-амилазы А. огухае и промоторы, описанные в АО 2005/100573.
Нуклеотидная последовательность по изобретению также может содержать сигнальную последовательность или скорее кодирующую область сигнального пептида. Сигнальная последовательность кодирует аминокислотную последовательность, связанную с Ν-концом полипептида, которая может направлять экспрессируемый полипептид на секреторный путь клетки. Сигнальные последовательности обычно содержат гидрофобный стержень из 4-15 аминокислот, перед которым зачастую находится основная аминокислота. На С-конце сигнального пептида имеется пара небольших незаряженных аминокислот, разделенных одной вставочной аминокислотой, определяющей сайт отщепления сигнального пептида: уоп Нерпе О. (1990), 1. МетЬгапе Вю1. 115: 195-201. Несмотря на общее структурное и функциональное сходство, нативные сигнальные пептиды не имеют консенсусной последовательности. Кодирующие области подходящих сигнальных пептидов могут быть получены из гена глюкоамилазы или амилазы какого-нибудь вида АкрегдШик либо гена липазы или протеиназы какого-нибудь вида РЫхотисог. гена αфактора 8ассйагошусек сегеу1к1ае, гена амилазы или протеазы какого-нибудь вида ВасШик или гена препрохимозина теленка. Однако в настоящем изобретении можно использовать кодирующую область любого сигнального пептида, способного направить экспрессируемый белок на секреторный путь выбранных клеток хозяина. Предпочтительными кодирующими областями сигнальных пептидов для клеток нитчатых грибов являются кодирующие области сигнальных пептидов из гена ТАКА-амилазы АкрегдШик огухае (ЕР 238023), гена нейтральной амилазы АкрегдШик шдег, глюкоамилазы АкрегдШик шдег, гена аспартатной протеиназы ВЫхотисог пйейег гена целлюлазы Нитюо1а 1апидшока, целлюлазы Нитюо1а шко1епк, кутиназы Нит1со1а шко1епк, гена липазы В Сапб1ба апГагсйса или гена липазы ВЫхотисог 1ше11е1 и их мутантные, укороченные и гибридные сигнальные последовательности. В предпочтительном воплощении изобретения нуклеотидная последовательность, кодирующая сигнальную последовательность, является составной частью кодирующей последовательности, оптимизированной в отношении смещенности отдельных кодонов или пар кодонов для заданного хозяина.
В молекуле нуклеиновой кислоты по изобретению кодирующая последовательность предпочтительно также функционально связана с последовательностью инициатора трансляции. У эукариот консенсусная последовательность (6-12 нуклеотидов) перед инициирующим кодоном АТС часто называется консенсусной последовательностью Козака от первоначальной работы по этой теме (Кохак М. (1987): Ап апа1ук1к о! 5'-попсобшд кециепсек Ггот 699 уег1еЬга1е теккепдег ΡΝΆ^ №с1. Аабк Рек. 15(20): 8125-47). Исходная консенсусная последовательность Козака ССС6СС0ССгСС(АТ6)0, включающая нуклеотид +4 и выведенная Козаком, связана с инициацией трансляции у высших эукариот. У клеток прокариот соответствующая последовательность Шине-Дельгарно (АООАОО) предпочтительно находится в 5'-нетранслируемом участке мРНК прокариот и служит сайтом инициации трансляции для рибосом.
В контексте настоящего изобретения термин последовательность инициатора трансляции определяется как 10 нуклеотидов непосредственно перед инициирующим или старт-кодоном открытой рамки считывания последовательности ДНК, кодирующей полипептид. Инициирующий или старт-кодон кодирует аминокислоту метионин. Инициирующим кодоном обычно служит АТС, но им может быть и любой функциональный старт-кодон, как-то СТС, ТТС или СТС.
- 18 015925
В особенно предпочтительном воплощении изобретения молекула нуклеиновой кислоты включает кодирующую последовательность, кодирующую заданную аминокислотную последовательность, которая подлежит экспрессии в грибковых клетках хозяина, т. е. заданными клетками хозяина предпочтительно являются грибы, из которых наиболее предпочтительны нитчатые грибы. Молекулы нуклеиновой кислоты, включающие кодирующие последовательности, оптимизированные для экспрессии в клетках грибов в соответствии с изобретением, могут дополнительно содержать один или несколько следующих элементов: 1) консенсусную последовательность грибкового инициатора трансляции; 2) кодирующую последовательность грибкового инициатора трансляции и 3) грибковую последовательность терминации трансляции.
Консенсусная последовательность грибкового инициатора трансляции предпочтительно определяется следующими последовательностями: 5'-т\\С'11куСЛту-3'. при использовании неоднозначных кодов для нуклеотидов: т (А/С); г (А/С); у (А/Т); 5 (С/С); у (С/Т); к (С/Т); ν (А/С/С); к (А/С/Т); б (А/С/Т); Ь (С/С/Т); η (А/С/С/Т). В соответствии с более предпочтительным воплощением эти последовательности таковы: 5'-1п\уС11куСААА-3'; 5'-т\уС11куСЛСА-3' или 5'-т\уС11куСЛАС-3'. Наиболее предпочтительно консенсусная последовательность инициации трансляции представлена 5'-САСССТСААА-3' или 5'-СССАСТСААС-3'.
В контексте настоящего изобретения термин консенсусная кодирующая последовательность инициатора трансляции определяется как 9 нуклеотидов непосредственно после инициирующего кодона открытой рамки считывания кодирующей последовательности (инициирующим кодоном обычно служит АТС, но им может быть и любой функциональный старт-кодон, к примеру СТС). Предпочтительно грибковая консенсусная кодирующая последовательность инициатора трансляции имеет следующую последовательность нуклеотидов: 5'-ССТпССууС-3', при использовании неоднозначных кодов для нуклеотидов: у (С/Т) и η (А/С/С/Т). Это дает 16 вариантов кодирующей последовательности инициатора трансляции, из которых наиболее предпочтительна 5'-ССТ ТСС ТТС -3'. При использовании консенсусной кодирующей последовательности инициатора трансляции в указанных аминокислотных положениях могут находиться следующие аминокислоты: аланин в положении +2, аланин, серин, пролин или треонин в положении +3 и фенилаланин, серин, лейцин или пролин в положении +4 кодируемого полипептида. Предпочтительно в настоящем изобретении консенсусная кодирующая последовательность инициатора трансляции является чужеродной для последовательности нуклеиновой кислоты, кодирующей вырабатываемый полипептид, но она может быть и нативной для грибковых клеток хозяина.
В контексте настоящего изобретения термин последовательность терминации трансляции определяется как 4 нуклеотида сразу после стоп-кодона трансляции на 3'-конце открытой рамки считывания или кодирующей последовательности. Предпочтительными грибковыми последовательностями терминации трансляции являются: 5'-ТААС-3', 5'-ТАСА-3' и 5'-ТААА-3', из которых наиболее предпочтительна 5'-ТААА-3'.
Кодирующая последовательность, кодирующая заданную аминокислотную последовательность, подлежащую экспрессии в грибковых клетках хозяина, предпочтительно дополнительно оптимизирована по частотности отдельных кодонов таким образом, что по меньшей мере 1, 2, 3, 4 или 5 исходных кодонов, более предпочтительно по меньшей мере 1, 2, 3, 4, 5, 10, 15, 20, 25, 50, 75, 80, 85, 90 или 95% исходных кодонов заменяются синонимичными кодонами, причем синонимичные кодоны кодируют те же самые аминокислоты, что и нативные кодоны, но имеют большую частотность употребления кодонов, как определено в табл. А, чем исходные кодоны.
- 19 015925
Таблица А
Оптимальная частотность кодонов у нитчатых грибов по синонимическим кодонам в %
.Т. | .С. | А. | .6. | ||
т.. | РНе 0 | Зег 21 | Туг 0 | Суз 0 | . .т |
г.. | РНе 100 | 8ег 44 | Туг 100 | Суз 100 | . .с |
т.. | Ьеи 0 | 8ег 0 | Стоп | Стоп 0 | . .А |
т.. | Ьеи 13 | Зег 14 | Стоп 0 | Тгр 100 | . .6 |
с.. | Ьеи 17 | Рго 36 | ΗΪ3 0 | Агд 49 | . .Т |
с.. | Ьеи 38 | Рго 64 | Ηίδ 100 | Агд 51 | . .С |
с.. | Ьеи 0 | Рго 0 | <31п 0 | Агд 0 | . .А |
с.. | Ьеи 32 | Рго 0 | С1п 100 | Агд 0 | . .6 |
А. . | Не 27 | ТПг 30 | Азп 0 | Зег 0 | . ,Т |
А. . | Не 73 | ТНг 70 | Азп 100 | Зег 21 | . .С |
А. . | Не 0 | ТНг 0 | Ьуз 0 | Агд 0 | . .А |
А. . | Ме( 100 | ТНг 0 | Ьуз 100 | Агд 0 | . .6 |
С. , | Уа! 27 | А1а 38 | Азр 36 | С1у 49 | . .Т |
6. . | Уа1 54 | А1а 51 | Азр 64 | С1у 35 | . .С |
С. . | Уа1 0 | А!а 0 | 6!и 26 | С1у 16 | . .А |
О. . | Уа1 19 | А!а 11 | б!и 74 | <31у 0 | . .С |
Еще более предпочтительна кодирующая последовательность, кодирующая заданную аминокислотную последовательность, подлежащую экспрессии в грибковых клетках хозяина, предпочтительно дополнительно оптимизирована по частотности отдельных кодонов таким образом, что по меньшей мере 1, 2, 3, 4 или 5 исходных кодонов, более предпочтительно по меньшей мере 1, 2, 3, 4, 5, 10, 15, 20, 25, 50, 75, 80, 85, 90 или 95% исходных кодонов заменяются синонимичными кодонами, причем у синонимичных кодонов частотность меняется таким образом, что величина абсолютной разности между процентным содержанием данного кодона при данной частотности и приведенным в списке оптимальным процентом уменьшается после модифицирования, используя следующий список оптимального процентного состава:
цистеин при кодировании ТСС (100%); фенилаланин - ТТС (100%);
гистидин - САС (100%); лизин - ААС (100%); аспарагин - ААС (100%);
глутамин - САС (100%); тирозин - ТАС (100%);
аланин - ССТ (38%), ССС (50,7%) или ССС (11,3%);
аспартат - САС (63,2%); глутамат - САС (74,2%);
глицин - ССТ (49%), ССС (35,9%), ССА (15,1%);
изолейцин - АТТ (26,7%), АТС (73,3%);
лейцин - ТТС (12,7%), СТТ (17,4%), СТС (38,7%), СТС (31,2%);
пролин - ССТ (35,6%), ССС (64,4%);
аргинин - ССТ (49,1%), ССС (50,9%);
серин - ТСТ (20,8%), ТСС (44,0%), ТСС (14,4%), АСС (20,8%);
треонин - АСТ (29,7%), АСС (70,3%) и/или валин - СТТ (27,4%), СТС (54,5%), СТС (18,1%);
кодоны, кодирующие все другие возможные аминокислоты (0%).
Вышеприведенные молекулы нуклеиновой кислоты, содержащие кодирующие последовательности по изобретению (для экспрессирования в заданных клетках хозяина), могут дополнительно включать элементы, которые обычно встречаются в экспрессионных векторах, как-то селекционный маркер, начало репликации и/или последовательности, способствующие встраиванию, предпочтительно посредством гомологической рекомбинации по заданному сайту в геноме. Такие дополнительные элементы хорошо известны в данной области и не нуждаются в дальнейшем определении.
В следующем аспекте изобретение касается клеток хозяина, содержащих молекулы нуклеиновой кислоты, как определено выше. Клетками хозяина предпочтительно являются такие клетки, которые определены выше.
- 20 015925
В следующем аспекте изобретение касается способа продукции полипептида, имеющего заданную аминокислотную последовательность. Способ предпочтительно включает культивирование клеток хозяина, содержащих молекулы нуклеиновой кислоты, как определено выше, в условиях, способствующих экспрессии полипептида, и необязательно выделение полипептида.
В следующем аспекте изобретение касается способа продукции по меньшей мере одного внутриклеточного или внеклеточного метаболита. Способ включает культивирование клеток хозяина, как определено выше, в условиях, способствующих продукции метаболита. Предпочтительно в продукции метаболита у хозяина участвует полипептид, имеющий заданную аминокислотную последовательность (которая кодируется молекулой нуклеиновой кислоты, как определено выше). Метаболит (это может быть первичный или вторичный метаболит либо то и другое; внутри- или внеклеточный либо то и другое) может представлять собой любой продукт ферментации, который может вырабатываться в процессе ферментации. К таким продуктам ферментации относятся, к примеру, аминокислоты, как-то лизин, глутаминовая кислота, лейцин, треонин, триптофан; антибиотики, в том числе ампициллин, бацитрацин, цефалоспорины, эритромицин, моненсин, пенициллины, стрептомицин, тетрациклины, тилозин, макролиды и хинолоны; предпочтительными антибиотиками являются цефалоспорины и β-лактамы; липиды и жирные кислоты, в том числе полиненасыщенные жирные кислоты (РИЕА); спирты, как-то этанол, пропанол и бутанол; многоатомные спирты, как-то 1,3-пропандиол, бутандиол, глицерин и ксилит; кетоны, как-то ацетон; амины, диамины, этилен; изопреноиды, как-то каротеноиды, каротин, астаксантин, ликопен, лютеин; акриловая кислота, такие стерины, как холестерин и эргостерин; витамины, в том числе витамины А, В2, В12, С, Ό, Е и К; и органические кислоты, в том числе глюкаровая, глюконовая, глутаровая, адипиновая, янтарная, винная, щавелевая, уксусная, молочная, муравьиная, яблочная, малеиновая, малоновая, лимонная, фумаровая, итаконовая, левулиновая, ксилоновая, аконитовая, аскорбиновая, койевая и коменовая кислоты; предпочтительной органической кислотой является лимонная кислота.
В настоящем описании и формуле изобретения глагол включать и его формы спряжения применяются в неограничивающем смысле, означая, что включаются объекты, следующие за этим словом, но не исключаются объекты, не указанные конкретно. Кроме того, обозначение элемента в единственном числе не исключает возможности того, что имеется больше чем один такой элемент, если только из контекста не требуется, чтобы был один и только один такой элемент. Таким образом, единственное число обычно означает по меньшей мере один.
Примеры
Пример 1. Анализ смещенности пар кодонов.
1.1. Материалы и методы.
1.1.1. Данные и программное обеспечение.
Анализ пар кодонов может проводиться по данным о кодирующих последовательностях (СЭ8) во всей последовательности генома, а также извлеченных из них частичных групп (или частичной последовательности генома, к примеру типа библиотек кДНК/Е8Т, или же частичных данных из нескольких геномов родственных организмов). Применяемые в настоящем изобретении инструментальные средства считывают эти данные, используя файлы ЕА8ТА в качестве входных данных. Подавляющее большинство всех вычислений выполнялось в МАТЬАВ 7.01 (ТНе Ма!1 №огкв. 1пс., \\л\л\'.та111\\'огк5.еот). но иногда при детальном анализе полученных результатов использовали 8роЙпе ОесщюпЗйе 8.0 (8роЙпе, 1пс., 1Шр:/Лу\у\у.5ро1Пгс.сот/ргобис15/бсс15ЮП5Йс.сГт).
Для А.шдег использовали файл ЕА8ТА с расчетными последовательностями кДНК для полного генома СВ8513.88 (Ре1 е! а1., 2007, Ыа!. Вю!есй. 25: 221-231) и для группы из 479 генов с высоким уровнем экспрессии. Кроме того, поскольку у А.шдет обычно одновременно экспрессируется менее половины всех >14000 генов в условиях пилотной ферментации, то полученные при таких условиях данные из 24 генных чипов использовали для извлечения второго набора генов, включающего только те гены, которые действительно экспрессируются при различных экспериментах (учитывали только гены, имеющие по меньшей мере 18 попаданий, с помощью программы анализа матриц МА85.0 фирмы АГГутеМх; этот набор содержал 4584 гена), и ранжирования их согласно наблюдавшимся уровням мРНК (поскольку других данных в то время еще не было) так, чтобы можно было легко идентифицировать набор генов с высоким (предположительно) уровнем экспрессии. Этот второй набор создавали для того, чтобы ранжировать данные по уровням экспрессии.
Для этого анализа использовали уровни транскрипции генов. В качестве альтернативы можно применять количественные данные по экспрессии белков, например, методом двумерного гельэлектрофореза белков и последующей идентификации методом масс-спектрометрии. Однако получение данных по экспрессии белков при большом наборе белков все еще отнимает много времени по сравнению с определением уровня мРНК (например, с помощью генных чипов). Таким образом, при этом исследуется эффект смещенности кодонов на трансляцию еще до того, как произойдет трансляция. Сущ е! а1. (УеаЧ Мо1. Се11. Вю1. 19(3): 1720-30) действительно обнаружили корреляцию между уровнями экспрессии белка и мРНК и смещенностью кодонов у Е.сой, хотя корреляция между уровнями экспрессии мРНК и белка была весьма рудиментарной. Поэтому термин уровень экспрессии будет применяться в настоящем описании тогда, когда на самом деле определялся только эффект на уровень транскрипции.
- 21 015925
Для ВасШик киЫШк - организма, содержащего около 4000 генов, была доступна группа из 300 генов с высоким уровнем экспрессии, которую подвергали анализу; см. в табл. 1.1 сводку основных свойств геномов всех организмов, принимавшихся в расчет в настоящем исследовании (однако не все из них будут описаны подробно).
При каждом анализе игнорировали (предположительные) гены, содержащие один или несколько кодонов в других положениях, чем на конце, и последовательности, длина которых не делится на три (т.е. у них могло произойти смещение рамки считывания при секвенировании). Также не учитывали первые 5 кодонов и последние 5 кодонов у каждого гена, так как эти сайты могли участвовать в связывании и отделении белка и поэтому подвергаться иному селекционному давлению, чем другие части последовательности, так что смещенность кодонов и пар кодонов у них могла оказаться не репрезентативной. Также из анализа исключали все ОКЕ (ОКЕ = открытая рамка считывания) короче 20 кодонов. В табл. 1.1 это учтено.
Таблица 1.1 Нуклеотидный состав у некоторых организмов, включая количество ОКЕ и размер генома в млн. пар оснований (м.п.о.)
Названне организма | Количество ОВЕ | М.п.о. | Содержание нуклеотида: | |||
А | С | С | Т | |||
А. пкЫапз | 7 782 | 10,61 | 24% | 28% | 26% | 22% |
А. т§ег | 13 962 | 18,41 | 24% | 27% | 26% | 22% |
А. огугае | 12 074 | 16,29 | 25% | 26% | 26% | 23% |
В. ату1оИдие£ас1епз | 4 449 | 3,54 | 26% | 24% | 27% | 23% |
В. зиЬННз | 4 104 | 3,66 | 30% | 20% | 24% | 26% |
Е. СО11К12 | 4 289 | 4,09 | 24% | 25% | 27% | 24% |
К. 1асйз | 5 336 | 7,52 | 32% | 19% | 21% | 28% |
Р. сЬтузо^епит | 13 164 | 17,54 | 24% | 27% | 25% | 23% |
8. сегеу151ае | 6 449 | 9,01 | 33% | 19% | 20% | 28% |
8. соеИсо!ог | 7 894 | 7,62 | 14% | 37% | 35% | 13% |
Т.геезе! | 8 331 | 11,45 | 23% | 30% | 28% | 20% |
1.1.2. Ожидаемая встречаемость пар кодонов.
Для того чтобы анализировать употребительность кодонов, сначала просчитывали число вхождений каждого отдельного кодона и каждой пары кодонов, что обозначается ниже как поЬк((с1, с,)), где оЬк означает наблюдаемый. Двойные скобки нужны для указания того, что наблюдаемое число, т.е. поЬк, является функцией только с одним аргументом, который сам является парой (в данном случае парой кодонов, т.е. (сь с,)). То же самое относится ко всем приведенным ниже функциям от пар кодонов. Индексы ί, _), а также к могут составлять от 1 до 64, обозначая номер кодона во внутреннем представлении (в алфавитном порядке). Пара кодонов обозначается через (с,, с,). где с1 представляет левый кодон (т.е. 5'-триплет из последовательности в 6 нуклеотидов), а с, - правый (т.е. ближе к 3'-концу), а также по числу вхождений па11кс(ск) для каждого кодона ск (где нижний индекс кс означает отдельный кодон (кшд1е собой), а верхний индекс а11 означает, что данное число относится ко всему геному, в противоположность пдкс(ск), которое применяется для обозначения долей кодонов в отдельном гене д; функции же пар кодонов типа поЬк((с1, с,)) всегда означают количество во всем геноме или большой группе генов). Затем вычисляли относительные доли отдельных кодонов (отметим, что в некоторых работах эти доли также именуются частотами, но частотность кодона может означать и число вхождений кодона, деленное на общее число всех кодонов):
где куп(ск) означает группу кодонов, кодирующих ту же самую аминокислоту, что и ск, поэтому они синонимичны ск.
Так, величина суммы под знаком деления равняется числу вхождений кодируемой сг аминокислоты во всем протеоме. См. краткий список самых важных символов и формул, используемых при этом в приложении 1.
Чтобы выяснить, не являются ли некоторые подозрительные предпочтения пар кодонов результатом предпочтительности индивидуальных кодонов, нужно рассчитать ожидаемые значения для каждой пары кодонов, исходя из частотностей отдельных кодонов. Их рассчитывали по формуле где верхний индекс о\\гп используется для того, чтобы отличить эти значения от значений, полученных другими методами, приведенными далее.
В последнем множителе этого уравнения суммируются фактические вхождения всех пар синонимичных кодонов. Так, ожидаемое количество каждой пары кодонов является произведением долей употребительности индивидуальных кодонов на число вхождений соответствующей пары аминокислот.
- 22 015925
СиПпап апй На(Пе1й (1989, Ргос. №111. Асай. 8с1. И8А/ 86: 3699-3703) предложили другой способ вычисления ожидаемых значений. Их первоначальный подход состоял в том, чтобы вычислить частоту кодонов (т. е. количество данного кодона в гене д, деленное на общее число кодонов в д, обозначаемое как |д|) для каждого гена по отдельности, а затем перемножить эти значения попарно и на число пар кодонов в этой последовательности (которое равно |д|-1);
В этом уравнении дН1 означает метод 1 согласно СиПпап апй На(Пе1й (1989, кирга). Оно дает ожидаемые значения пар кодонов для каждого гена (выражение после оператора суммирования в вышеприведенном уравнении), которые затем суммируются, давая окончательные ожидаемые значения, которые по определению скорректированы на возможные отклонения в употребительности отдельных кодонов между разными генами одного и того же генома, но не учитывают возможную смещенность употребления пар аминокислот. Это значит, что если определенные аминокислоты встречаются рядом друг с другом чаще, чем другие, либо, иными словами, если число вхождений пары аминокислот не равно тому, которое должно быть в рандомизированных последовательностях с таким же аминокислотным составом, то ожидаемые значения также будут заметно отличаться в том смысле, что пары кодонов, кодирующие весьма редко употребляемые пары аминокислот, будут иметь слишком высокие ожидаемые значения, а те, что употребляются чаще, будут иметь слишком низкие значения.
СпПпап апй На(Пе1й (1989, кирга) также предложили способ нормализации этих ожидаемых значений на смещенность пар аминокислот. При этом они просто сравнили ожидаемое согласно их методам количество пар аминокислот с наблюдаемым и скорректировали ожидаемые значения всех задействованных пар кодонов соответствующим образом так, чтобы первые соответствовали последним:
Σ МЖ)) сп^уп(с()
В этом уравнении дН2 означает метод 2 согласно СиПпап апй На(Пе1й (1989, кирга).
1.1.3. Вычисление смещенности пар кодонов.
Фактическая смещенность пар кодонов Ь1ак((с1, ср в таком случае должна вытекать из разности между ожидаемыми и фактическими (наблюдаемыми) количествами пар кодонов (при этом для получения ожидаемых значений могут применяться любые из этих методов). Первоначальный подход заключался просто в вычислении их по формуле
При этом величина смещенности должна показывать, на сколько процентов чаще или реже от ожидаемого употребляется данная пара кодонов (при умножении на 100%, конечно). Для пар аминокислот, не встречающихся в анализируемом наборе генов, значение смещенности по этой формуле должно составлять 0/0 по всем соответствующим парам кодонов. В этом случае она принимается равной 0. Нижней границей значений смещенности должна быть -1, а четкой верхней границы нет. Это посчитали несколько непрактичным, поэтому использовали другую формулу:
ЙЙК ((с,, с,)) =----------------где тах(а,Ь) означает большее из двух значений а и Ь, при этом значение смещенности всегда заключается между (-1, 1). Это значит, что значение смещенности может быть равным -1, но не +1. Первое случается тогда, когда определенная пара кодонов вообще не употребляется для кодирования реально встречающейся пары аминокислот; а значение +1 не достигается потому, что тогда пехр((с1, ср) должно быть равно 0, а это возможно лишь тогда, когда поЬк((с1, ср) тоже равно 0.
Вышеприведенная интерпретация верна и для значений смещенности меньше 0 (при этом поЬк((с1, с,))<пехр((с1, ср), так что обе формулы дадут один и тот же результат). Если же поЬк((с1, с,))>пехр((с1, ср), то значения смещенности (которые при этом >0) показывают, на сколько процентов ожидаемое значение будет меньше наблюдаемого значения (т. е. в этом случае меняется базовая линия).
- 23 015925
1.1.4. Статистическая значимость смещенности.
Си1шап аиб На1Пс1б (1989, зирга) для определения статистической значимости своих результатов использовали критерий χ2. Этот критерий используется для проверки по определенной гипотезе того, с какой вероятностью какие-то наблюдаемые результаты могли получиться случайным образом. При рассмотрении пар кодонов такая гипотеза будет заключаться в том, что употребительность пар кодонов является результатом случайного отбора каждого кодона независимо. Для проверки этой гипотезы рассчитывается значение χ2:
2= у ^ехр где СР означает комплект всех пар кодонов, за исключением стоп-кодонов.
Тогда число степеней свободы равно 3720 (61x61 - 1). Если бы отбор кодонов был случайным, то следовало бы ожидать, что значение χ2 составит около 3720 (т.е. будет равным числу степеней свободы) со стандартным отклонением, равным корню квадратному из 2хстепеней свободы.
Таким образом, можно проверить общую статистическую значимость наблюдаемой смещенности. Но можно также вычислить и статистическую значимость смещенности индивидуальных пар кодонов. Как и в приведенном выше методе вычисления ожидаемых значений, число вхождений пары кодонов считается результатом ряда независимых экспериментов типа да/нет (да - эти два кодона выбраны для кодирования соответствующей пары аминокислот; нет - выбрана другая пара кодонов), поэтому оно подчиняется биномиальному распределению, которое может быть аппроксимировано нормальным распределением, если набор анализируемых генов достаточно большой. Хорошим приближением считается такое, когда пхр>4, где η означает количество экспериментов, а р - вероятность ответа да, которая и является ожидаемым значением. Таким образом, для каждой пары кодонов можно рассчитать стандартное отклонение по формуле
Затем можно рассчитать стандартные показатели, которые также называют ζ-показателями г((с с ” 3” <Т((С„С;)) '
Абсолютное значение ζ-показателя говорит о том, на сколько стандартных отклонений от ожидаемого значения отстоит фактическое (наблюдаемое) значение. В предположении нормального распределения примерно 95% всех наблюдаемых значений должно находиться в пределах двух стандартных отклонений от ожидаемого значения, а >99% - в пределах трех.
1.2. Результаты.
1.2.1. Наличие смещенности пар кодонов.
С применением вышеприведенных методов было обнаружено, что существует значительная смещенность пар кодонов. У всех исследованных организмов критерий χ2 давал значения χ2, превышавшие в несколько раз число степеней свободы и тем самым были выше ожидаемого значения на несколько стандартных отклонений. Что же касается смещенности индивидуальных пар кодонов, то подтвердились данные Моига с1 а1. о том, что у дрожжей контексты около 47% пар кодонов попадают в интервал от -3 до +3 стандартных отклонений от ожидаемых значений (хотя они вычисляли ожидаемые значения подругому), что соответствует ζ-показателям в нашем методе/ В целом значительно больше пар кодонов имеют весьма высокие ζ-показатели, чем должно быть в том случае, если бы употребительность пар кодонов была случайной. См. табл. 1.2: при случайном отборе, что привело бы примерно к нормальному распределению, например, только около 5% всех пар кодонов должны иметь ζ-показатель больше 2 или меньше -2, однако у выбранных 4 организмов во всем геноме это на самом деле касается более чем двух третей.
- 24 015925
Таблица 1.2
Ζ-показатели у различных организмов
ΙΖ-показатель) | >1 | >2 | >3 |
при нормальном распределении | 68,3% | 5,0 % | 0,3 % |
А. П1<1и1ап8 | 86,1% | 73,7% | 60,4% |
А. пЦег | 89,2% | 79,1% | 69,7% |
А. огугае | 88,4% | 76,7% | 65,1% |
В. атукШчиеГаыепз | 88,1% | 76,4% | 64,0% |
В. зиЬйИз | 86,1% | 72,0% | 59,3% |
Е. сой К12 | 86,1% | 74,8% | 64,0% |
К. 1асЙ5 | 82,6% | 67,0% | 53,4% |
Р. сЬгузодепит | 89,3% | 79,1% | 69,0% |
8. сегеУ1з!ае | 82,7% | 67,6% | 52,1% |
8. сое!1со1ог | 82,0% | 66,5% | 53,5% |
Т. геезе! | 89,0% | 79,8% | 71,0% |
Отметим, что эти значения как-то коррелируют с размером генома (см. табл. 1.1 для сравнения), т.е. организмы с большими геномами имеют больше пар кодонов с крайними значениями ζ-показателя. В особенности при анализе небольших групп генов (например, 479 генов с высоким уровнем экспрессии у А.шдег) эти значения оказываются меньшими (в данном примере: 65,1, 37,2 и 19,7% соответственно), так как меньшее число вхождений ведет к большим стандартным отклонениям (по сравнению с ожидаемыми значениями) и тем самым к меньшей статистической значимости результатов. Это ведет к заключению о том, что употребительность пар кодонов не является результатом случайного отбора кодонов в соответствии с долями отдельных кодонов.
Распределение самих значений смещенности отличается от одного организма к другому. Это можно объяснить на примере фиг. 3, на которой представлено распределение значений смещенности пар кодонов для 3721 смысловых пар кодонов у различных организмов. Цифры в правом верхнем углу каждой гистограммы на фиг. 3 представляют стандартные отклонения для наблюдаемого распределения; средние значения (не приведены) находятся между -0,06 и -0,01 у всех организмов. Из приведенных на фиг. 3 гистограмм видно, что из 10 исследованных организмов наибольшей смещенностью пар кодонов обладают бактерии Е.сой, В.киЬШик, В.ату1ойдиеГас1еик и 8.соейсо1ог, тогда как у грибков А.шдег, А.о^ае, А.1еггеик, А.шйи1аик, Р.сйгукодеиит и дрожжей 8.сегеуШае и К.1асШ она менее экстремальна.
При сравнении смещенности пар кодонов у различных организмов можно сделать еще одно интересное наблюдение. Значения смещенности у родственных организмов проявляют большую корреляцию, чем у неродственных организмов. Это раскрывается на примере фиг. 4. На фиг. 4 представлена корреляция по смещенности пар кодонов у различных организмов. Коэффициент корреляции приведен в правом верхнем углу каждого отдельного графика. При этом анализе самые высокие корреляции наблюдались между А.шдег и Р.сйгукодеиит, А.шдег и А.о^ае, а самые низкие, т.е. почти никакой корреляции, наблюдались между В.киЫШк и 8.сое11со1ог. Интересно, что не наблюдалось отрицательных корреляций. Это значит, что, хотя организмы с высоким содержанием СС (как-то 8.соейсо1ог) предпочитают те кодоны, которые менее употребительны у богатых АТ организмов (как-то 8.сегеуыае или, хотя и не столь богатых АТ, В.киЬйШ), не существует таких двух организмов, у которых предпочтительные пары одного организма были бы отброшены у другого, и наоборот. Это может означать, что, хотя смещенность почти каждого отдельного кодона зависит от организма, однако есть несколько пар кодонов, которые являются предпочтительными и/или отброшенными почти у каждого организма (например, потому, что они могут вызвать сдвиг рамки считывания или тРНК с неправильной структурой).
1.2.2. Профили смещенности пар кодонов.
Для того чтобы визуализировать наблюдаемую смещенность пар кодонов, можно построить так называемые карты, как это сделали Моига е1 а1. (2005) (они называют эти карты картами контекста кодонов). Это легче всего объяснить на примере цветных изображений, состоящих из цветных прямоугольничков для каждой пары кодонов, при этом строки соответствуют первому, а столбцы - второму кодону пары. Красным цветом представлена отрицательная, а зеленым - положительная смещенность. Белым цветом представлены пары кодонов, у которых смещенность на самом деле равна 0 (например, это верно в случае АТС-АТС, поскольку это единственная возможность кодирования пары аминокислот Ме1-Ме1), и пары, включающие стоп-кодоны.
Однако цветные изображения не могут входить в описание патентной заявки. В данном примере для черно-белой визуализации изображение будет разбито на две части. На фиг. 5А представлены положительные пары кодонов у А.шдег, а на фиг. 5В представлены отрицательные пары кодонов у А.шдег (см. также приложение 3, табл. С1). Чем большая смещенность пары кодонов, тем чернее соответствующий прямоугольничек. Значения смещенности колеблются от -0,67 до 0,54, тогда как у других организмов они могут даже слегка превышать ±0,9 (см. также фиг. 3). Наиболее интенсивным черным (в оригинале зеленый цвет, наверху) цветом (в оригинале красный цвет, внизу) на этих диаграммах представлены
- 25 015925 значения, равные 0,9 и -0,9 соответственно (не достигается; по большей части абсолютные значения максимальной смещенности оказываются слегка меньшими, чем значения минимальной смещенности).
Кроме того, отсылаем к таблицам матриц СР\У в приложении 3, которые содержат численные значения смещенности пар кодонов, а также к фиг. 5 в качестве черно-белого примера цветного изображения, по которым специалист может реконструировать цветную версию с помощью численныхе значений из таблиц в приложении 3.
Первый подход к таким картам пар кодонов состоял в том, чтобы упорядочить строки и столбцы в алфавитном порядке (так как это и есть порядок их внутреннего представления). На этих картах было видно, что диагонали содержат немного больше зеленых, чем красных точек, а это значит, что многие кодоны имеют предпочтение к одинаковым кодонам в качестве соседей. Кроме того, большинство соседних столбцов были в чем-то похожими, тогда как соседние строки по большей части не были похожими (данные не приводятся; см. фиг. 5А и 5В и приложение 3, табл. С1). Однако большинство строк были похожими на строку, отделенную тремя другими, т. е. было какое-то сходство по каждой четвертой строке.
Поскольку общим признаком каждой четвертой строки является последний нуклеотид из первого кодона пары, то более предпочтительным оказалось упорядочение строк в алфавитном порядке по третьему положению в качестве первого критерия упорядочения и по среднему положению в качестве второго. При этом на карте для А.шдег можно видеть (фиг. 5С и 5Ό и приложение 3, табл. С1) то, что смещенность как будто в самом деле коррелирует с последним нуклеотидом первого (5') и первым нуклеотидом второго (3') кодона, так как большинство значений соответствующих блоков по 16x16 пар кодонов имеют один и тот же цвет. Например, общим правилом, которое проявляется у АзретдШиз, является то, что пары кодонов типа ххТ-Ахх (х означает любой нуклеотид, показывая, что нуклеотид в соответствующем положении не имеет значения для данного правила) отбрасываются (красный блок в левом нижнем углу), тогда как предпочтительные кодоны характеризуются профилем ххА-Тхх (зеленый блок в правом верхнем углу), опять же свидетельствуя о том, что смещенность пар кодонов является направленной. Однако не всякая смещенность раскрывается только профилями по двум соседним нуклеотидам в центре пары кодонов. Например, пары кодонов ххС-Ахх (см. второй блок сверху в самом левом углу) в общем не являются предпочтительными или отбрасываемыми, но имеется явное предпочтение к парам с профилем ххС-ААх (см. четыре зеленых столбца слева от только что указанного блока). Смещенность также может зависеть и от несмежных нуклеотидов (например, сильное отбрасывание пар СхА-Схх у В.зиЫШз; см. фиг. 6 А и 6В и приложение 3, табл. С4). К сожалению, смещенность пар кодонов не всегда вписывается в такие простые профили (например, см. довольно хаотичную карту для Е.со11 на фиг. 7А и 7В и приложение 3, табл. С5) - общие свойства не обнаруживаются даже при проведении кластерного анализа с использованием 8роШте ЭесыопЕФе 8.0 (1Шр://\у\т\у.5ро1Пге.сот/ргобис15/бес15ЮП5Це.сГт) (данные не приводятся), т.е. идентифицированные кластеры состояли в основном из неродственных кодонов (т.е. не имеющих общих нуклеотидов в одном и том же положении).
1.2.3. Связь между смещенностью и уровнем экспрессии.
При изучении карты смещенности для генов с высоким уровнем экспрессии (или скорее предположительно высоким уровнем экспрессии, так как они были идентифицированы только по уровням транскрипции) у А.шдег (см. фиг. 8) наличие больших групп, т.е. блоков на диаграмме, оказывается не столь очевидным (иными словами, описанные выше простые правила могут и вовсе отсутствовать). Тем не менее, поскольку в этой группе две трети всех пар кодонов встречаются 36 или меньше раз, и по причине в среднем значительно меньших ζ-показателей, как указано выше, то это в большой степени можно приписать случайным флуктуациям.
На фиг. 9 представлен график рассеяния смещенности в группе из 479 генов с высоким уровнем экспрессии (по вертикальной оси) в сравнении со смещенностью во всех генах (по горизонтальной оси) у А.шдет. Представлены все пары кодонов (3721), не считая стоп-кодонов.
Цвета от светло-серого до черного присваивали в соответствии с абсолютными значениями ζпоказателя во всем геноме, т.е. светлые точки на графике не обладают значимой смещенностью во всех генах, а размеры соответствуют абсолютным значениям ζ-показателя в группе с высоким уровнем экспрессии, т.е. очень маленькие точки не обладают значимой смещенностью (при этом |х-показатель|<1.9). Сплошная черная линия означает, что оба значения смещенности равны; пунктирная черная линия представляет наилучшую линейную аппроксимацию фактической корреляции (методом анализа основной компоненты), её наклон примерно равен 2,1.
При сравнении двух значений смещенности каждой пары кодонов в группе с высоким уровнем экспрессии и во всем геноме (см. график рассеяния на фиг. 9) видно, что у большинства пар в группе с высоким уровнем транскрипции смещенность более экстремальна, т.е. меньше, если она меньше 0, и больше, если она положительна, но есть и такие пары, у которых значения смещенности весьма отличаются и даже имеют разные знаки. Однако это в основном пары кодонов с небольшим числом вхождений в верхнюю группу, а большинство пар с очень высокой смещенностью (синие, большие кружочки) имеют близкие значения в обеих группах (т.е. они находятся вблизи от синей линии, означающей, что оба значения смещенности равны).
- 26 015925
В отношении аналогичных отличий по смещенности у кодонов с одинаковыми двумя нуклеотидами из трех никаких специфических профилей не обнаружено (ни у А.шдег, ни у В.киЫШк), т.е. на графиках отличий по смещенности, аналогичных приведенному выше, не оказалось больших групп с аналогичными отличиями по смещенности.
1.3. Подробности идентификации весов пар кодонов для адаптации генов.
Теперь можно определить веса пар кодонов для адаптации в соответствии с описанными методами (приложение 1. Веса пар кодонов - метод одной группы последовательностей или генома):
1) на основе полного набора генов; на основе подмножества из набора 1;
2) в виде фракции генов с высоким уровнем экспрессии.
Кроме того, авторы изобретения запустили поиск для идентификации весов пар кодонов, явно связанных с высоким уровнем транскрипции, что необходимо для усовершенствованного способа адаптации употребления пар кодонов. Применяли следующие методы: в отношении А.шдег, где имеется полное ранжирование извлеченных из Сег1еС1ир данных для вышеприведенного набора из 4584 подвергающихся экспрессии генов (см. Данные в разделе Материалы и методы), вычисляли средние веса пар кодонов по каждому гену (т.е. эквиваленты значений й!ср(д)). Затем гены упорядочивали по значениям пригодности (в порядке возрастания) и уровня экспрессии (в порядке уменьшения). Поскольку предполагается, что гены с высоким уровнем экспрессии имеют низкие значения пригодности пар кодонов, эти две классификации должны быть равными при использовании идеальных весов пар кодонов, так что сравнение этих двух классификаций может дать информацию о добротности весов, используемых в функции пригодности (при этом несколько большее внимание уделялось правильному ранжированию генов с высоким уровнем экспрессии, чем со средним уровнем). Кроме того, рассчитывали коэффициент корреляции (ковариация, деленная на стандартное отклонение каждого параметра) между ранжированием и средними весами пар кодонов у 4584 генов.
Рассматривали несколько возможных наборов весов, включая:
ί) значения смещенности из всего генома;
ίί) значения смещенности из группы с высоким уровнем экспрессии;
ϊϊΐ) значения смещенности с тем, что все значения, не имеющие определенного минимального ζпоказателя, принимаются равными 0;
ίν) значения смещенности в степени 2 (или более высокой степени), чтобы придать очень предпочтительным или отбрасываемым кодонам меньшее/большее значение);
ν) их комбинации;
νί) сами ζ-показатели;
νίί) разности значений смещенности или ζ-показателей из группы с высоким уровнем экспрессии и всего генома.
Для генетического алгоритма использовали их значения с обратным знаком, так как предпочтительным парам кодонов были присвоены положительные значения (весьма произвольно), тогда как генетический алгоритм выполняет минимизацию. Это применимо ко всем вышеприведенным весам.
Из них наилучшей матрицей весов оказалась комбинация пп.и)-ту), однако еще лучшая матрица весов может быть получена, как описано выше, путем вычисления смещенности пар кодонов в группе с высоким уровнем экспрессии с помощью ожидаемых значений, рассчитанных на основе долей кодонов по всему геному. На фиг. 10 представлена корреляция, которая наблюдалась.
В отличие от всех других проверенных наборов весов, при этом в слегка невыгодное положение попадают пары кодонов с участием тех кодонов, которые менее представлены в группе с высоким уровнем экспрессии. Таким образом, только эти веса также отражают различную смещенность отдельных кодонов в группе с высоким уровнем экспрессии и по всем генам. Использование этих весов влечет опасность отбрасывания некоторых пар кодонов, на самом деле имеющих положительную смещенность в группе с высоким уровнем экспрессии, но состоящих из (в группе с высоким уровнем экспрессии) редко употребляемых кодонов. Однако поскольку желательные для нас доли отдельных кодонов обычно не идентичны входящим в группу генов с высоким уровнем экспрессии, а более экстремальны, чем у них, то при оптимизации по отдельным кодонам они все равно будут заменены, так что можно считать описанные выше веса очень удобными для оптимизации пар кодонов.
В заключение отметим, что была идентифицирована потенциально лучшая матрица весов для адаптации генов, как описано выше. Уравнение приведено в приложении 1 Веса пар кодонов - метод группы с высоким уровнем экспрессии вместе с контрольной группой (или геномом).
- 27 015925
1.4. Оптимизация отдельных кодонов и пар кодонов ίη кШсо.
1.4.1. Материалы и методы.
Разработанные программные средства МАТЬАБ для анализа и оптимизации генов состоят из нескольких функций, размещенных в различных каталогах согласно их функциональным возможностям. Для того чтобы их использовать, необходимо сделать их всех известными среде МАТЬАБ. Для этого нужно выбрать 8е1 Ра(Ь из меню Р11е, а затем щелкнуть на Абб \νί11ι киЬГо1бегк и выбрать путь, в котором инсталлирована программа (обычно он называется МаЙаЬ-Ью). Также нужно ввести расположение файлов РА8ТА и других, которые нужно анализировать. Все индивидуальные функции МАТЬАБ вкратце описаны в соФепКт (для вывода этого файла в среде МАТЬАБ нужно набрать 1е1р МаИаЬ-Ью и использовать 1е1р вместе с названием функции для получения подробной информации о ней). Для оптимизации генов с упором на употребительность пар кодонов есть две важные функции: Гц11апа1ук1к и депеорГ'.
Если полный геном организма, к которому нужно адаптировать ген, находится в файле, скажем, Ашдег_ОВР.йак1:а, а идентификаторы его генов с высоким уровнем экспрессии находятся в ап-Ыдй.Ш, нужно набрать Ги11апа1ук15 ('Ап1дег_ОВР.йак1а', 'ап-ЫдН.ГхЬ 'ап') ; и получить: (ί) карту смещенности пар кодонов для всего генома; (ίί) карту смещенности пар кодонов для группы генов из второго файла и (ίίί) несколько переменных (т.е. комплектов временно хранящихся данных) в рабочем пространстве МАТЬАБ для дальнейшего использования. Третий параметр Ги11апа1ук1к определяет только то, как именуются эти переменные и может быть пропущен, если подлежит анализу только один геном в одно и то же время. Среди указанных переменных есть: (ί) данные по употребительности и смещенности пар кодонов для всего генома (в данном примере именуется срап''); (ίί) то же самое для особой группы генов, определяемой вторым параметром (именуется срапк); и (ίίί) структура с намеченными долями отдельных кодонов и весами пар кодонов, которые можно использовать для генетического алгоритма. При наборе Ги11апа1ук1к ('Ху^_ОВР.Гак1а') ; только выводится карта смещенности пар кодонов и хранятся данные по смещенности для соответствующего генома.
Несмотря на то что вторым параметром может быть любой файл, включающий идентификаторы генов (например, группы генов с низким уровнем экспрессии или генов с какой-то общей функцией), он всегда рассматривается как набор генов с высоким уровнем экспрессии в отношении этого (потенциального) параметра (именуемого ор1рагатГогап в этом примере, что означает оптимизационный параметр для заданного организма). Отметим, что при этом относительные доли отдельных кодонов вычисляются просто как г1а1де18с(ск)=2-гЬ1дЬ8с(ск)-га11 8с(ск), что является допустимым приближением. Искомые доли могут быть установлены и другими методами, которые включают особенности распределения отдельных кодонов (см. основной текст) для того, чтобы еще больше улучшить детализацию желательных долей. Кроме того, искомые доли можно оставить пустыми, если не обнаружена определенная смещенность, чтобы дать алгоритму пар кодонов больше свободы в нахождении решений с большей пригодностью пар кодонов. Несколько таких предопределенных заданных векторов для отдельных кодонов приведено в приложении 1 для различных организмов хозяина.
Для использования предопределенных заданных долей отдельных кодонов нужно изменить поле сг этого параметра, набрав орфагатГогап.сг = [, затем вставить значения долей отдельных кодонов (например, скопировать из листа Ехсе1; отметим, что они должны располагаться в алфавитном порядке кодонов), набрать ];, если эти доли доступны в виде строки из 64 элементов, или ] ';, если они скопированы из столбца, и нажать ЕФег (обратите внимание на дополнительную одинарную кавычку или апостроф после закрывающей скобки в последнем случае). Несущественным кодонам, т.е. кодонам, которым не нужно задавать определенные значения долей, может быть приписано значение №1Ν (номера нет), и они будут пропущены при вычислении пригодности отдельных кодонов.
Для исключения некоторых коротких последовательностей из оптимизированного гена нужно установить параметр гк таким же образом, при этом каждая последовательность должна быть заключена в одинарные кавычки, а все последовательности вместе должны быть заключены в фигурные скобки, например (без разрыва строки) орфагатГогап.гк = {'СТССАС' '6С66С6СС'};. Наконец, поле ср1 этого параметра можно изменить для придания большего значения оптимизации отдельных кодонов или оптимизации пар кодонов в комбинированной функции пригодности (см. подраздел Выполнение оптимизации пар кодонов в Результатах и обсуждении). По умолчанию это значение равно 0,2. Можно настроить его на меньшее значение, если результаты экспериментов с оптимизированными по парам кодонов генами проявляют слабое улучшение оптимизированных по парам кодонов генов по сравнению с оптимизированными по отдельным кодонам генами; в противном случае лучше подойдет более высокое значение ср1.
Затем можно выполнять реальную оптимизацию гена, используя генетический алгоритм с помощью функции депеорГ Единственные параметры, необходимые для этого, - подлежащая оптимизации последовательность и структура, содержащая веса пар кодонов, намеченные доли и рестрикционные сайты, как описано выше, так что можно использовать, к примеру, депеор! ('МиУАЯЫЕр§Т*', орфагатГогап); для оптимизации данной (довольно короткой) белковой последовательности для высокого уровня экспрессии в А.шдег; звездочка '*' используется для обозначения того, что конечная генетическая последо
- 28 015925 вательность должна иметь стоп-кодон на конце (однако поскольку оптимальным сигналом терминации у А.шдег считается тетрамер ТААА, то это не обязательно). Отметим, что подлежащая оптимизации последовательность опять же должна быть заключена в одинарные кавычки; если последовательность содержит только буквы А, С, С, Т или υ, а её длина делится на 3, то она автоматически считается нуклеотидной последовательностью. После этого генетический алгоритм выполняет 1000 циклов итерации при величине популяции 200, из которых каждый раз отбирается 80 индивидов (79 самых лучших и один случайным образом) и используется для создания новых индивидов, причем 40% новых индивидов создается методом кроссовера и 60% с помощью оператора мутаций. Эти значения по умолчанию оказались очень удобными для оптимизации, т.е. изменение этих параметров приводит, если вообще, только к очень небольшому улучшению генов, но все же их можно изменять, к примеру, если при оптимизации нужно отвести значительно больше или меньше времени на вычисления (в среднем работа депеор! с геном примерно в 500 кодонов занимает около 15 мин на процессоре Реп!шт М в 1,4 ГГц). Например, депеор! (кед, οрΐра^ашίο^аπ, [50 750 5 0 0.6]) заставляет генетический алгоритм просчитывать 750 поколений из популяции, из которой каждый раз отбирается 50 и создается 250 новых индивидов (в каждом поколении обрабатывается 5x50, т.е 300 индивидов), отбираются только самые лучшие индивиды (без отбора случайным образом) и 60% рекомбинаций выполняется с помощью оператора кроссовера. Чтобы более подробно узнать о том, как задаются эти параметры, нужно набрать 4е1р депеор! и 4е1р депеНса1доп111т.
Отметим, что, хотя здесь представлена и описана процедура создания весов пар кодонов путем анализа соответствующих файлов ЕА8ТА для А.шдег и В.киЬ!Шк, именно для этих двух организмов это не требуется, так как эти вычисления уже были выполнены при предыдущих оптимизациях генов. Для облегчения применения соответствующие параметры для генетических алгоритмов были сохранены (нужно набрать 1оаб даба!а_4ог_ап или 1оаб даба!а_4ог_Ьк соответственно; обратите внимание, что там эти параметры теперь называются просто ап_рагат и Ьк_рагат).
1.4.2. Результаты.
На фиг. 11 представлены значения пригодности у пяти вариантов, оптимизированных при различных значениях ср1 (см. подпись к диаграмме на фиг. 11). Белок является грибковой α-амилазой (ΕυΑ; также именуется АтуВ), которая подвергалась оптимизации для хозяина А.шдег (см. пример 2). Кроме того, представлены результаты чистой оптимизации по отдельным кодонам (черные точки справа) и оптимизации по парам кодонов (верхняя левая группа). Оптимизированные варианты получали при запуске генетического алгоритма на 1000 циклов итерации при величине популяции 400, что заняло около 17 мин при каждом запуске процессора Реп!шт М в 1,4 ГГц. Отметим, что чистая оптимизация по отдельным кодонам и чистая оптимизации по парам кодонов занимала лишь около 60% этого времени.
На фиг. 11 дикий тип (4кс(дГОА)=0,165, 41^^^)=0,033) не попадает на этот график (он должен находиться справа и выше). Оптимальным всегда является ген с наименьшими значениями 4!кс и 4|1ср. Судя по положению точек, не совсем ясно, при каких значениях ср1 можно получить самый лучший ген, так как авторы изобретения еще не знают, что более важно - употребительность отдельных кодонов или употребительность пар кодонов. Однако хороший компромисс как будто наблюдается при ср1=0,2.
Улучшение употребительности отдельных кодонов и пар кодонов можно наглядно представить на так называемых графиках добротности последовательности, предложенных в настоящей работе. На фиг. 12 представлены две диаграммы, показывающие добротность последовательности первых 20 (из 499) кодонов вышеупомянутой ΕυΑ (см. также пример 2).
Отметим, что эти диаграммы добротности последовательности зависят не только от самой последовательности, но и от комплекта весов и желательных долей отдельных кодонов, а тем самым от организма. Также отметим, что можно определить искомые доли отдельных кодонов как не важно для кодонов со слабой смещенностью или без нее, т.е. употребительность определенного кодона не считается ни положительной, ни отрицательной для экспрессии по сравнению с синонимичными кодонами. В этом случае синим крестиком представлено только фактическая доля соответствующего кодона в гене, и данная конкретная позиция игнорируется при расчете пригодности отдельных кодонов (см. 1.4. Оптимизация отдельных кодонов и пар кодонов 1п кШсо).
1.5. Выводы.
Установлена значительная корреляция между употребительностью пар кодонов и уровнем транскрипции у широкого круга организмов. Показано, что такая смещенность не может объясняться только смещенностью динуклеотидов вокруг сайта рамки считывания. Поскольку все возможные объяснения предпочтительности или отбрасывания некоторых пар кодонов сосредоточены на трансляции, то следует полагать, что и то, и другое вызвано естественным отбором, действующим одновременно на характеристики, влияющие на трансляцию, и на другие характеристики, влияющие на транскрипцию, с тем, чтобы минимизировать усилия клетки по выработке ферментов или хотя бы самых важных из них.
- 29 015925
Таким образом, можно учитывать оптимизацию употребительности пар кодонов в последовательностях, кодирующих полипептиды, для достижения лучшей экспрессии, наряду с классической оптимизацией по отдельным кодонам или гармонизацией по отдельным кодонам, когда при оптимизации учитывается только частотность отдельных кодонов. В данном примере адаптация одного и того же гена по парам кодонов и по отдельным кодонам лишь незначительно пересекается у исследованного класса грибов и бацилл, т.е. и то, и другое может выполняться одновременно, а результатом будет лучшая употребительность отдельных кодонов и лучшая употребительность пар кодонов, чем у гена дикого типа, причем любой из этих двух аспектов может лишь незначительно улучшиться, если будет проигнорирован другой.
Для считывания файлов РА8ТА и выполнения анализа и оптимизации были разработаны удобные для пользователя функции МАТБАВ. Также были введены новые методы визуализации смещенности пар кодонов и употребительности пар кодонов у отдельных генов, см. примеры 2 и 4. Разработанный для оптимизации генетический алгоритм позволяет эффективно справиться с ограничениями, вытекающими из взаимозависимости смежных пар кодонов, а специально разработанный оператор мутаций, позволяющий улучшить один из двух аспектов добротности последовательности (пригодность отдельных кодонов или пар кодонов), помогает обойти неэффективность, которая обычно сопровождает генетические алгоритмы вследствие их склонности к вырабатыванию многих плохих возможных решений на стадии рекомбинации после нескольких первых поколений.
Правильная употребительность пар кодонов влияет на продукцию ферментов, что будет показано экспериментально в следующих примерах. Были получены варианты трех генов, оптимизированные по парам кодонов для экспрессирования в В.киЬЬШк, из которых один будет сравниваться с синтетическим геном, адаптированным только по употребительности отдельных кодонов, а другой - с синтетическим геном, прошедшим через процесс оптимизации с использованием взятых с обратным знаком предположительно положительных весов, но все-таки оптимизированным по употребительности отдельных кодонов, как и раньше, см. примеры 4 и 5. При этом также будет проверена высказанная Ιπνίπ е1 а1. (1995) идея о том, что недостаточно представленные кодоны стимулируют трансляцию, которая авторами изобретения была отброшена. В отношении А.шдег будет проверен оптимизированный по парам кодонов вариант вышеупомянутого гена атуВ и сравнен с геном дикого типа и синтетическим геном с гармонизацией по отдельным кодонам, см. примеры 2 и 3.
Пример 2. Применение способа изобретения для конструирования усовершенствованных последовательностей ДНК для улучшения продукции грибкового фермента амилазы АкрегдШик шдег в А.шдег.
Способ изобретения применяется ниже для разработки новых нуклеотидных последовательностей для гена атуВ (РИА) А.шдег, который подвергается оптимизации по употребительности отдельных кодонов и/или пар кодонов для улучшения экспрессии в А.шдег.
2.1. Введение.
Концепция оптимизации по отдельным кодонам посредством гармонизации кодонов была разработана ранее подателями настоящей заявки на изобретение и изложена в основном тексте (также см. пример 3). В настоящем примере показано, как применяется способ изобретения для конструирования гена, оптимизированного по употребительности как отдельных кодонов, так и пар кодонов. В данном конкретном случае применяются матрицы весов, которые были созданы с использованием двух подмножеств по 2 и 4% генов с высоким уровнем экспрессии из полного генома А.шдег, содержащего 14000 генов. По употребительности отдельных кодонов алгоритм выдал решение для гена с частотностью синонимических кодонов, определенной по табл. В.1 (= 3-й столбец в табл. 2.1), тогда как по употребительности пар кодонов он был оптимизирован до оптимального набора пар кодонов, которые с высокой частотностью были связаны с отрицательными весами (в табл. С.2), причем эти пары кодонов в отношении ожидаемых значений были с избытком представлены в группе 4% генов с высоким уровнем экспрессии. Отметим, что в том случае, когда для заданного хозяина нет определенного списка генов с высоким уровнем экспрессии, то можно: (1) использовать матрицы весов аналогичного организма хозяина, например матрицы Р.сЬгукодепиш можно использовать для А шдег; либо (и) использовать данные полной последовательности генома или его подмножества для получения хороших, но менее оптимальных матриц весов.
2.2. Материалы и методы.
2.2.1. Кодирующая последовательность атуВ дикого типа, кодирующая α-амилазу АтуВ А.шдег. Последовательность ДНК гена атуВ, кодирующего белок α-амилазу, изложена в I. ВюсИет. Мо1. В1о1. 37(4): 429-438 (2004) (МайиЬага Т., Аттаг У.В., АшпйуатаИ Т., Уатато1о 8., Ио Κ., Ιί/ика М., Мшатшга N. Мо1еси1аг с1ошпд апй йе1егтшаИоп оГ Ше пис1еоИйе кециепсе оГ га\у йагсИ й1декИпд а1р1а-ату1аке Ггот АкрегдШик а\гатоп КТ-11), а также может быть извлечена из базы данных по нуклеотидным последовательностям ЕМВБ (1Шр://\\л\лг.еЫ.ас.ик/етЫ/тйех.1ит1) под номером доступа АВ083159. Геномная последовательность нативного гена атуВ А.шдег представлена в 8ЕО ΙΌ N0: 1. Соответствующая кодирующая последовательность или кДНК атуВ представлена в 8Е0 ΙΌ N0: 2. Транслированная последовательность 8Е0 ΙΌ N0: 2 приведена как 8Е0 ΙΌ N0: 3, представляющая белок
- 30 015925 α-амилазы АтуВ А.тцег. Эта последовательность также на 100% аналогична белку α-амилазы А.оп^ае (Д1гзе1 8., Еас11тш1с1 А., ДлкПтагск С., Ви11коузк1 Е., Ткгее а1р1а-ату1азе ценез оГ АзрешПиз оп^ае ех1пЬ11 ^άеηΐ^са1 ιηΐΓοη-ехоп 01^111^11101/: Мо1. М1сгоЬю1. 3: 3-14 (1989), номер доступа в υηίΡτοΐ. Р10529, Р11763 или ()00250. Оптимизация способом изобретения выполнялась на последовательности кДНК атуВ.
2.3. Методика конструирования.
Оптимизированная кодирующая нуклеотидная последовательность 81%) II) N0: 6 является результатом работы, описанной в способе программы. Использовали следующие параметры: размер популяции = 200; количество итераций = 1000; ср1 = 0,20, матрица СРД = Таблица С.2. СРД: АзрегшПиз шцег последовательности с высоким уровнем экспрессии и матрица СВ = Таблица В.1, столбец 4: таблица СВ АзрешПиз шцег -последовательности с высоким уровнем экспрессии. Кроме того, прибавляли штрафное значение +1 к Г11сотЬ1 за каждое вхождение сайтов РзИ (СТССАС) и (СССССССС).
Сходимость решений к минимальному значению Г11сотЬ1 представлена на фиг. 13. Полученные реальные значения для 81%) II) N0: 6 приведены в табл. 2.2 вместе со значениями для 81%) II) N0: 2 и 81%) II) N0: 5. На фиг. 14 дано объяснение статистики по отдельным кодонам для этих генов, которая представлена на фиг. 15 и 16, а в табл. 2.2 приведены фактические значения для кодонов в этих трех последовательностях. На фиг. 18-20 представлена статистика по отдельным кодонам и парам кодонов для трех вариантов гена. Этот тип диаграмм объяснен подробно на фиг. 17 и подписи к ней. Из этих диаграмм видно, что статистика по отдельным кодонам очень похожа для 8Е%) II) N0: 5 и 8Е%) II) N0: 6. Однако способ изобретения ведет к получению гена с лучшим числом пар кодонов, имеющих отрицательные веса (уср(д)<0), 93 против 74%, а также к дальнейшему снижению Й1ср от -0,18 до -0,34, а это значит, что с этим связана более оптимальная употребительность пар кодонов с более отрицательными весами.
Таблица 2.1
Оптимизация кодонов для атуВ
А.к. | Кодон | Оптимальное распред, кодонов [%] | атуВ дикого типа [# кодонов] | атуВ дикого типа [% кодон/а.к.] | атуВ оптимиз. по отд. код. [# кодонов] | атуВ оптимиз. по отд. код. и парам код. [# кодонов] |
А | А1а ОСТ | 38 | 5 | 11,9 | 16 | 18 |
А1а ОСС | 51 | 15 | 35,7 | 21 | 23 | |
А1а ССА | 0 | 12 | 28,6 | 0 | 0 | |
А1а ОСО | 11 | 10 | 23,8 | 5 | 1 | |
С | Суз ТОТ | 0 | 7 | 77,8 | 0 | 0 |
Суз ТОС | 100 | 2 | 22,2 | 9 | 9 | |
Ц | Азр_ОАТ | 36 | 20 | 47,6 | 15 | 15 |
Азр ОАС | 64 | 22 | 52,4 | 27 | 27 | |
Е | О1и ОАА | 26 | 5 | 41,7 | 3 | 3 |
О1и ОАО | 74 | 7 | 58,3 | 9 | 9 | |
Р | РЬе ТТТ | 0 | 3 | 20,0 | 0 | 0 |
РЬе ТТС | 100 | 12 | 80,0 | 15 | 15 | |
С | О1£_ОСТ | 49 | 10 | 23,3 | 21 | 22 |
О1^ООС | 35 | 18 | 41,9 | 15 | 15 | |
01у_ООА | 16 | 10 | 23,3 | 7 | 6 | |
О1у ООО | 0 | 5 | 11,6 | 0 | 0 | |
н | ΗΪ3 САТ | 0 | 3 | 42,9 | 0 | 0 |
ΗΪ5 САС | 100 | 4 | 57,1 | 7 | 7 | |
I | Не АТТ | 27 | 7 | 25,0 | 7 | 7 |
Не АТС | 73 | 19 | 67,9 | 21 | 21 | |
Не АТА | 0 | 2 | 7,1 | 0 | 0 | |
к | Ьуз ААА | 0 | 7 | 35,0 | 0 | 0 |
Ьуз ААО | 100 | 13 | 65,0 | 20 | 20 | |
ь | Ьеи ТТА | 0 | 2,7 | 0 | 0 | |
Ьеи ТТО | 13 | 10 | 27,0 | 5 | 4 | |
Ьеи СТТ | 17 | 4 | 10,8 | 6 | 7 | |
Ьеи СТС | 38 | 13 | 35,1 | 14 | 15 | |
Ьеи СТА | 0 | 3 | 8,1 | 0 | 0 | |
Ьеи СТО | 32 | 6 | 16,2 | 12 | 11 | |
м | Ме1 АТО | 100 | 10 | 100,0 | 10 | 10 |
N | Азп ААТ | 0 | 3 | 11,5 | 0 | 0 |
Азп ААС | 100 | 23 | 88,5 | 26 | 26 | |
Р | Рго ССТ | 36 | 6 | 27,3 | 8 | 8 |
Рго ССС | 64 | 8 | 36,4 | 14 | 14 | |
Рго ССА | 0 | 3 | 13,6 | 0 | 0 | |
Рго ССО | 0 | 5 | 22,7 | 0 | 0 | |
Ω | О1п САА | 0 | 5 | 25,0 | 0 | 0 |
О1п САО | 100 | 15 | 75,0 | 20 | 20 | |
К. | Аг§_СОТ | 49 | 1 | 10,0 | 5 | 5 |
Аг§ ССС | 51 | 2 | 20,0 | 5 | 5 | |
Аг§_СОА | 0 | 2 | 20,0 | 0 | 0 | |
Аг§ СОО | 0 | 2 | 20,0 | 0 | 0 | |
Аг§_АОА | 0 | 0 | 0,0 | 0 | 0 | |
Аге АОО | 0 | 3 | 8,1 | 0 | 0 | |
8 | 8ег ТСТ | 21 | 4 | 10,8 | 8 | 8 |
8ег ТСС | 44 | 9 | 24,3 | 16 | 17 | |
8ег ТСА | 0 | 4 | 10,8 | 0 | 0 | |
Зег ТСО | 14 | 10 | 27,0 | 5 | 4 | |
Зег ЛОТ | 0 | 4 | 10,8 | 0 | 0 | |
8ег АОС | 21 | 6 | 16,2 | 8 | 8 | |
Т | ТЬг АСТ | 30 | 9 | 22,5 | 12 | 12 |
ТЬг АСС | 70 | 13 | 32,5 | 28 | 28 | |
ТЬг АСА | 0 | 10 | 25,0 | 0 | 0 | |
ТЬг АСО | 0 | 8 | 20,0 | 0 | 0 |
- 31 015925
Таблица 2.2
Оптимизация кодонов для атуВ
Последовательность | Тип | Ώ л-. VI | (ορί=οα> | ||
8Еф ГО ΝΟ. 2 | дикого типа | 0,1652 | 0,0329 | 37,3% | 0,090 |
8Еф ГО ΝΟ. 5 | оптимиз, по отд. кодонам | 0,0046 | -0,1765 | 73,9% | -0,862 |
8ΕφΙϋΝΟ. 6 | ОПТЙМИЗ. по отд. кодонам + парам кодонов | 0,0109 | -0,3420 | 92,6% | -1,621 |
Все три последовательности, приведенные в табл. 2.2, являются кодирующими последовательностями, а их транслированная последовательность приведена как 8ЕС ΙΌ N0: 3.
Пример 3. Проверка способа изобретения для конструирования усовершенствованных последовательностей ДНК для улучшения продукции грибкового фермента амилазы ЛзретдШиз шдет в А.шдет
Способ изобретения применяется ниже для улучшения употребительности отдельных кодонов и пар кодонов гена атуВ А.шдет. Этот способ может применяться таким же образом для улучшения употребительности кодонов и улучшения экспрессии любой нуклеотидной последовательности.
3.1. Материалы и методы.
3.1.1. Штаммы.
\Т 1: этот штамм А.шдет используется в качестве штамма дикого типа. Этот штамм депонирован в СВ8 1п8Й1и1е под номером СВ8 513.88.
\Т 2: этот штамм А.шдет представляет собой штамм \Т 1, содержащий делецию гена, кодирующего глюкоамилазу (д1аА). \Т 2 конструировали по методике ΜΑΚΚΕΚ.-ΟΕΝΕ РВЕЕ, как описано в ЕР 0635574 В1. В этом патенте подробно описано, как устроить делецию специфических последовательностей ДНК д1аА в геноме СВ8 513.88. По этой методике получен лишенный маркерного гена Дд1аА рекомбинантный штамм А.шдет СВ8 513.88, в итоге совсем не имеющий чужих последовательностей ДНК.
\Т 3: этот штамм А.шдет представляет собой штамм \Т 2, содержащий мутацию, ведущую к получению дефицитного по оксалату штамма А.шдет. \Т 3 конструировали по методике, описанной в ЕР 1590444. В этой патентной заявке подробно описано, как проводится скрининг дефицитного по оксалату штамма А.шдет. Штамм \Т 3 конструировали по методикам из примеров 1 и 2 в ЕР 1590444, и штамм \Т 3 представляет собой мутантный штамм 22 из ЕР 1590444 (обозначается как РШАЬ в ЕР 1590444).
\Т 4: этот штамм А.шдет представляет собой штамм \Т 3, содержащий делецию трех генов, кодирующих α-амилазы (атуВ, атуВ1 и атуВ11), на трех последовательных стадиях. Конструирование векторов для делеции и удаление из генома этих трех генов подробно описано в \0 2005095624. Векторы рЭЕЬ-АМУА, рИЕЕ-АМУВ1 и рИЕЕ-АМУВП, описанные в \0 2005095624, использовали по методике МАВКЕВ-ΟΕΝΕ РВЕЕ, как описано в ЕР 0635574 В1. По этой методике получен дефицитный по оксалату, лишенный маркерного гена Дд1аА, отрицательный по амилазам ДатуА, ДатуВ1 и ДашуВП рекомбинантный штамм А.шдет СВ8 513.88, в итоге совсем не имеющий чужих последовательностей ДНК. По сути \Т 4 лучше оптимизирован для экспрессии α-амилазы, чем \Т 1.
3.1.2. Ферментация А.шдет в колбах на качалке.
Штаммы А.шдет предварительно подращивали в 20 мл среды предварительного культивирования, как описано в разделе примеров Ферментация А.шдет в колбах на качалке \0 99/32617. После подращивания в течение ночи 10 мл этой культуры переносили в среду ферментации 1 (РМ1) для α-амилазной ферментации. Ферментация проводилась в колбах на 500 мл с заслонкой, в 100 мл ферментационного бульона при 34°С и 170 об/мин в течение указанного количества дней, в общем как описано в \\'0 99/32617.
Среда РМ1 содержит на 1 л: 52,570 г глюкозы, 8,5 г мальтозы, 25 г гидролизата казеина, 12,5 г дрожжевого экстракта, 1 г КН2Р04, 2 г К2804, 0,5 г Мд804-7Н20, 0,03 г ΖηΠ2, 80,02 г СаС12, 0,01 г Мп804-4Н20, 0,3 г Ре804-7Н20, 10 мл смеси пенициллина и стрептомицина Реп-81тер (ΙηνίΙгоден, кат. № 10378-016), 48 г МЕ8, довести до рН 5,6 с помощью 4 N Н2804.
3.1.3. Активность грибковой α-амилазы.
Для определения α-амилазной активности в культуральной жидкости А.шдет использовали набор Медахуте для α-амилазы злаков (Медахуте, набор для определения α-амилазы СЕВАЬРНА, ссылка по каталогу: К-СЕВА, год 2000-2001) в соответствии с методикой поставщика. Измерение активности основывается на гидролизе блокированного по невосстанавливающему концу п-нитрофенилмальтогептаозида в присутствии избытка глюкоамилазы и α-глюкозидазы. Количество образовавшегося п-нитрофенола является мерой α-амилазной активности в образце.
3.2. Составление конструкции для экспрессии в АзретдШиз кодирующей последовательности атуВ дикого типа, кодирующей α-амилазу АтуВ А.шдет.
- 32 015925
Последовательность ДНК гена атуВ дикого типа описана в разделе 2.2.1. Для анализа экспрессии в АкрегдШик кр. конструкции, несущей атуВ А.шдег, применяется сильный промотор атуВ для суперэкспрессии фермента α-амилазы в Л.шдег с помощью экспрессирующих конструкций на основе рСВЕШ (как описано в АО 99/32617). Последовательностью инициации трансляции промотора атуВ, включающей старт-кодон АТС РатуВ, является 5'-СССАТТТАТС АТС-3' или 5'-СААСССАТТТ АТС-3' в зависимости от того, какой АТС выбран в качестве старт-кодона. Эта последовательность инициации трансляции РатуВ была подвергнута модификации в 5'-САСССТСААА АТС-3' во всех последующих конструкциях для экспрессии атуВ, созданных ниже.
На обоих концах вводили подходящие рестрикционные сайты, позволяющие клонирование в экспрессирующий вектор. Нативный ген атуВ содержит стоп-кодон ТСА. Во всех несущих атуВ конструкциях, созданных ниже, последовательность терминации трансляции 5'-ТСА-3' была заменена на 5'-ТААА-3' и далее на 5'-ТТААТТАА-3' из рестрикционного сайта Рас1. На 5'-конце был введен сайт Х1о1, а на 3'-конце - сайт Рас1. Таким образом, был полностью синтезирован и клонирован фрагмент, содержащий модифицированный геномный промотор атуВ и последовательность кДНК атуВ, а его последовательность проверена секвенированием.
Этот фрагмент, содержащий промотор α-амилазы с модифицированной последовательностью инициации трансляции и последовательность кДНК атуВ с модифицированной последовательностью терминации трансляции, расщепляли с помощью Х1ю1 и Рас1 и вставляли в расщепленный Х1ю1 и Рас1 вектор рСВЕШ-12 (конструирование и компоновка описаны в АО 99/32617), получая рСВЕЮТиА-1 (фиг. 21). Последовательность вставленного ПЦР-фрагмента проверяли секвенированием, и она представлена в 8ЕО ΙΌ N0: 4.
3.3. Улучшение употребительности отдельных кодонов в кодирующей α-амилазу последовательности атуВ для экспрессии в А.шдег.
Способ оптимизации по отдельным кодонам применяли ниже для улучшения употребительности кодонов гена атуВ А.шдег. Кодирующая нуклеотидная последовательность нативного гена атуВ представлена в 8Е0 ΙΌ N0: 2.
Употребительность кодонов нативного гена атуВ А.шдег и его синтетического оптимизированного варианта приведена в табл. 2.1. Для нативного и оптимизированного по отдельным кодонам синтетического гена атуВ приводится точное количество по каждому кодону, а также распределение по каждой аминокислоте. Кроме того, в третьем столбце представлено предполагаемое оптимальное распределение, которое намечено для оптимизации.
Для аминокислот 1-й группы существует только одна возможность. 1-я группа состоит из метионина, который всегда кодируется АТС, и триптофана, который всегда кодируется ТСС.
Аминокислоты 2-й группы подвергаются оптимизации в соответствии с экстремальной частотой 0 или 100%. Стратегия ясна: все кодоны для аминокислот 2-й группы подвергаются замене на оптимальный вариант из двух возможных кодонов. В частности, кодон для цистеина ТСТ заменяется на ТСС; для фенилаланина - ТТТ на ТТС; для гистидина - САТ на САС; для лизина - ААА на ААС, для аспарагина ААТ на ААС; для глутамина - САА на САС; для тирозина - ТАТ на ТАС.
Аминокислоты 3-й группы могут кодироваться несколькими кодонами, как это показано в табл. 3.1; каждый кодон присутствует с предпочтительной частотностью:
для аланина - ССТ, ССС, ССА, ССС; для аспартата - САТ, САС;
для глутамата - САА, САС; для глицина - ССТ, ССС, ССА, ССС;
для изолейцина - АТТ, АТС, АТА; для лейцина - ТТА, ТТС, СТТ, СТС, СТА, СТС;
для пролина - ССТ, ССС, ССА, ССС; для аргинина - ССТ, ССС, ССА, ССС, АСА, АСС;
для серина - ТСТ, ТСС, ТСА, ТСС, АСТ, АСС; для треонина - АСТ, АСС, АСА, АСС;
для валина - СТТ, СТС, СТА, СТС, и подвергается оптимизации по следующей методике.
Для аминокислот 3-й группы и кодирующих их кодонов вычисление оптимальной встречаемости каждого возможного кодона в данной кодирующей последовательности проводится по следующей методике:
ί) суммировать по каждой соответствующей аминокислоте 3-й группы общее число остатков, закодированных в данной последовательности, см. столбец А1 (табл. 3.1);
ίί) для каждой аминокислоты и каждого кодона, кодирующего эту аминокислоту, умножить общее число остатков этой аминокислоты на оптимальное распределение кодонов в табл. 2.1, получая неисправленное распределение кодонов, которое обычно содержит десятичные дроби, см. столбец А2 (табл. 3.2);
ϊϊΐ) округлить значения неисправленного распределения кодонов (ίί) путем отбрасывания цифр, получая округленное распределение кодонов, см. столбец А3 (табл. 3.2);
ίν) суммировать по каждой аминокислоте общее число остатков, представленных в округленном распределении кодонов (ш), см. столбец А4 (табл. 3.1);
- 33 015925
ν) вычислить общее число недостающих остатков для каждой соответствующей аминокислоты в округленном распределении кодонов путем вычитания из общего числа остатков, закодированных в данной последовательности (1), общего числа остатков, представленных в округленном распределении кодонов (ίν), см. столбец А5 (табл. 3.1);
νί) вычислить для каждого кодона десятичную разность между неисправленным распределением кодонов (ίί) и округленным распределением кодонов (ίίί) путем вычитания, см. столбец А6 (табл. 3.2);
νίί) умножить для каждого кодона десятичную разность (νί) на оптимальное распределение кодонов в табл. 1, получая значение веса для каждого кодона, см. столбец А7 (табл. 3.2);
νίίί) для каждой соответствующей аминокислоты выбрать по количеству недостающих остатков (ν) соответствующее количество кодонов, имеющих самые высокие значения весов (νίί), см. столбец А8 (табл. 3.2);
ίχ) вычислить окончательное оптимальное распределение кодонов в данной последовательности, кодирующей полипептид, путем суммирования округленного распределения кодонов (ίίί) с выбранным количеством недостающих остатков (νίίί) для каждого кодона, см. столбец А9 (табл. 3.2).
Таблица 3.1
Аминокислота (1) | I | А1 | А4 | А5 |
А1а | 1 | 42 | 40 | 2 |
Азр | 2 | 42 | 41 | . 1 |
С1и | 3 | 12 | 11 | I |
О1у | 4 | 43 | 42 | 1 |
Не | 5 | 28 | 27 | 1 |
Ьеи | 6 | 37 | 35 | 2 |
Рго | 7 | 22 | 21 | 1 |
Аг§ | 8 | 10 | 9 | 1 |
8ег | 9 | 37 | 35 | 2 |
ТЬг | 10 | 40 | 40 | 0 |
Уа1 | 11 | 31 | 29 | 2 |
Таблица 3.2
Кодон | А2 | АЗ | А6 | А7 | А8 | А9 |
А1а ОСТ | 15,96 | 15 | 0,96 | 0,365 | 1 | 16 |
А1а ССС | 21,42 | 21 | 0,42 | 0,014 | 1 | 21 |
А1а ОСА | 0 | 0 | 0 | 0,000 | 0 | 0 |
А1а ОСС | 4,62 | 4 | 0,62 | 0,068 | 0 | 5 |
Азр СтАТ | 15,12 | 15 | 0,12 | 0,043 | 0 | 15 |
Анр САС | 26,88 | 26 | 0,88 | 0,563 | 1 | 27 |
С1и 6АА | 3,12 | 3 | 0,12 | 0,031 | 0 | 3 |
О1и ОАО | 8,88 | 8 | 0,88 | 0,651 | 1 | 9 |
О1у ОСТ | 21,07 | 21 | 0,07 | 0,034 | 0 | 21 |
О1у аас | 15,05 | 15 | 0,05 | 0,018 | 0 | 15 |
С1у ОСА | 6,88 | 6 | 0,88 | 0,141 | 1 | 7 |
С1у ОСС | 0 | 0 | 0 | 0,000 | 0 | 0 |
Пе АТТ | 7,56 | 7 | 0,56 | 0,151 | 0 | 7 |
Пе АТС | 20,44 | 20 | 0,44 | 0,321 | I | 21 |
Пе АТА | 0 | 0 | 0 | 0,000 | 0 | 0 |
Ьеи ТТА | 0 | 0 | 0 | 0,000 | 0 | 0 |
Ьеи ПО | 4,81 | 4 | 0,81 | 0,105 | 1 | 5 |
Ьеи СП | 6,29 | 6 | 0,29 | 0,049 | 0 | б |
Ьеи СТС | 14,06 | 14 | 0,06 | 0,023 | 0 | 14 |
Ьеи СТА | 0 | 0 | 0 | 0,000 | 0 | 0 |
Ьеи СТС | 11,84 | 11 | 0,84 | 0,269 | 12 | |
Рго ССТ | 7,92 | 7 | 0,92 | 0,331 | 1 | 8 |
Рго ССС | 14,08 | 14 | 0,08 | 0,051 | 0 | 14 |
Рго ССА | 0 | 0 | 0 | 0,000 | 0 | 0 |
Рго сса | 0 | 0 | 0 | 0,000 | 0 | 0 |
Аге ССТ | 4,9 | 4 | 0,9 | 0,441 | 1 | 5 |
лгй сас | 5,1 | 5 | 0,1 | 0,051 | 0 | 5 |
Аг» СОА | 0 | 0 | 0 | 0,000 | 0 | 0 |
Аг8 СОС | 0 | 0 | 0 | 0,000 | 0 | 0 |
Аге АОА | 0 | 0 | 0 | 0,000 | 0 | 0 |
Аг® АСС | 0 | 0 | 0 | 0,000 | 0 | 0 |
Зег ТСТ | 7,77 | 7 | 0,77 | 0,162 | 1 | 8 |
Зег ТСС | 16,28 | 16 | 0,28 | 0,123 | 0 | 16 |
Зег ТСА | 0 | 0 | 0 | 0,000 | 0 | 0 |
Зег ТСО | 5,18 | 5 | 0,18 | 0,025 | 0 | 5 |
Зег АОТ | 0 | 0 | 0 | 0,000 | 0 | 0 |
Зег ДОС | 7,77 | 7 | 0,77 | 0,162 | 1 | 8 |
ТЬг АСТ | 12 | 12 | 0 | 0,000 | 0 | 12 |
ТЬг АСС | 28 | 28 | 0 | 0,000 | 0 | 28 |
ТЬг АСА | 0 | 0 | 0 | 0,000 | 0 | 0 |
ТЬг Аса | 0 | 0 | 0 | 0,000 | 0 | 0 |
Уа1 СП | 8,37 | 8 | 0,37 | 0,100 | 0, | 8 |
Уа] СТС | 16,74 | 16 | 0,74 | 0,400 | 1 | 17 |
Уа1 СТА | 0 | 0 | 0 | 0,000 | 0 | 0 |
Уа1 СТО | 5,89 | 5 | 0,89 | 0,169 | 1 | 6 |
- 34 015925
После этого создавали совершенно новую кодирующую нуклеотидную последовательность путем случайного размещения предложенного числа синонимических кодонов (табл. 2.1) для каждой аминокислоты в исходном пептиде атуВ. Синтетическая последовательность атуВ, полученная в результате вышеописанного процесса, приведена в 8ЕЦ ГО N0: 5. В модифицированной кодирующей последовательности проверяли вторичные структуры с помощью программы С1оие Маиадег 7 (8с1. Еб. Сеп1га1: научно-образовательная программа, версия 7.02) на возможное наличие плохих вторичных структур.
3.4. Оптимизация кодирующей последовательности в соответствии с комбинированным способом изобретения по отдельным кодонам и парам кодонов в кодирующей α-амилазу последовательности атуВ для экспрессии в А.шдег/
Способ изобретения применяли для улучшения кодирующей последовательности гена атуВ А.шдег. Оптимизированная последовательность атуВ, полученная в результате процесса, описанного в примере 2, приведена в 8ЕЦ ГО N0: 6. В модифицированной кодирующей последовательности проверяли вторичные структуры с помощью программы С1оие Маиадег 7 (8с1. Еб. Сеп1га1: научнообразовательная программа, версия 7.02) на возможное наличие плохих вторичных структур.
3.5. Конструирование несущих модифицированный ген атуВ экспрессирующих векторов для экспрессирования α-амилазы АтуВ А.шдег, кодируемой последовательностями, описанными в примерах 3.2 и 3.3/
Последовательность ДНК фрагмента Х1ю1-Рас1 вектора рСВЕЮТиА-1 (фиг. 21), приведенная в 8ЕЦ ГО N0: 4, включает промотор атуВ и последовательность кДНК дикого типа с модифицированной последовательностью инициации трансляции и модифицированной последовательностью терминации трансляции. Последовательность ДНК, включающая вариант последовательности инициации трансляции промотора α-амилазы вместе с оптимизированной по отдельным кодонам кодирующей последовательностью гена атуВ, кодирующего α-амилазу, как описано в примере 1.2, приведена в 8ЕЦ ГО N0: 7. Последовательность ДНК, включающая вариант последовательности инициации трансляции промотора αамилазы вместе с оптимизированной в соответствии с комбинированным способом изобретения по отдельным кодонам и парам кодонов кодирующей последовательностью гена атуВ, кодирующего αамилазу, как описано в примере 3.3, приведена в 8ЕЦ ГО N0: 8.
Для клонирования этих модифицированных вариантов последовательности в экспрессирующем векторе эти два синтетических фрагмента гена расщепляли с помощью Х1ю1 и Рас1 и встраивали в большой фрагмент расщепленного Х1ю1 и Рас1 вектора рСВЕЮТиА-1 (фиг. 21), получая экспрессирующие эти варианты векторы. После проверки на правильность встраивания фрагмента конструкции, экспрессирующие эти варианты, были названы рСВЕЮТиА-2 и рСВЕЮТиА-3, как описано ниже в табл. 3.3.
Таблица 3.3 Модифицированные экспрессирующие конструкции для экспрессии α-амилазы в А.шдег
Назваиие плазмиды | 8Е(}П> N0. | Последовательность инициации трансляции | Кодирующая последовательность | Последовательность терминации трансляции |
ρΟΒΗΝΗΜ-Ι | 4 | модифицирована (САССОТСААА АТО) | дикого типа | модифицирована (ТАА АТА) |
ρΟΒΕΓΝΕυΑ-2 | 7 | модифицирована (САССОТСААА АТО) | оптимизирована по отдельным кодонам | модифицирована (ТАА АТА) |
ρΟΒΡΙΝΡυΑ-3 | 8 | модифицирована (САССОТСААА АТО) | модифицирована по изобретению | модифицирована (ТАА АТА) |
Транслированные последовательности кодирующих атуВ последовательностей плазмид рСВЕГОЕИА-1, рСВЕЮТиА-2 и рСВЕЮТиА-3 соответствуют аминокислотной последовательности, приведенной в 8ЕЦ ГО N0: 3, представляющей фермент α-амилазу дикого типа А.шдег.
3.6. Экспрессия в А.шдег модифицированных экспрессирующих конструкций рСВЕЮТИА для αамилазы А.шдег.
Экспрессирующие конструкции рСВЕЮТиА-1, -2 и -3, полученные как описано выше, вводили в А.шдег путем трансформации, как описано ниже, в соответствии со схемой, приведенной на фиг. 22.
Для введения трех векторов рСВЕЮТиА-1, -2 и -3 (табл. 3.3) в клетки \УТ 4 проводили трансформацию и последующий отбор трансформантов, как описано в \У0 98/46772 и \У0 99/32617. Вкратце, выделяли линейную ДНК конструкций рСВЕЮТИА- и использовали её для трансформации А.шдег. Трансформантов отбирали на среде с ацетамидом, а колонии очищали стандартными методами. Колонии проверяли на встраивание в локус д1аА и на количество копий методом ПЦР. Отбирали по 10 независимых трансформантов из каждой конструкции рСВЕЮТИА- с близким расчетным количеством копий (низкое количество: 1-3) и давали им номера по названию трансформирующей плазмиды, к примеру ЕИА-1-1 (для первого трансформанта рСВЕЮТИА-Ц и ЕИА-3-1 (для первого трансформанта рСВЕЮТиА-3) со
- 35 015925 ответственно.
Отобранные штаммы РИА и νΤ 4 А.шдег использовали для проведения опытов в колбах на качалке, в 100 мл среды и в условиях, описанных выше. После 3 и 4 дней ферментации отбирали пробы.
Продукцию фермента α-амилазы измеряли у всех трех разных трансформантов РИА А.шдег. Как видно из фиг. 23, оптимизация кодирующей последовательности в соответствии со способом изобретения давала большее улучшение экспрессии АтуВ, чем другой исследованный способ, названный оптимизацией по отдельным кодонам. Эти фигуры сведены в табл. 3.4.
Таблица 3.4
Относительные средние значения α-амилазной активности у трансформантов с конструкцией дикого типа в сравнении с конструкциями, несущими модифицированные кодирующие последовательности атуВ (сводка из фиг. 23)
Тип штамма | 8ЕОП> ΝΟ. | Кодирующая последовательность | (^Амилазная активность |
ΕϋΑ-1 | 4 | дикого типа | 100% |
ЮА-2 | 7 | оптимизирована по отдельным кодонам | 200% |
НГА-З | 8 | модифицирована по изобретению | 400% |
Эти результаты четко показывают, что способ изобретения может применяться для улучшения экспрессии белков в клетках хозяина, хотя экспрессирующая конструкция и хозяин уже подвергались нескольким другим оптимизациям, таким, к примеру, как сильный промотор, улучшенная последовательность инициации трансляции, улучшенная последовательность терминации трансляции, оптимальная употребительность отдельных кодонов и/или лучший хозяин для экспрессии белков.
Пример 4. Разработка улучшенных последовательностей ДНК для экспрессии трех гетерологичных ферментов в клетках ВасШиз зиЫШз и ВасШиз ату1о1к|иеГас1епз.
4.1. Введение.
В примере 4 описана планировка экспериментов и применение описанного в настоящем патенте способа изобретения для (улучшения) экспрессии гетерологичных белков в клетках ВасШиз, в частности в данном примере это ВасШиз зиЫШз и ВасШиз ату1о1к|иеГас1епз. Предпочтительным хозяином для экспрессии является ВасШиз ату1о1к|иеГас1епз.
Геном ВасШиз зиЫШз был опубликован в 1997 г., а за ним последовали другие виды ВасШиз (Кцпз1 Р. е1 а1. (1997), Т1е сотр1е1е депоте зесщепсе оГ Ше Сгат-розШуе ЬаЫегшт ВасШиз зиЫШз. ЫаЫге. 390: 249-56; Яеу Μ.ν. е1 а1. (2004). Сотр1е1е депоте зесщепсе оГ Ше шбиз1па1 ЬаЫегшт ВасШиз КсНешГотиз апб сотрапзопз \νίΐ1ι с1озе1у ге1а(еб ВасШиз зреаез. Сепоте Вш1оду. 5: Я77; Яазко Э.А. е1 а1. (2005). Сепоткз оГ Ше ВасШиз сегеиз дгоир оГ огдашзтз. РЕМ8 М1сгоЫо1оду Ре\зе\\'з. 29: 303-329).
В настоящем примере в качестве основы для вычисления частотности отдельных кодонов и весов пар кодонов была выбрана полная последовательность В.зиЫШз. Сравнение содержания СС и состава тРНК дало аналогичную картину для указанных выше видов ВасШиз (см. выше). Это значит, что такая же статистика применима и к другим родственным видам ВасШиз. Более того, уже из примера 1 (см. также фиг. 4) стало ясно, что родственные виды проявляют близкие частотности пар кодонов.
На фиг. 4 (см. также пример 1) приведен график сравнения пар кодонов у В.зиЫШз и В.ату1о1к|иеГас1епз на основе полной геномной статистики. Наблюдается хорошая корреляция между двумя наборами данных. Более того, В.ату1о1к|иеГас1епз кажется более универсальной, поскольку у нее есть подгруппа таких комбинаций пар кодонов, которые вполне приемлемы у В.ату1о11диеГас1еиз, но имеют сильно отрицательные значения у В.зиЫШз, причем обратное не наблюдается.
4.2. План экспериментов.
Были выбраны последовательности трех белков для экспрессии в ВасШиз зиЫШз и ВасШиз ату1о1к|иеГас1епз:
белок 1: ксилозоизомераза (глюкозоизомераза) ху1А (ЕС.5.3.1.5) из ВасШиз з1еагоШегторЫ1из;
белок 2: ксилозоизомераза (глюкозоизомераза) ху1А (ЕС.5.3.1.5) из 81гер1отусез окгосЫотодепез; белок 3: Ь-арабинозоизомераза (ЕС 5.3.1.4) из ТНегтоапаегоЬас1ег таШгапб.
В табл. 4.1 представлена сводка методов, применявшихся в отношении 3 вышеописанных генов. В отношении белка 1, белка 2 и белка 3 применялась оптимизация способом изобретения по парам кодонов вдобавок к разработанной ранее оптимизации по отдельным кодонам.
- 36 015925
Таблица 4.1
Сводка по генным конструкциям; белок 2 был выбран для дополнительного изучения концепции пар кодонов в широком смысле
Ген | Белок | Оптимизация по отдельным кодонам | Оптимизация по отд. код. и положит, парам: кодонов | Оптимизация по отд. код. и отрицат. парам кодонов | |
Белок 1 | 8ЕЦ ГО N0. 9 | БЕЦ ГО N0.16 | ЗЕОГОИО. 13 | ||
Белок 2 | ЗЕфГОЫО. 10 | ЗЕфГОМО. 17 | 8Ε0ΙΟΝΟ. 14 | ЗЕОГОГЮ.18 | |
Белок 3 | 8ΕΡΙΟΝΟ. 11 | 8ЕС? ГО N0.12 | 8ΕΟΙΟΝΟ. 15 |
В качестве контроля экспериментально проверяли эффекты оптимизации по отдельным кодонам и оптимизации по отрицательным парам кодонов путем включения двцх дополнительных конструкций для белка 2. Был разработан один вариант (8ЕО ΙΌ N0: 18), оптимизированный в направлении плохих пар кодонов (т. е. отрицательной оптимизации пар кодонов), и второй с оптимизацией только по отдельным кодонам (8Е0 ΙΌ N0: 17). Белок 2 был выбран потому, что 81гер!отусев вр. проявляют совсем другую смещенность кодонов, см. пример 1 и фиг. 4.
При конструировании генов В.а1пу1о1к|иеГас1епв избегали присутствия рестрикционных сайтов №е1 (САТАТС) и ВатН1 (ССАТТС). Кроме того, они содержали единственный рестрикционный сайт для удаления принадлежащей Е.сой части клонирующего вектора рВНА12.
4.3. Оптимизация по отдельным кодонам.
Оптимизированные по отдельным кодонам варианты белка 1 и белка 2 конструировали по методике, описанной в примере 3.3 для оптимизации по отдельным кодонам, получая 8Е0 ΙΌ N0: 16 и 8Е0 ΙΌ N0: 17 соответственно. Использовали таблицу распределения отдельных кодонов (табл. 4.2), составленную по 50 генам с наиболее высоким уровнем экспрессии при определении на 24 генных чипах Айутейтх СепеСЫрв для В.вийШив 168, используя 6 независимых серий ферментации по времени. Все чипы были нормализованы по арифметическим средним значениям. Из списка экспрессии исключали те гены, которые предназначались для суперэкспрессии при разработке штамма, поэтому измерение уровня их экспрессии не может коррелировать у них с употребительностью кодонов.
Распределение отдельных кодонов в табл. 4.2 устанавливали путем визуального осмотра гистограмм частотности кодонов у 50, 100, 200, 400 последовательностей с наиболее высоким уровнем экспрессии и всех последовательностей В.вийШив. В случае явной тенденции к 0 или к 100% у генов с наиболее высоким уровнем экспрессии им приписывали значения 0 и 100% соответственно. Для остальных кодонов вычисляли среднее значение и нормализировали по набору синонимических кодонов, пропуская уже приписанные кодоны. Полученные искомые частотности отдельных кодонов приведены в табл. 4.2, столбец 3.
- 37 015925
Таблица 4.2 Распределение отдельных кодонов для конструирования синтетических генов на основе 50 генов с наиболее высоким уровнем экспрессии и визуального осмотра гистограмм употребительности отдельных кодонов, например на фиг. 24. При оптимизации по парам кодонов может применяться определение не важно, оставляющее свободный выбор для таких кодонов, без учета оптимизации по отдельным кодонам для этих кодонов
Аминокислота | Кодон | Распределение отдельных кодонов (%) | “Не важно” = 0, “важно” = 1 |
А | А1а ССТ | 50 | 0 |
А1а ОСС | 0 | 1 | |
А1а ОСА | 50 | 0 | |
А1а ОСО | 0 | 1 | |
С | Суз ТОТ | 51 | 0 |
Суз ТСС | 49 | 0 | |
О | Аз^_ОАТ | 63 | 1 |
Азр ОАС | 37 | 1 | |
Е | О1и ОАА | 100 | 1 |
О1и ОАО | 0 | 1 | |
Г | РНе ТТТ | 55 | 0 |
Рке ТТС | 45 | 0 | |
а | О1у ОСТ | 31 | 1 |
С1у ОСС | 34 | 1 | |
О1у_ССА | 35 | 1 | |
С1у ОСС | 0 | 1 | |
н | Из САТ | 71 | 0 |
Ни САС | 29 | 0 | |
I | Не АТТ | 60 | 0 |
Пе АТС | 40 | 0 | |
Пе АТА | 0 | 1 | |
к | Ьуз ААА | 100 | 1 |
Ьуз ААС | 0 | 1 | |
ь | Ьеи ТТА | 39 | 0 |
Ьеи ТТО | 24 | 0 | |
Ьеи СТТ | 37 | 0 | |
Ьеи СТС | 0 | 1 | |
Ьеи СТА | 0 | 1 | |
Ьеи СТО | 0 | 1 | |
м | Μβί АТО | 100 | 1 |
N | Азп ААТ | 45 | 0 |
Азп ААС | 55 | 0 | |
Р | Рго ССТ | 35 | 0 |
Рго ССС | 0 | 1 | |
Рго ССА | 22 | 0 | |
Рго ССО | 43 | 0 | |
<2 | С1п САА | 100 | 1 |
О1п САО | 0 | 1 | |
к. | Агё СОТ | 38 | 0 |
Аге ССС | 34 | 0 | |
Агс_СОА | 0 | 1 | |
Агё ССО | 0 | 1 | |
Аг£_АСА | 28 | 0 | |
Ατβ ΑΟΟ | 0 | 1 | |
8 | Йег ТСТ | 34 | 0 |
Йег_ТСС | 0 | 1 | |
Зег ТСА | 34 | 0 | |
Зег ТСО | 0 | 1 | |
Зег ЛОТ | 0 | 1 | |
5ег АОС | 32 | 0 | |
т | Ткг АСТ | 33 | 0 |
Ткг АСС | 0 | 1 | |
Ткг АСА | 46 | 0 | |
Ткг АСО | 22 | 1 | |
V | Уа1 ОТТ | 47 | 1 |
Уа1 ОТС | 0 | 1 | |
Уа1 ОТА | 23 | 1 | |
Уа1 ОТО | 30 | 1 | |
Ψ | Тгр ТОО | 100 | 1 |
Υ | Туг ТАТ | 62 | 0 |
Туг ТАС | 38 | 0 | |
стоп ТСА | 0 | 1 | |
стоп ТАО | 0 | 1 | |
стоп ТАА | 100 | 1 |
- 38 015925
4.4. Оптимизация по парам кодонов.
Оптимизация по парам кодонов проводилась в соответствии со способом изобретения. Оптимизированные кодирующие нуклеотидные последовательности 8Е0 ΙΌ N0: 13-15 являются результатом работы, описанной в способе программы. Использовали следующие параметры: размер популяции = 200; количество итераций = 1000; ср1 = 0,20, матрица СРV = Таблица С.4. СРV: ВасШик киЬ!Шк - последовательности с высоким уровнем экспрессии и матрица СВ = Таблица В.1, столбец 5: таблица СВ ВА8: ВасШик киЬ!Шк - последовательности с высоким уровнем экспрессии (также в табл. 4.2), а элементы не важно - как в табл. 4.2. Кроме того, прибавляли штрафное значение +1 к 41сошЬ1 за каждое вхождение рестрикционных сайтов №е1 (САТАТС) и ВатН1 (ССАТТС).
Оптимизированная кодирующая нуклеотидная последовательность 8ЕО ΙΌ N0: 18 является результатом работы, описанной в способе программы. Использовали следующие параметры: размер популяции = 200; количество итераций = 1000; ср1 = 0,20, матрица СРV = умноженная на -1 Таблица С.4. СРV: ВасШик киЬ1Шк - последовательности с высоким уровнем экспрессии (для оптимизации по парам кодонов в направлении плохих пар кодонов) и матрица СВ = Таблица В.1, столбец 5: таблица СВ ВА8: ВасШик киЬ!Шк - последовательности с высоким уровнем экспрессии (также в табл. 4.2), а элементы не важно - как в табл. 4.2. Кроме того, прибавляли штрафное значение +1 к 4йсотЬ1 за каждое вхождение рестрикционных сайтов №е1 (САТАТС) и ВатН1 (ССАТТС).
Элементы не важно в табл. 4.2 предназначены для тех кодонов, которые не проявляют смещенности кодонов. Это делали путем визуального осмотра гистограмм смещенности отдельных кодонов, см.
4.3. Применение таких элементов обеспечивает дополнительную свободу всей оптимизации по парам кодонов.
Все оптимизации сходились к минимальному значению й!сотЬ1. Полученные реальные значения для 8ЕО ΙΌ N0: 13-15 и 8ЕО ΙΌ N0: 18 приведены в табл. 4.2 вместе со значениями для 8Е0 ΙΌ N0: 11, 8Е0 ΙΌ N0: 16 и 8Е0 ΙΌ N0: 17. Из этих данных видно, что статистика по отдельным кодонам очень похожа у 8Е0 ΙΌ N0: 16 и 8Е0 ΙΌ N0: 17 в сравнении с 8Е0 ΙΌ N0: 14 и 8Е0 ΙΌ N0: 15. Однако способ изобретения ведет к получению гена с лучшим количеством пар кодонов, имеющих отрицательные веса, что означает более оптимальное употребление пар кодонов с более отрицательными весами, см. табл.
4.3.
Оптимизация методом максимизации й!ср ведет к получению гена с большим количеством пар кодонов, имеющих положительные веса, что означает возрастание употребления пар кодонов с более положительными весами, так что следует ожидать плохого влияния на характеристики трансляции. Для 8Е0 ΙΌ N0: 18 (теср(д)<0) оно равно 24 против 85% для 8Е0 ΙΌ N0: 14, при этом 4Иср возрастало с 1,20 до -1,43.
Таблица 4.3
Оптимизация кодонов: реальные значения пригодности для генов при экспрессии в В.киЫШк и
В .ату1ойдие4ас1епк
Последовательность | Тип | <0 | β^&ηιίί (ср/=0,2) | ||
8Е<210 N0. 11 | дикого типа | 0,078 | 0,097 | 41,1% | 0,350 |
8Ε(2ΙΟΝΟ. 13 | оптимиз. по отд. кодонам + парам кодонов | 0,004 | -0,293 | 89,1% | -1,439 |
ЗЕЦГОЫО. 14 | оптимиз. по отд. кодонам + парам кодонов | 0,004 | -0,292 | 84,8% | -1,431 |
8Εζ>ΙϋΝΟ. 15 | оптимиз. по отд. кодонам + парам кодонов | 0,003 | -0,303 | 89,2% | -1,493 |
8Ε0ΙΟΝΟ. 16 | оптимиз. по отд. кодонам | 0,002 | -0,023 | 56,9% | -0,114 |
8Εζ>Π3ΝΟ. 17 | оптимиз. по отд. кодонам | 0,003 | 0,087 | 44,3% | 0,428 |
ЗЕЦШЦО. 18 | оптимиз. по отд. кодонам + отриц. парам кодонов | 0,015 | 0,257 | 23,5% | 1,196 |
Пример 5. Проверка способа изобретения по экспрессии трех гетерологичных ферментов в ВасШик киЫШк и ВасШик ату1о1к|ие4ас1епк.
5.1. Введение.
В примере 5 описан эксперимент и результаты по экспрессии трех гетерологичных генов с вариантами их последовательности в клетках ВасШик киЬ!Шк и ВасШик ату1о1к.|ие4ас1епк. Варианты получали в соответствии со способом изобретения, как описано в примере 4.
5.2. Материалы и методы.
5.2.1. Среда культивирования ВасШик.
2хТУ (на 1 л): 16 г триптона/пептона, 10 г дрожжевого экстракта ИШсо, 5 г №С1.
- 39 015925
5.2.2. Трансформация В.киЫШк среды.
Среда 2χ8р^ζ^ζеи: 28 г К2НРО4, 12 г КН2РО4, 4 г (ΝΗ4)28Ο4, 2,3 г №3-сШЫе-2Н2О, 0.4 г Мд8О4-7Н2О, Н2О до 900 мл; довести до рН 7,0-7,4 с помощью 4Ν №1ОН. Добавить Н2О до 1 л. Автоклавировать 20 мин при 120°С.
Среда 1χ8р^ζ^ζеи-плюс: к 50 мл среды 2χ8р^ζ^ζеи добавить 50 мл воды тйНф, 1 мл 50% глюкозы и 100 мкл казаминовых кислот (конечная концентрация 20 мкг/мл).
Одну колонию ВасШик (или порцию из глубокой заморозки) из покрытой агаром чашки с неселективной средой 2хТУ инокулировали в 10 мл бульона 2хТУ в конической колбе на 100 мл. Клетки культивировали в течение ночи на качалке в термостате при 37°С и ± 250 об/мин. Измеряли ОЬ при 600 нм и разбавляли культуру средой 1χ8р^ζ^ζеи-плюс до значения ОО600»0,1. Клетки культивировали при 37°С и 250-300 об/мин до тех пор, пока культура не достигнет значения ОО600=0,4-0,6. Культуру разбавляли 1:1 средой 1χ8р^ζ^ζеи с добавлением 0,5% глюкозы (среда голодания) и инкубировали 90 мин при 37°С и 250-300 об/мин. Культуру центрифугировали при 4500 об/мин в настольной центрифуге в течение 10 мин. Удаляли 90% супернатанта, а осадок суспендировали в остальном объеме. Смешивали ДНК (1-5 мкг максимум в 20 мкл) с 0,5 мл компетентных клеток в конической колбе на 25 мл и инкубировали 1 ч при 37°С в термостате с круговым встряхиванием при сильном встряхивании (»5/6). Клетки высеивали (от 20 до 200 мкл) на покрытые агаром чашки с селективной средой 2хТУ, содержащей 25 мкг/мл канамицина, и инкубировали в течение ночи при 37°С.
5.2.3. Получение бесклеточного экстракта.
Полученный из 1 мл культуры осадок ресуспендировали в буфере А, содержащем 10 мМ трис-НС1 (рН 7,5), 10 мМ ЭДТА, 150 мМ №С1, 1 мг/мл лизоцима и ингибиторы протеаз (полный коктейль ингибиторов протеаз без ЭДТА, Восйе). Ресуспендированные осадки инкубировали 30 мин при 37°С для образования протопластов, а затем подвергали обработке ультразвуком следующим образом: 30 с с амплитудой в 10 мкм (3 цикла), с охлаждением на 15 с между циклами. После обработки ультразвуком остатки клеток удаляли центрифугированием (10 мин, 13000 об/мин при 4°С), а прозрачные лизаты использовали для дальнейшего анализа.
5.2.4. Выбор генов, кодирующих глюкозоизомеразу и Ь-арабинозоизомеразу и разработка синтетических генов для экспрессии в ВасШик ату1о11диеГас1еик и ВасШик киЫШк.
Были выбраны 3 фермента:
1) ксилозоизомераза ВасШик к1еагоШегторЫ1ик (Р54272 в 8\\лккрго1); белковая последовательность 8НО ΙΌ 9;
2) ксилозоизомераза 81гер1отусек оНуосйготодеиек (Р15587 в 8\\лккрго1); белковая последовательность 8ЕЦ ΙΌ NΟ: 10;
3) Ь-арабинозоизомераза Тйе^тоаηае^оЬасΐе^ таШгаий (А1 582623.1 в ЕМВЬ, а также И8 2003/012971 А1); белковая последовательность 8ЕЦ ΙΌ NΟ: 11, нуклеотидная последовательность 8НО ΙΌ 12.
Как видно, выбранные ферменты происходят из разных микроорганизмов. С целью суперпродукции этих ферментов в ВасШик киЫШк или ВасШик атуШидиеГааеик нуклеотидная последовательность каждого белка была оптимизирована таким образом, чтобы она подходила для экспрессии в ВасШик кр., см. пример 4.
Нуклеотидные последовательности, кодирующие вышеприведенные ферменты, были подвергнуты оптимизации. Эти последовательности представлены в списке последовательностей как 8ЕЦ ΙΌ NΟ: 13 (глюкозоизомераза/ксилозоизомераза ВасШик к1еагоШегторЫ1ик), 8ЕЦ ΙΌ NΟ: 14 (глюкозоизомераза/ксилозоизомераза 81герЮтусек ойуосйготодеиек), 8ЕЦ ΙΌ NΟ: 15 (Ь-арабинозоизомераза
ТйегтоаиаегоЬаЫег таШгаий). В качестве контроля был создан один вариант с оптимизацией по отдельным кодонам без оптимизации по парам кодонов (8ЕЦ ΙΌ NΟ: 16-17) и один вариант с оптимизацией по отдельным кодонам и отрицательной оптимизацией по парам кодонов (8ЕЦ ΙΌ NΟ: 18), см. пример 4 и табл. 4.1.
5.3. Клонирование генов, кодирующих глюкозоизомеразу и Ь-арабинозоизомеразу, в челночном векторе Е.соН/ВасШик и перенос их в ВасШик кр.
Для экспрессии выбранных генов в ВасШик кр. использовали челночный вектор Е.соН/ВасШик (фиг. 26). Этот вектор в основном происходит из экспрессионного вектора рВНА-1 (ЕР 340878), у которого промотор НраП заменен промотором из гена атуф ВасШик ату1о11диеГас1еик. Плазмида рВНА12 содержит два сайта множественного клонирования (фиг. 26). Все выбранные и оптимизированные гены были созданы искусственно (ΟΝΛ 2.0, Меи1о Рагк, СА, И.8.А.) в виде двух фрагментов (А и В). Фрагмент А, соответствующий 5'-концу гена, клонировали за промотором атуф. К обоим фрагментам добавляли специфические сайты рестрикционной эндонуклеазы для того, чтобы получить возможность прямого клонирования по сайтам множественного клонирования 1 и 2 (см. фиг. 27). 3'-Конец фрагмента А и 5'-конец фрагмента В перекрываются по уникальному сайту рестрикционной эндонуклеазы, что позволяет вырезать принадлежащую Е.со11 часть вектора и замкнуть его обратно перед трансформированием ВасШик киЫШк (СВ8 363.94). Во время процедуры клонирования и трансформации В.киЫШк в качестве
- 40 015925 промежуточного хозяина использовали Е.со11. Состоящий из двух стадий подход к клонированию в рВНА12 был выбран с тем, чтобы избежать возможных проблем при клонировании и размножении экспрессирующих векторов в Е.со11. В табл. 5.1 приведены сайты распознавания рестрикционных ферментов, добавленные во фрагменты А и В, а также уникальный рестрикционный сайт, позволяющий обратное лигирование и по сути восстановление полного и функционального гена. Все 5'-концы фрагментов А содержат сайт Ыйе1 (последовательность опознавания САТАТС), который позволяет клонировать гены в виде фрагмента, начинающегося точно со своего старт-кодона (АТС).
Таблица 5.1
Сводка по клонирующим сайтам рестрикционных эндонуклеаз (РЭ), добавленным во фрагменты генов для облегчения клонирования в рВНА12
Ген/РЭ | Фрагмент А | Фрагмент В | Уник. сайтРЭ (позиция в гене) | ||
5-конец | 3-конец | 5-конец | 3-конец | ||
ГИ В. 5(еагоЖеппорЫ1из | Ше1 | ВатН1 | 8та1 | ΚρηΙ | ΡνιιΙΙ (496 п.о.) |
ГИ 8. оНуосйгото^епск | ΝάεΙ | М1и1 | ЕсоВУ | ΚρηΙ | С1а1 (372 п.о.) |
Ь-АИ Т. таШгапн | Ше1 | МЫ | 8ас1 | ΚρηΙ | С1а1(708 п.о.) |
Фрагменты А и В 5 генов клонировали в две стадии по сайтам множественного клонирования 1 и 2 соответственно, как показано для 8ЕО ΙΌ N0: 13 на фиг. 27, используя стандартные методы молекулярной биологии (8атЬгоок & Викке11, Мо1еси1аг С1ошпд: А ЬаЬогаШгу Мапиа1, 3гй Ей., С8НЬ Ргекк, Со1й 8ргшд НагЬог, ΝΥ, 2001 и АикиЬе1 е1 а1., Сиггеп! Рго1осо1к ίπ Мо1еси1аг В1о1оду, XV Неу 1п1ег8аепсе, ΝΥ, 1995). Трансформацию выполняли в Е.со11 ТОР10 (1пуйгодеп) или ΙΝν110 (1пуйгодеп) в случае использования чувствительных к метилированию рестрикционных эндонуклеаз на дополнительной стадии. По каждой экспрессирующей конструкции выделяли несколько устойчивых к ампициллину трансформантов Е.со11 с помощью наборов мини или миди для выделения плазмид (Мас11егеу-№1де1 и 81дта соответственно). Правильность встраивания соответствующих фрагментов А и В в вектор рВНА12 проверяли рестрикционным анализом. На следующей стадии плазмиды рВНА12, содержащие фрагменты А и В этих генов, расщепляли с помощью уникальной рестрикционной эндонуклеазы (см. табл. 5.1), чтобы вырезать принадлежащую Е.со11 часть вектора. Принадлежащую ВасШик часть вектора, содержащую разорванный ген, выделяли из агарозного геля с помощью набора для экстрагирования гелей (Масйегеу-№де1) и замыкали (лигировали) обратно. Лигирующую смесь использовали для трансформирования штамма В.киЬййк СВ8 363.94 путем трансформации компетентных клеток. По каждой экспрессирующей конструкции выделяли несколько устойчивых к канамицину трансформантов В.8иЪй118 с помощью наборов мини или миди для выделения плазмид (Масйегеу-№де1 и 81дта соответственно). Экспрессирующие конструкции проверяли рестрикционным анализом на правильность их структуры после вырезания принадлежащей Е.соН части и обратного лигирования принадлежащей ВасШик части вектора рВНА12. По каждой конструкции отбирали три трансформанта В.киЬййк для анализа бесклеточных экстрактов.
5.4. Детектирование суперпродукции ферментов в ВасШик кр.
По каждой конструкции три трансформанта В.киЫШк и три трансформанта В. ату1о11циеГас1епк использовали для анализа бесклеточных экстрактов на присутствие соответствующего белка - глюкозоизомеразы или Ь-арабинозоизомеразы. Для выращивания штаммов использовали ферментационную среду 2χΤΥ. После ферментации в течение 24 ч (в колбах на качалке) отбирали пробы (1 мл) и получали бесклеточные экстракты в буфере для экстракции, содержащем ингибиторы протеаз. Для анализа методом 8Э8-РАСЕ (1пуШодеп) использовали 13 мкл бесклеточного экстракта. У нескольких трансформантов обнаруживалась четкая полоса, соответствующая расчетному молекулярному весу подвергаемого суперэкспрессии белка. Визуальное сравнение полос представлено в табл. 5.2. Ясно, что способ изобретения улучшает продукцию белков ксилозоизомеразы ВасШик к1еагоШегторЫ1ик, ксилозоизомеразы 81герЮтусек ойуосйготодепек и Ь-арабинозоизомеразы ТйегтоапаегоЬас1ег таШгапй при использовании метода пар кодонов, т. е. он приводит к улучшению продукции белка по сравнению как с контрольным геном дикого типа, так и с оптимизированными по отдельным кодонам вариантами. Более того, при отрицательной оптимизации по парам кодонов вместе с оптимизацией по отдельным кодонам продукт не обнаруживался.
- 41 015925
Таблица 5.2
Суперэкспрессия трех гетерологичных генов в ВасШик кр. д.т. = дикий тип, о.к. = оптимизация по отдельным кодонам, п.к. = оптимизация по парам кодонов, п.к.- = отрицательная оптимизация по парам кодонов
В. зиЬйНз | В. ату1оНдиеГас1епз | |||||||
Д-Т. | о.к. | о.к. + П.К. | о. к. + п. к/ | Д.Т. | О.К. | О.К. ч* п.к. | о.к. + П.К.’ | |
Ксилозоизомераза ВасШиз з(сагойзеттрЬйиз (8ЕС) ГО ΝΟ. 16,13) | + | +++ | + | +++ | ||||
Ксилозоизомераза ЗйерГотусез οΐίνοсйготодепез (8Б<) ГО ΝΟ. 17,14,18) | + | +Ь | 0 | -Ь | ++ | 0 | ||
Е-арабинозоизомераза ТЬегт оапаегоЪас 1ег тайпапп (8ЕС) ГО ΝΟ. 12,15) | 0/+ | ++ | 0 | ++ |
Библиография
Воускеуа, 8., Сйкобгоу, О. & Напоу, Ι. (2003). Собоп райк ίπ Ше депоте оГ ЕкскепсЫа сой. ВттГогтаЕск. 19(8): 987-998.
Ошутк, 0.Ь., Вагапоу, Р.У., Оек!е1апб, В.Е., АШпз, ТЕ. (2005). Ехргекктп 1еуе1к 1пГ1иепсе пЬокота1 ГгатекЫГйпд а! Ше 1апбет гаге агдшше собопк АОО_АОО апб АОА_АОА. I. Вас!епо1. 187:4023-4032.
Оик!аГккоп, С., Ооутбага.)ап, 8. & Мшкки11, I. (2004). Собоп Ыак апб ке!его1одоик рго!еш ехргекктп. Тгепбк Вт!есЬпо1. 22(7): 346-353.
Ои!тап, О.А. & НаГйе1б, О.У. (1989). №пгапбот ийГОайоп оГ собоп ралк ш ЕкскепсЫа сой. РNА8. 86: 3699-3703.
Оуд1, 8.Р., Воскоп, Υ., Епт/а, В.В., & АеЬегко1б, В. (1999). Согге1айоп ЬеЕгееп рго!еш апб тΒNА аЬипбапсе ш уеак!. Мо1. Се11. Вт1. 19(3): 1720-30.
НаЙ!е1б, О.У. & Ои!тап, О.А. (1992). Собоп рал ийГОайоп. Ипйеб 81а1ек Ра1еп1 №. 5,082,767.
[гуут, В., Неск, Ό. & НаЙ!е1б, ОА\'. (1995). Собоп рал ийНхайоп Ыакек 1пйиепсе !гапк1айопа1 е1опдайоп к!ер йтек. I. Вт1. Скет. 270: 22801-22806.
Кагйп е! а1. (2001). С11агас1епха1юп оГ Ыдй1у ехргеккеб депек оГ Гоиг Гак!-дголшд Ьас!епа. I. оГ Вас!епо1оду. 183(17): 5025-39.
Кипк!, Е. е! а1. (1997). Тке сотр1е!е депоте кециепсе оГ Ше Огат-рокШуе Ьас!епит ВасШик киЫШк. №!иге. 390: 249-256.
ЫШлюк, О. & МагдаШ, Н. (2003). Н1егагску оГ кециепсе-берепбеп! ГеаШгек аккоаа!еб \νίΐ1ι ргокагуойс 1гапк1айоп. Оепоте Век. 13(12): 2665-73.
Макпбек, 8.С. (1996). 81га1ед1ек Гог асЫеушд Ыдк-1еуе1 ехргекктп оГ депек ш ЕкскепсЫа сой. МюгоЫо1. Веу. 60: 512-538.
Моига, О. е! а1. (2005). Сотрагайуе соп!ех! апа1ук1к оГ собоп ралк оп ап 0ВЕеоте кса1е. Оепоте Вт1оду. 2005, 6: В28.
№уа1атеп, К.М.Н., Те'о, У.8.Т & Вегдцшк!, Р.Ь. (2005). Не!его1одоик рго!еш ехргекктп ш й1атеп!оик ГипдГ Тгепбк Вт1есйпо1. 2005 23(9): 468-474.
Ре1, Н.Т е! а1. (2007). Оепоте кециепсшд апб апа1ук1к оГ Ше уегкаШе се11 Гас!огу АкрегдШик шдег СВ8513.88. N31. В1о!еск. 2007, 25(2): 221-231.
Рип!, Р.Т, уап В1ехеп, К, Сопека, А., А1Ьегк, А., Мапдпик, Т & уап беп Нопбе1, С. (2005). Е11атеп!оик Гипд1 ак се11 ГасЮпек Гог ке!его1одоик рго!еш ргобисйоп. Тгепбк Вт1есЫю1. 20(5): 200-206.
Воска, Е.Р.С., А. ЭапсЫп апб А. У1ап (1999). Тгапк1айоп ш ВасШик киЫШк: го1ек апб !гепбк оГ шШайоп апб !егтшайоп, шыдЫк Ггот а депоте апа1ук1к. NΛВ, 27(17): 3567-76.
8склайх, 8. & Сиггап, ТЕ. (1997). Апа1укек оГ ГгатекЫГйпд а! иии-ругпшбше кйек. NЛВ. 25(10): 2005-2011. 8рап)аагб, В.А. & уап Ошп Т (1988). Тгапк1айоп оГ Ше кециепсе АОО-АОО у1е1бк 50% пЬокота1 ГгатекЫй. РNА8 85: 7967-7971.
Claims (17)
- ФОРМУЛА ИЗОБРЕТЕНИЯ1. Способ оптимизации кодирующей нуклеотидной последовательности, кодирующей заданную аминокислотную последовательность, в котором кодирующая последовательность подвергается оптимизации для улучшенного экспрессирования в заданных клетках хозяина, который включает:a) получение по меньшей мере одной исходной кодирующей последовательности, кодирующей заданную аминокислотную последовательность;b) создание по меньшей мере одной новой кодирующей последовательности из этой по меньшей мере одной исходной кодирующей последовательности путем замены в ней одного или нескольких кодонов на синонимический кодон;c) определение значения пригодности данной по меньшей мере одной исходной кодирующей последовательности и значения пригодности данной по меньшей мере одной новосозданной кодирующей последовательности с помощью функции пригодности, определяющей пригодность отдельных кодонов и/или пригодность пар кодонов для заданных клеток хозяина;б) выбор одной или нескольких кодирующих последовательностей, отобранных из данной по меньшей мере одной исходной кодирующей последовательности и данной по меньшей мере одной новосозданной кодирующей последовательности в соответствии с заданным критерием отбора, при котором чем больше значение пригодности, тем больше шансов быть выбранной;е) повторение операций (Ь)-(б) с тем, что данная одна или несколько отобранных кодирующих последовательностей рассматриваются как одна или несколько исходных кодирующих последовательностей при операциях (Ь)-(б) до тех пор, пока не будет выполняться заданный критерий прекращения итерации, где функция пригодности определяется при помощи уравнения „ ( А/а) где ϊ йбВС(ё) = -~—0^с(к),с(.к+-1У)1«Н н ср1 принимает действительное значение больше нуля;£йср(д) означает функцию пригодности по парам кодонов;П1,с(д) означает функцию пригодности по отдельным кодонам;те((с(к),с(к+1)) означает вес пары кодонов в кодирующей последовательности д;|д| означает длину данной кодирующей последовательности;с(к) значает к-й кодон в данной последовательности кодонов;г 1агде1 8с(с(к)) означает желательную долю кодона с(к);г®8с(с(к)) означает фактическую долю в кодирующей последовательности д.
- 2. Способ по п.1, в котором заданный критерий отбора таков, что данная одна или несколько отобранных кодирующих последовательностей имеет наилучшее значение пригодности в соответствии с данным критерием.
- 3. Способ по п.1 или 2, который после операции е) дополнительно включает ί) выбор наилучшей индивидуальной кодирующей последовательности из данных одной или нескольких отобранных кодирующих последовательностей, при этом данная наилучшая индивидуальная кодирующая последовательность имеет лучшее значение пригодности, чем другие отобранные кодирующие последовательности.
- 4. Способ по любому из пп.1-3, в котором заданный критерий прекращения итерации заключается в проверке по меньшей мере одного из:(a) чтобы по меньшей мере у одной из данных отобранных кодирующих последовательностей наилучшее значение пригодности было выше заданного порогового значения;(b) чтобы ни у одной из данных отобранных кодирующих последовательностей наилучшее значение пригодности не было ниже заданного порогового значения;(c) чтобы по меньшей мере у одной из данных отобранных кодирующих последовательностей по меньшей мере 30% пар кодонов с соответствующими положительными весами пар кодонов для заданных клеток хозяина в данной исходной кодирующей последовательности было превращено в пары кодонов с соответствующими отрицательными весами; и (б) чтобы по меньшей мере у одной из данных отобранных кодирующих последовательностей по меньшей мере 30% пар кодонов с соответствующими положительными весами больше 0 для заданных клеток хозяина в данной исходной кодирующей последовательности было превращено в пары кодонов с соответствующими весами меньше 0.- 154 015925
- 5. Способ по п.4, в котором ср1 заключается между 10-4 и 0,5.
- 6. Способ по п.5, в котором веса ν пар кодонов берут из матрицы 61x61 пар кодонов без стопкодонов либо из матрицы 61x64 пар кодонов, включающей стоп-кодоны, при этом веса ν пар кодонов вычисляют на основе компьютеризованного метода, используя в качестве исходных данных по меньшей мере одно из следующего:(a) группу нуклеотидных последовательностей, состоящую как минимум из 200 кодирующих последовательностей заданного хозяина;(b) группу нуклеотидных последовательностей, состоящую как минимум из 200 кодирующих последовательностей того же вида, к которому принадлежит заданный хозяин;(c) группу нуклеотидных последовательностей, составляющую как минимум 5% кодирующих белки нуклеотидных последовательностей в геноме заданного хозяина; и (й) группу нуклеотидных последовательностей, составляющую как минимум 5% кодирующих белки нуклеотидных последовательностей в геноме вида, родственного заданному хозяину.
- 7. Способ по п.6, в котором веса ν пар кодонов определяются по меньшей мере для 5, 10, 20, 50 и предпочтительно 100% из всех возможных 61x64 пар кодонов, включая сигнал терминации в качестве стоп-кодона.
- 8. Способ по п.5, в котором веса ν пар кодонов берут из матрицы 61x61 пар кодонов без стопкодонов либо из матрицы 61x64 пар кодонов, включающей стоп-кодоны, при этом веса ν пар кодонов определяются при помощи уравнения1« (С( >С,)) =-----т--------------~--------где совместное математическое ожидание псотЬ1 ехр((с1, с,)) определяется согласно = Σ п0Г((спс,)) где га11 кс(ск) означает долю отдельного кодона ск в наборе данных из всего генома;пЬ1дЬ оЬк((с1, с,) означает встречаемость пары (с,, с,) в группе с высоким уровнем экспрессии, причем группа с высоким уровнем экспрессии состоит из таких генов, мРНК которых обнаруживается на уровне по меньшей мере 20 копий на клетку.
- 9. Способ по любому из предыдущих пунктов, в котором исходная кодирующая нуклеотидная последовательность, кодирующая заданную аминокислотную последовательность, выбирается из:(a) нуклеотидной последовательности дикого типа, кодирующей заданную аминокислотную последовательность;(b) продукта обратной трансляции заданной аминокислотной последовательности, причем кодон для аминокислоты в заданном положении данной аминокислотной последовательности выбирается случайным образом из синонимических кодонов, кодирующих эту аминокислоту; и (c) продукта обратной трансляции заданной аминокислотной последовательности, причем кодон для аминокислоты в заданном положении данной аминокислотной последовательности выбирается в соответствии со смещенностью отдельных кодонов у заданных клеток хозяина или родственного вида.
- 10. Способ по любому из пп.1-9, в котором заданные клетки хозяина представлены клетками микроорганизма, предпочтительно микроорганизма из рода, выбранного из ВасШик, ЛсНпотусейк, ЕксйейсЫа, ЫгерЮтусек. ЛкрегдШик, РешсШшт, К1иууеготусек, 8ассйаготусек.
- 11. Способ по любому из пп.1-9, в котором заданные клетки хозяина представлены клетками животного или растения, предпочтительно из клеточной линии, выбранной из клеток СНО, ВНК, N80, С08, Уего, РЕВ.С6™, НЕК-293, клеток дрозофилы 82, клеток сподоптеры 819 и 8121.
- 12. Молекула нуклеиновой кислоты, включающая кодирующую последовательность, кодирующая заданную аминокислотную последовательность, причем кодирующая последовательность сконструирована согласно способу по п.1 и имеет значение Н1ср(§) как минимум меньше -0,1, предпочтительно меньше -0,2 и более предпочтительно меньше -0,3 для заданных клеток хозяина.
- 13. Молекула нуклеиновой кислоты, включающая кодирующую последовательность, кодирующую заданную аминокислотную последовательность, причем кодирующая последовательность сконструирована согласно способу по п.1 и имеет значение Н1ср(§) как минимум меньше -0,1, предпочтительно меньше -0,2 для заданных клеток хозяина и значение ГИкс(д) как минимум меньше 0,1 для заданных клеток хозяина.
- 14. Молекула нуклеиновой кислоты по п.12 или 13, в которой кодирующая последовательность функционально связана с контролирующей экспрессию последовательностью, способной управлять экспрессией кодирующей последовательности в заданных клетках хозяина.
- 15. Клетки хозяина, содержащие молекулу нуклеиновой кислоты, по п.14.- 155 015925
- 16. Способ получения полипептида, имеющего заданную аминокислотную последовательность, который включает культивирование клеток хозяина, по п.15 в условиях, ведущих к экспрессии полипептида, и необязательно выделение полипептида.
- 17. Способ получения по меньшей мере одного внутриклеточного или внеклеточного метаболита, который включает культивирование клеток хозяина, по п.15 в условиях, ведущих к продукции метаболита, при этом в продукции метаболита предпочтительно участвует полипептид, имеющий заданную аминокислотную последовательность.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP06076328 | 2006-06-29 | ||
PCT/EP2007/055943 WO2008000632A1 (en) | 2006-06-29 | 2007-06-15 | A method for achieving improved polypeptide expression |
Publications (2)
Publication Number | Publication Date |
---|---|
EA200900096A1 EA200900096A1 (ru) | 2009-06-30 |
EA015925B1 true EA015925B1 (ru) | 2011-12-30 |
Family
ID=37199000
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
EA200900096A EA015925B1 (ru) | 2006-06-29 | 2007-06-15 | Способ получения полипептидов |
Country Status (12)
Country | Link |
---|---|
US (2) | US8812247B2 (ru) |
EP (2) | EP2035561A1 (ru) |
JP (1) | JP5250850B2 (ru) |
CN (1) | CN101490262B (ru) |
AU (1) | AU2007263880A1 (ru) |
BR (1) | BRPI0713795B1 (ru) |
CA (1) | CA2657975A1 (ru) |
DK (1) | DK2423315T3 (ru) |
EA (1) | EA015925B1 (ru) |
ES (1) | ES2534282T3 (ru) |
PL (1) | PL2423315T3 (ru) |
WO (1) | WO2008000632A1 (ru) |
Families Citing this family (126)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10260805A1 (de) * | 2002-12-23 | 2004-07-22 | Geneart Gmbh | Verfahren und Vorrichtung zum Optimieren einer Nucleotidsequenz zur Expression eines Proteins |
JP2009545329A (ja) * | 2006-08-04 | 2009-12-24 | ファーマシーネ,インコーポレイテッド | 長い半減期の組換え型ブチリルコリンエステラーゼ |
EA018840B1 (ru) | 2007-02-15 | 2013-11-29 | ДСМ АйПи АССЕТС Б.В. | Рекомбинантная клетка-хозяин для получения соединения, представляющего интерес |
WO2009005564A2 (en) * | 2007-06-29 | 2009-01-08 | The Regents Of The University Of California | Cellulose- and hemicellulose-degradation enzyme -encoding nucleotide sequences with refined translational kinetics and methods of making same |
WO2009030254A1 (en) * | 2007-09-04 | 2009-03-12 | Curevac Gmbh | Complexes of rna and cationic peptides for transfection and for immunostimulation |
EP2222854A1 (en) | 2007-11-20 | 2010-09-01 | DSM IP Assets B.V. | Dicarboxylic acid production in a filamentous fungus |
WO2009065778A1 (en) | 2007-11-20 | 2009-05-28 | Dsm Ip Assets B.V. | Succinic acid production in a eukaryotic cell |
WO2009101180A2 (en) * | 2008-02-15 | 2009-08-20 | Dsm Ip Assets B.V. | Process for the production of a dicarboxylic acid |
BRPI0910812A2 (pt) * | 2008-03-07 | 2019-02-26 | Dsm Ip Assets Bv | célula de fermentação de açúcar pentose |
WO2009109633A1 (en) * | 2008-03-07 | 2009-09-11 | Dsm Ip Assets B.V. | A pentose sugar fermenting cell |
WO2009113855A2 (en) | 2008-03-11 | 2009-09-17 | Dsm Ip Assets B.V. | PREPARATION OF 6-AMINOCAPROIC ACID FROM α-KETOPIMELIC ACID |
DK2252698T3 (en) | 2008-03-11 | 2018-01-22 | Genomatica Inc | ADIPATESTER- OR -THIOESTER-SYNTHESIS |
EP2123767A1 (en) | 2008-05-20 | 2009-11-25 | DSM IP Assets B.V. | Preparation of epsilon-caprolactam via lysine cyclisation |
EP2123768A1 (en) | 2008-05-20 | 2009-11-25 | DSM IP Assets B.V. | Preparation of (Z)-6,7-dihydro-1H-azepin-2(5H)-one |
BRPI0915534B1 (pt) | 2008-07-08 | 2021-04-20 | Dsm Ip Assets B.V. | produção de ácido succínico de ph baixo |
EP2406386B1 (en) | 2009-03-10 | 2019-01-23 | DSM IP Assets B.V. | Method for improving the yield of a polypeptide |
US8703463B2 (en) | 2009-03-10 | 2014-04-22 | Dsm Ip Assets B.V. | Pregastric esterase and derivatives thereof |
AU2010221863A1 (en) | 2009-03-11 | 2011-10-06 | Dsm Ip Assets B.V. | Preparation of adipic acid |
US9353387B2 (en) | 2009-04-15 | 2016-05-31 | Dsm Ip Assets B.V. | Dicarboxylic acid production process |
AU2010241099A1 (en) | 2009-04-22 | 2011-10-27 | Dsm Ip Assets B.V. | Process for the production of a recombinant polypeptide of interest |
UA108853C2 (uk) | 2009-07-10 | 2015-06-25 | Спосіб ферментації галактози | |
EP2456872B1 (en) | 2009-07-22 | 2017-08-30 | DSM IP Assets B.V. | Improved host cell for the production of a compound of interest |
CN105132486A (zh) | 2009-07-24 | 2015-12-09 | 帝斯曼知识产权资产管理有限公司 | 用于通过n-酰基或n-胍基保护的1,4-丁二胺前体制备1,4-丁二胺的方法 |
CA2771162C (en) | 2009-08-27 | 2018-09-04 | Dsm Ip Assets B.V. | Dicarboxylic acid fermentation process |
EP2473603A1 (en) | 2009-09-03 | 2012-07-11 | DSM IP Assets B.V. | Baking enzyme composition as ssl replacer |
WO2011064151A1 (en) | 2009-11-24 | 2011-06-03 | Dsm Ip Assets B.V. | Process for the crystallization of succinic acid |
EP2336310A1 (en) | 2009-12-16 | 2011-06-22 | Isobionics B.V. | Valencene synthase |
US8729245B2 (en) | 2009-12-21 | 2014-05-20 | Pharmathene, Inc. | Recombinant butyrylcholinesterases and truncates thereof |
JP5521236B2 (ja) * | 2009-12-22 | 2014-06-11 | 独立行政法人産業技術総合研究所 | 発現予測装置および発現予測方法 |
WO2011100369A2 (en) * | 2010-02-09 | 2011-08-18 | The Trustees Of Columbia University In The City Of New York | Methods for altering polypeptide expression and solubility |
WO2011157717A1 (en) | 2010-06-14 | 2011-12-22 | Dsm Fine Chemicals Austria Nfg. Gmbh & Co Kg | Novel polypeptides having nad(p)h oxidase activity and the use thereof |
EA201300074A1 (ru) | 2010-07-01 | 2013-06-28 | ДСМ АйПи АССЕТС Б.В. | Способ получения представляющего интерес соединения |
MX350510B (es) | 2010-07-14 | 2017-09-08 | Patheon Austria Gmbh & Co Kg | Aminación (r)-selectiva. |
WO2012031910A2 (en) | 2010-09-10 | 2012-03-15 | Dsm Ip Assets B.V. | Method for preparing alpha-ketopimelic acid by c1-elongation |
WO2012031911A2 (en) | 2010-09-10 | 2012-03-15 | Dsm Ip Assets B.V. | Preparation of 6-aminocaproic acid from alpha-ketopimelic acid |
WO2012038390A1 (en) | 2010-09-24 | 2012-03-29 | Dsm Ip Assets B.V. | Dicarboxylic acid production process |
EP2495304A1 (en) | 2010-12-03 | 2012-09-05 | DSM IP Assets B.V. | Dicarboxylic acid production in a yeast cell |
WO2012089613A1 (en) | 2010-12-28 | 2012-07-05 | Dsm Ip Assets B.V. | Process to increase the production of a succinyl-coa derived compound |
EP2683732B1 (en) | 2011-03-11 | 2016-08-24 | DSM IP Assets B.V. | Vector-host system |
US20140113338A1 (en) | 2011-04-01 | 2014-04-24 | Dsm Ip Assets B.V. | Preparation of 5-formyl valeric acid from alpha-ketopimelic acid |
EP2537926A1 (en) | 2011-06-21 | 2012-12-26 | Isobionics B.V. | Valencene synthase |
EP2726624B1 (en) | 2011-07-01 | 2016-11-30 | DSM IP Assets B.V. | Process for producing dicarboxylic acids employing fungal cells |
WO2013010057A1 (en) * | 2011-07-13 | 2013-01-17 | Aemetis, Inc. | Compositons and methods for the production of isoprene |
WO2013007821A1 (en) | 2011-07-14 | 2013-01-17 | Dsm Ip Assets B.V. | Screening method |
EP2554668A1 (en) | 2011-08-04 | 2013-02-06 | DSM IP Assets B.V. | A pentose sugar fermenting cell |
AR087423A1 (es) | 2011-08-04 | 2014-03-19 | Dsm Ip Assets Bv | Celula capaz de fermentar azucares pentosas |
CN104245919B (zh) | 2012-01-05 | 2017-07-14 | 诺华股份有限公司 | 蛋白酶缺陷丝状真菌细胞及其使用方法 |
ES2546630T3 (es) | 2012-01-30 | 2015-09-25 | Dsm Ip Assets B.V. | Alfa-amilasa |
WO2013156443A1 (en) | 2012-04-17 | 2013-10-24 | F. Hoffmann-La Roche Ag | Method for the expression of polypeptides using modified nucleic acids |
DK2852610T3 (en) | 2012-05-23 | 2018-09-03 | Glykos Finland Oy | PRODUCTION OF FUCOSYLED GLYCOPROTEIN |
US20150147365A1 (en) | 2012-05-31 | 2015-05-28 | Dsm Ip Assets B.V. | Oral preparation |
BR112015001155A2 (pt) | 2012-07-18 | 2017-06-27 | Isobionics B V | célula hospedeira rhodobacter respectivo uso e método para preparar monoterpeno ou sesquiterpeno |
DK3327112T3 (en) | 2012-07-19 | 2020-05-04 | Dsm Ip Assets Bv | Agse-deficient stamme |
WO2014018552A1 (en) | 2012-07-24 | 2014-01-30 | Bp Corporation North America Inc. | Xylose isomerases and their uses |
IN2015DN01042A (ru) | 2012-08-28 | 2015-06-26 | Dsm Ip Assets Bv | |
WO2014033018A1 (en) | 2012-08-28 | 2014-03-06 | Dsm Ip Assets B.V. | Yeast strains engineered to produce ethanol from acetate |
US20140244228A1 (en) * | 2012-09-19 | 2014-08-28 | Agency For Science, Technology And Research | Codon optimization of a synthetic gene(s) for protein expression |
EP2898076B1 (en) | 2012-09-19 | 2018-03-07 | DSM IP Assets B.V. | Cell modification method using essential genes as markers and optionally recycling these |
MY171218A (en) | 2012-10-16 | 2019-10-02 | Dsm Ip Assets Bv | Cells with improved pentose conversion |
WO2014142647A1 (en) | 2013-03-14 | 2014-09-18 | Wageningen Universiteit | Fungals strains with improved citric acid and itaconic acid production |
CA2916905A1 (en) | 2013-07-10 | 2015-01-15 | Novartis Ag | Multiple proteases deficient filamentous fungal cells and methods of use thereof |
US9475874B2 (en) | 2013-08-26 | 2016-10-25 | MabVax Therapeutics, Inc. | Nucleic acids encoding human antibodies to sialyl-lewisa |
AR097480A1 (es) | 2013-08-29 | 2016-03-16 | Dsm Ip Assets Bv | Células de levadura convertidoras de glicerol y ácido acético con una conversión de ácido acético mejorada |
DK3077517T3 (en) | 2013-12-02 | 2019-02-11 | Dsm Ip Assets Bv | ISSTRUCTURING PROTEIN |
WO2015177153A1 (en) | 2014-05-19 | 2015-11-26 | Dsm Ip Assets B.V. | Proline-specific endoprotease |
WO2015177171A1 (en) | 2014-05-19 | 2015-11-26 | Dsm Ip Assets B.V. | Proline-specific endoprotease |
WO2015177152A1 (en) | 2014-05-19 | 2015-11-26 | Dsm Ip Assets B.V. | Proline-specific endoprotease |
KR102226248B1 (ko) | 2014-06-04 | 2021-03-12 | 바이오엔테크 리서치 앤드 디벨롭먼트 인코포레이티드 | 강글리오사이드 gd2에 대한 사람 단클론 항체 |
EP3172333B1 (en) | 2014-07-21 | 2020-05-13 | Glykos Finland Oy | Production of glycoproteins with mammalian-like n-glycans in filamentous fungi |
WO2016110512A1 (en) | 2015-01-06 | 2016-07-14 | Dsm Ip Assets B.V. | A crispr-cas system for a yeast host cell |
US10590436B2 (en) | 2015-01-06 | 2020-03-17 | Dsm Ip Assets B.V. | CRISPR-CAS system for a lipolytic yeast host cell |
WO2016110453A1 (en) | 2015-01-06 | 2016-07-14 | Dsm Ip Assets B.V. | A crispr-cas system for a filamentous fungal host cell |
CN107429273A (zh) | 2015-02-16 | 2017-12-01 | 帝斯曼知识产权资产管理有限公司 | 用于在厌氧条件下生产衣康酸的方法 |
AR104205A1 (es) | 2015-04-09 | 2017-07-05 | Dsm Ip Assets Bv | Fosfolipasa c |
MX2017015126A (es) | 2015-06-02 | 2018-03-28 | Dsm Ip Assets Bv | Uso de proteina estructurante del hielo. |
US10724040B2 (en) | 2015-07-15 | 2020-07-28 | The Penn State Research Foundation | mRNA sequences to control co-translational folding of proteins |
WO2017050652A1 (en) | 2015-09-25 | 2017-03-30 | Dsm Ip Assets B.V. | Asparaginase |
EP4361240A3 (en) | 2015-11-17 | 2024-07-31 | DSM IP Assets B.V. | Preparation of a stable beer |
US10829748B2 (en) | 2016-06-10 | 2020-11-10 | Dsm Ip Assets B.V. | Mutant lipase and use thereof |
CN109689864B (zh) | 2016-07-13 | 2023-04-04 | 帝斯曼知识产权资产管理有限公司 | 苹果酸脱氢酶 |
US11466269B2 (en) | 2016-07-13 | 2022-10-11 | Dsm Ip Assets B.V. | CRISPR-Cas system for an algal host cell |
US10913938B2 (en) | 2016-07-29 | 2021-02-09 | Dsm Ip Assets B.V. | Polypeptides having cellulolytic enhancing activity and uses thereof |
CN106650307B (zh) * | 2016-09-21 | 2019-04-05 | 武汉伯远生物科技有限公司 | 一种基于密码子对使用频度的基因密码子优化方法 |
US20200199599A1 (en) | 2016-09-23 | 2020-06-25 | Dsm Ip Assets B.V. | A guide-rna expression system for a host cell |
CA3046153A1 (en) | 2016-12-21 | 2018-06-28 | Dsm Ip Assets B.V. | Lipolytic enzyme variants |
WO2018114938A1 (en) | 2016-12-21 | 2018-06-28 | Dsm Ip Assets B.V. | Lipolytic enzyme variants |
US10918113B2 (en) | 2016-12-21 | 2021-02-16 | Dsm Ip Assets B.V. | Lipolytic enzyme variants |
WO2018114912A1 (en) | 2016-12-21 | 2018-06-28 | Dsm Ip Assets B.V. | Lipolytic enzyme variants |
JP2020501525A (ja) | 2016-12-22 | 2020-01-23 | ディーエスエム アイピー アセッツ ビー.ブイ.Dsm Ip Assets B.V. | グルタチオンレダクターゼ |
WO2018148761A1 (en) * | 2017-02-13 | 2018-08-16 | The Regents Of The University Of Colorado, A Body Corporate | Compositions, methods and uses for multiplexed trackable genomically-engineered polypeptides |
NL2018457B1 (en) | 2017-03-02 | 2018-09-21 | Isobionics B V | Santalene Synthase |
EP3596199A1 (en) | 2017-03-13 | 2020-01-22 | DSM IP Assets B.V. | Zinc binuclear cluster transcriptional regulator-deficient strain |
CN107353327A (zh) * | 2017-03-30 | 2017-11-17 | 南京百斯杰生物工程有限公司 | 植酸酶在黑曲霉中表达 |
US20200032252A1 (en) | 2017-04-06 | 2020-01-30 | Dsm Ip Assets B.V. | Self-guiding integration construct (sgic) |
CN110070913B (zh) * | 2017-07-25 | 2023-06-27 | 南京金斯瑞生物科技有限公司 | 一种基于免疫算法的密码子优化方法 |
NL2019473B1 (en) | 2017-09-01 | 2019-03-11 | Isobionics B V | Terpene Synthase producing patchoulol and elemol, and preferably also pogostol |
EP3688149A1 (en) | 2017-09-26 | 2020-08-05 | Bunge Global Innovation, LLC. | Enzymatic removal of chlorophyll substrates from triacylglycerol-based oils |
US11707522B2 (en) | 2017-10-13 | 2023-07-25 | Boehringer Ingelheim International Gmbh | Human antibodies to Tn antigen |
US20200392513A1 (en) | 2017-12-20 | 2020-12-17 | Dsm Ip Assets B.V. | A method for genome editing in a host cell |
EP3772966A1 (en) | 2018-04-05 | 2021-02-17 | DSM IP Assets B.V. | Variant maltogenic alpha-amylase |
WO2019215102A1 (en) | 2018-05-09 | 2019-11-14 | Dsm Ip Assets B.V. | Crispr transient expression construct (ctec) |
CA3100611A1 (en) | 2018-05-18 | 2019-11-21 | Dsm Ip Assets B.V. | Mutant lipase and use thereof |
EP3794115A2 (en) | 2018-05-18 | 2021-03-24 | DSM IP Assets B.V. | Mutant lipase and use thereof |
EP3809852A1 (en) | 2018-06-19 | 2021-04-28 | DSM IP Assets B.V. | Lipolytic enzyme variants |
TWI802728B (zh) * | 2018-07-30 | 2023-05-21 | 大陸商南京金斯瑞生物科技有限公司 | 密碼子優化方法、包括其之系統及電子裝置、其核酸分子及使用其之蛋白質表現方法 |
EP3837692A4 (en) * | 2018-08-15 | 2022-07-06 | Zymergen, Inc. | BIOATTAINABLE PREDICTION TOOL WITH BIOLOGICAL SEQUENCE SELECTION |
CN113015811A (zh) | 2018-11-15 | 2021-06-22 | 帝斯曼知识产权资产管理有限公司 | 改善的核黄素生产 |
EP3891281A1 (en) | 2018-12-05 | 2021-10-13 | DSM IP Assets B.V. | Crispr guide-rna expression strategies for multiplex genome engineering |
EP3946720A1 (en) | 2019-03-27 | 2022-02-09 | Bunge Global Innovation, LLC. | Silica adsorbent treatment for removal of chlorophyll derivatives from triacylglycerol-based oils |
MA55527A (fr) * | 2019-03-28 | 2022-02-09 | Intellia Therapeutics Inc | Polynucléotides, compositions et procédés d'expression de polypeptides |
JP7511591B2 (ja) | 2019-06-28 | 2024-07-05 | エフ. ホフマン-ラ ロシュ アーゲー | 抗体の製造方法 |
EP3766982A1 (en) | 2019-07-18 | 2021-01-20 | Delft Advanced Biofuels B.V. | Integrated system for biocatalytically producing and recovering an organic substance |
CN110491447B (zh) * | 2019-08-05 | 2021-08-17 | 浙江省农业科学院 | 一种用于异源基因体外表达的密码子优化方法及应用 |
CN110873833B (zh) * | 2019-12-10 | 2022-04-08 | 国网河南省电力公司洛阳供电公司 | 一种含分布式电源的配电网自适应故障区段定位方法 |
BR112022017482A2 (pt) | 2020-03-10 | 2022-10-18 | Dsm Ip Assets Bv | Pó lácteo com lactose reduzida |
EP4015626A1 (en) | 2020-12-18 | 2022-06-22 | Isobionics B.V. | Enzymes and methods for fermentative production of monoterpene esters |
WO2023225459A2 (en) | 2022-05-14 | 2023-11-23 | Novozymes A/S | Compositions and methods for preventing, treating, supressing and/or eliminating phytopathogenic infestations and infections |
EP4328311A1 (en) | 2021-04-21 | 2024-02-28 | Zhejiang University | Negative-strand rna viral vector and plant genome editing method without transformation |
EP4355762A1 (en) | 2021-06-17 | 2024-04-24 | DSM IP Assets B.V. | Improved bacillus host cell |
BR112024001952A2 (pt) | 2021-08-02 | 2024-04-30 | Basf Se | Usos de alfa-ionilidenoetano, de uma alfa-ionilidenoetano sintase e de uma célula hospedeira, métodos para preparar um ou mais compostos aromáticos, para perfumar um produto, conferir e/ou intensificar um odor ou sabor e para produzir alfa-ionona, composto ou composição aromática e/ou composição de fragrância e/ou produto perfumado ou com fragrância, produto perfumado ou com fragrância, e, célula hospedeira para produzir alfa-ionona |
AU2022392804A1 (en) | 2021-11-19 | 2024-05-02 | Mirobio Limited | Engineered PD-1 antibodies and uses thereof |
WO2023196866A1 (en) | 2022-04-06 | 2023-10-12 | Mirobio Limited | Engineered cd200r antibodies and uses thereof |
WO2023222614A1 (en) | 2022-05-16 | 2023-11-23 | Dsm Ip Assets B.V. | Lipolytic enzyme variants |
DE102022118459A1 (de) | 2022-07-22 | 2024-01-25 | Proteolutions UG (haftungsbeschränkt) | Verfahren zur optimierung einer nukleotidsequenz für die expression einer aminosäuresequenz in einem zielorganismus |
CN117153253B (zh) * | 2022-09-09 | 2024-05-07 | 南京金斯瑞生物科技有限公司 | 一种设计人源化抗体序列的方法 |
EP4365192A1 (en) | 2022-11-04 | 2024-05-08 | DSM IP Assets B.V. | Microbial production of growth factors |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5082767A (en) * | 1989-02-27 | 1992-01-21 | Hatfield G Wesley | Codon pair utilization |
WO1999002694A1 (en) * | 1997-07-09 | 1999-01-21 | The University Of Queensland | Nucleic acid sequence and method for selectively expressing a protein in a target cell or tissue |
WO2003085114A1 (en) * | 2002-04-01 | 2003-10-16 | Walter Reed Army Institute Of Research | Method of designing synthetic nucleic acid sequences for optimal protein expression in a host cell |
WO2006077258A1 (en) * | 2005-01-24 | 2006-07-27 | Dsm Ip Assets B.V. | Method for producing a compound of interest in a filamentous fungal cell |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DK122686D0 (da) | 1986-03-17 | 1986-03-17 | Novo Industri As | Fremstilling af proteiner |
EP0340878B1 (en) | 1988-05-06 | 2001-05-16 | Aventis Pharma S.A. | Process for the biochemical oxidation of steroids and genetically engineered cells to be used therefor |
CA1333777C (en) | 1988-07-01 | 1995-01-03 | Randy M. Berka | Aspartic proteinase deficient filamentous fungi |
ATE238425T1 (de) | 1993-07-23 | 2003-05-15 | Dsm Nv | Selektionmarker-genfreie rekombinante stämme: verfahren zur ihrer herstellung und die verwendung dieser stämme |
US5795737A (en) | 1994-09-19 | 1998-08-18 | The General Hospital Corporation | High level expression of proteins |
DK0804558T3 (da) | 1994-11-08 | 2008-05-26 | Novozymes As | Tripeptidylaminopeptidase |
US5874304A (en) * | 1996-01-18 | 1999-02-23 | University Of Florida Research Foundation, Inc. | Humanized green fluorescent protein genes and methods |
EP0894126B1 (en) | 1996-03-27 | 2006-02-01 | Novozymes A/S | Alkaline protease deficient filamentous fungi |
CN1169961C (zh) | 1997-04-11 | 2004-10-06 | Dsm公司 | 基因转变作为工具用于构建重组的工业化丝状真菌 |
AU736111C (en) | 1997-12-22 | 2004-02-19 | Dsm Ip Assets B.V. | Expression cloning in filamentous fungi |
DE69939947D1 (de) | 1998-12-23 | 2009-01-02 | Novozymes As | Verfahren zur herstellung von polypeptiden in mutierten aspergillus zellen |
WO2000050576A1 (en) | 1999-02-22 | 2000-08-31 | Novozymes A/S | Oxaloacetate hydrolase deficient fungal host cells |
ATE469223T1 (de) | 2000-03-14 | 2010-06-15 | Novozymes As | Pilz transkriptionsaktivator zur verwendung in verfahren zur herstellung von polypeptiden |
EP1266018B1 (en) | 2000-03-24 | 2008-05-07 | Genencor International, Inc. | Production of secreted proteins by recombinant eukaryotic cells |
US7101990B2 (en) * | 2000-12-22 | 2006-09-05 | Janssen Pharmaceutica N.V. | Bax-responsive genes for drug target identification in yeast and fungi |
US6749945B2 (en) | 2001-01-29 | 2004-06-15 | The Board Of Regents For Oklahoma State University | Advanced composite ormosil coatings |
EP1231272A3 (en) | 2001-02-08 | 2002-11-13 | Laboratorios Ovejero S.A. | Procedure for obtaining bovine chymosin (rennin), curd |
WO2003070957A2 (en) | 2002-02-20 | 2003-08-28 | Novozymes A/S | Plant polypeptide production |
CN1836033A (zh) | 2003-02-05 | 2006-09-20 | 帝斯曼知识产权资产管理有限公司 | 草酸缺陷型Aspergillus Niger菌株生产多肽的用途 |
EP1613761B1 (en) | 2003-03-31 | 2009-09-02 | Novozymes Inc. | Methods for producing biological substances in enzyme-deficient mutants of aspergillus niger |
EP2172557B1 (en) | 2004-04-02 | 2018-03-14 | DSM IP Assets B.V. | Filamentous fungal mutants with improved homologous recombination efficiency |
EP1776461A2 (en) | 2004-04-16 | 2007-04-25 | DSMIP Assets B.V. | Fungal promoters for expressing a gene in a fungal cell |
JP4896013B2 (ja) | 2004-06-16 | 2012-03-14 | ディーエスエム アイピー アセッツ ビー.ブイ. | 改良された分泌によるポリペプチドの製造 |
EP1799827A2 (en) | 2004-10-12 | 2007-06-27 | DSMIP Assets B.V. | Fungal transcriptional activators useful in methods for producing a polypeptide |
US8129143B2 (en) | 2004-10-15 | 2012-03-06 | Dsm Ip Assets B.V. | Method for production of a compound in a eukaryotic cell |
-
2007
- 2007-06-15 WO PCT/EP2007/055943 patent/WO2008000632A1/en active Application Filing
- 2007-06-15 BR BRPI0713795-8A patent/BRPI0713795B1/pt not_active IP Right Cessation
- 2007-06-15 DK DK11163033T patent/DK2423315T3/en active
- 2007-06-15 CA CA002657975A patent/CA2657975A1/en not_active Abandoned
- 2007-06-15 EP EP07765439A patent/EP2035561A1/en not_active Withdrawn
- 2007-06-15 PL PL11163033T patent/PL2423315T3/pl unknown
- 2007-06-15 ES ES11163033.1T patent/ES2534282T3/es active Active
- 2007-06-15 US US12/306,678 patent/US8812247B2/en active Active
- 2007-06-15 EA EA200900096A patent/EA015925B1/ru not_active IP Right Cessation
- 2007-06-15 CN CN2007800246705A patent/CN101490262B/zh not_active Expired - Fee Related
- 2007-06-15 AU AU2007263880A patent/AU2007263880A1/en not_active Abandoned
- 2007-06-15 JP JP2009517099A patent/JP5250850B2/ja not_active Expired - Fee Related
- 2007-06-15 EP EP11163033.1A patent/EP2423315B1/en active Active
-
2014
- 2014-05-20 US US14/281,934 patent/US20140377800A1/en not_active Abandoned
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5082767A (en) * | 1989-02-27 | 1992-01-21 | Hatfield G Wesley | Codon pair utilization |
WO1999002694A1 (en) * | 1997-07-09 | 1999-01-21 | The University Of Queensland | Nucleic acid sequence and method for selectively expressing a protein in a target cell or tissue |
WO2003085114A1 (en) * | 2002-04-01 | 2003-10-16 | Walter Reed Army Institute Of Research | Method of designing synthetic nucleic acid sequences for optimal protein expression in a host cell |
WO2006077258A1 (en) * | 2005-01-24 | 2006-07-27 | Dsm Ip Assets B.V. | Method for producing a compound of interest in a filamentous fungal cell |
Non-Patent Citations (3)
Title |
---|
BOYCHEVA S. ET AL.: "Codon pairs in the genome of escherichia coli". BIOINFORMATICS, vol. 19, no. 8, 2003, pages 987-998, XP002406004, cited in the application, the whole document * |
IRWIN V. ET AL.: "Codon pair utilization biases influence translational elongation step times". J. BIOL. CHEM., vol. 270, no. 39, 29 September, 1995 (1995-09-29), pages 22801-22806, XP002406003, cited in the application, the whole document * |
MAKRIDES: "Strategies for Achieving High-Level Expression of Genes in Escherichia coli". MICROBIOLOGICAL REVIEWS, AMERICAN SOCIETY FOR MICROBIOLOGY, WASHINGTON, DC, US, vol. 60, no. 3, September 1996 (1996-09). pages 512-538, XP002095235, ISSN: 0146-0749, see esp. p. 524 * |
Also Published As
Publication number | Publication date |
---|---|
CN101490262A (zh) | 2009-07-22 |
BRPI0713795B1 (pt) | 2018-03-20 |
US20140377800A1 (en) | 2014-12-25 |
EP2423315B1 (en) | 2015-01-07 |
WO2008000632A1 (en) | 2008-01-03 |
JP2009540845A (ja) | 2009-11-26 |
EP2035561A1 (en) | 2009-03-18 |
EA200900096A1 (ru) | 2009-06-30 |
CA2657975A1 (en) | 2008-01-03 |
ES2534282T3 (es) | 2015-04-21 |
US20090286280A1 (en) | 2009-11-19 |
DK2423315T3 (en) | 2015-04-13 |
BRPI0713795A2 (pt) | 2012-11-06 |
US8812247B2 (en) | 2014-08-19 |
PL2423315T3 (pl) | 2015-06-30 |
JP5250850B2 (ja) | 2013-07-31 |
CN101490262B (zh) | 2012-09-26 |
AU2007263880A1 (en) | 2008-01-03 |
EP2423315A1 (en) | 2012-02-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EA015925B1 (ru) | Способ получения полипептидов | |
Kjærbølling et al. | A comparative genomics study of 23 Aspergillus species from section Flavi | |
Oda et al. | Proteomic analysis of extracellular proteins from Aspergillus oryzae grown under submerged and solid-state culture conditions | |
Ergün et al. | Recombinant protein production in Pichia pastoris: from transcriptionally redesigned strains to bioprocess optimization and metabolic modelling | |
Del Campo | Post-transcriptional control of chloroplast gene expression | |
Vinck et al. | Heterogenic expression of genes encoding secreted proteins at the periphery of Aspergillus niger colonies | |
Kroukamp et al. | Rational strain engineering interventions to enhance cellulase secretion by Saccharomyces cerevisiae | |
Liu et al. | Genome-scale analysis of the high-efficient protein secretion system of Aspergillus oryzae | |
Li et al. | Recycling of a selectable marker with a self-excisable plasmid in Pichia pastoris | |
Specht et al. | Synthetic oligonucleotide libraries reveal novel regulatory elements in Chlamydomonas chloroplast mRNAs | |
Sun et al. | Engineering the cbh1 promoter of Trichoderma reesei for enhanced protein production by replacing the binding sites of a transcription repressor ACE1 to those of the activators | |
Fang et al. | High copy and stable expression of the xylanase XynHB in Saccharomyces cerevisiae by rDNA-mediated integration | |
JP2002515253A5 (ru) | ||
JP2023524334A (ja) | バチルス・リケニフォルミス(bacillus licheniformis)における強化したタンパク質産生のための組成物及び方法 | |
JP2021510070A (ja) | タンパク質の産生増加のための変異及び遺伝子改変バチルス属(bacillus)細胞、並びにその方法 | |
Chen et al. | Multiplex base editing to convert TAG into TAA codons in the human genome | |
Welsch et al. | Stepwise optimization of a low-temperature Bacillus subtilis expression system for “difficult to express” proteins | |
Jin et al. | Comparative genomic analysis identified a mutation related to enhanced heterologous protein production in the filamentous fungus Aspergillus oryzae | |
Pi et al. | Constructing a novel expression system by specific activation of amylase expression pathway in Penicillium | |
CN115725632B (zh) | 一种Aomsn2过表达米曲霉工程菌及其构建方法与应用 | |
Caspari | Introduction of a leaky stop codon as molecular tool in Chlamydomonas reinhardtii | |
Holland et al. | Inhibition of extracellular proteases improves the production of a xylanase in Parageobacillus thermoglucosidasius | |
Shang et al. | Production of recombinant barley xylanase inhibitor in Pichia pastoris and its inhibitory effect on premature yeast flocculation | |
US20220267783A1 (en) | Filamentous fungal expression system | |
Zhu et al. | PiggyBac transposon-mediated mutagenesis and application in yeast Komagataella phaffii |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | Lapse of a eurasian patent due to non-payment of renewal fees within the time limit in the following designated state(s) |
Designated state(s): AM AZ BY KZ KG MD TJ TM |
|
MM4A | Lapse of a eurasian patent due to non-payment of renewal fees within the time limit in the following designated state(s) |
Designated state(s): RU |