JP2023120383A

JP2023120383A - 長期間の継続的な動物行動モニタリング

Info

Publication number: JP2023120383A
Application number: JP2023102972A
Authority: JP
Inventors: クマール，ビベーク; Kumar Vivek; ゴイター，ブライアン・キュー; Q Geuther Brian; ピーターソン，ジム; Peterson Jim; チャーチル，ゲイリー; Churchill Gary
Original assignee: Jackson Laboratory
Current assignee: Jackson Laboratory
Priority date: 2017-08-07
Filing date: 2023-06-23
Publication date: 2023-08-29
Anticipated expiration: 2038-08-07
Also published as: JP7303793B2; US20220248642A1; US20230419498A1; KR20200038509A; US12347112B2; US11330804B2; JP7696955B2; WO2019032622A1; CN111225558B; WO2019032622A9; JP2020530626A; CN111225558A; KR20240135869A; EP3664601A1; EP4475075A3; EP3664601B1; CA3071850A1; KR102702448B1; CN116918718A; US11798167B2

Abstract

【課題】小型齧歯動物等の動物の行動を継続的にモニタリングするシステムおよび方法を提供する。
【解決手段】動物追跡の方法であって、動物の観察を表すビデオデータを受信するステップと、前記ビデオデータから抽出された入力ビデオフレームを受信すること、前記入力ビデオフレームに基づいて、少なくとも１匹の動物の楕円記述を生成すること、前記楕円記述はあらかじめ決められた楕円パラメータにより規定され、かつ、前記少なくとも１匹の動物について、前記あらかじめ決められた楕円パラメータを特徴付ける値を含むデータを提供すること、を行うニューラルネットワーク・アーキテクチャを実行するステップと、を含む。
【選択図】図９

Description

[0001]本願は、２０１７年８月７日に出願された「Ｌｏｎｇ－ＴｅｒｍａｎｄＣｏｎｔｉｎｕｏｕｓＡｎｉｍａｌＢｅｈａｖｉｏｒａｌＭｏｎｉｔｏｒｉｎｇ」という名称の米国仮特許出願第６２／５４２，１８０号および２０１８年４月２３日に出願された「ＲｏｂｕｓｔＭｏｕｓｅＴｒａｃｋｉｎｇＩｎＣｏｍｐｌｅｘＥｎｖｉｒｏｎｍｅｎｔｓＵｓｉｎｇＮｅｕｒａｌＮｅｔｗｏｒｋｓ」という名称の米国仮特許出願第６２／６６１，６１０号の利益を主張するものである。これらの出願それぞれのすべての内容が参照により組み込まれる。

[0002]動物の行動は、内部または外部刺激に応じた神経系の出力と理解され得る。動物を正確に追跡できることは、動物の行動を分類するプロセスの一部として有益となり得る。たとえば、行動の変化は、老化、精神疾患、あるいは代謝性疾患の顕著な特徴であり、動物の生理状態、神経認知状態、および情動状態の影響に関する重要な情報を明らかにすることができる。

[0003]従来、動物の行動を評価する実験が非侵襲的に行われており、研究者が動物と直接的に相互作用する。一例として、研究者は、マウス等の動物を住居環境（たとえば、ケージ）から取り出し、その動物を異なる環境（たとえば、迷路等の装置）に移す場合がある。そして、研究者は、新たな環境の近くに自己の位置を定めて、動物を追跡することにより、動物の作業能力を観察する場合がある。ただし、動物は、新たな環境における異なる行動またはテストを実行する実験者に対する異なる行動を示し得ることが知られている。これは、データの混同に至り、再現性がなくて誤解を招く結果の原因となることが多い。

[0004]行動モニタリング実験中の人間の干渉を最小限に抑えるため、低侵襲モニタリング技術が開発されている。一例として、動物の行動のモニタリングに使用するビデオモニタリングが研究されている。ただし、ビデオモニタリングには課題が残っている。一側面においては、一組の広範な環境条件の下、長期間にわたって継続的に、高い時空間分解能でビデオデータを捕捉できることが主要なハードルとして残っている。数日、数週間、および／または数カ月等の長期間にわたって行われる動物の観察研究は、取得および格納にコストが掛かる大量のデータを生成する可能性がある。別の側面においては、十分な品質のビデオデータを取得および格納できることを仮定したとしても、長期間の観察中に生成された大量のビデオ映像を研究者が手動で精査するとともに、このような長期間にわたって動物を追跡するのは、経済的に実現不可能である。この課題は、新薬のスクリーニングまたはゲノミクス実験の実行に際して必要となり得るように、観察する動物の数が増えた場合により顕著になる。

[0005]この問題に対処するため、動物の行動の捕捉ビデオを解析するコンピュータベースの技術が開発されている。ただし、既存のコンピュータベースのシステムでは、複雑かつ動的な環境において、異なる動物を正確に追跡することができない。一例として、動物を追跡する既存のコンピュータベースの技術は、１匹の動物の背景（たとえば、ケージの壁および／または床、水入れ等のケージ内の物体）からの識別または複数匹の動物の相互識別を正確に行うことができない。最善の場合でも、観察期間に所与の動物が正確に追跡されなければ、有益な観察データが失われてしまう可能性がある。最悪の場合、観察期間に所与の動物またはその一部が間違って追跡されたり、別のものと間違えられたりすると
、取得されたビデオデータから分類される行動に誤差が導入される可能性がある。追跡を容易化するため、動物の毛色の変更等の技術が採用されているものの、動物の毛色の変更によって、動物の行動が変化する可能性もある。結果として、複雑かつ動的な環境または遺伝子学的に異種の動物で実行される既存のビデオ追跡手法には、高レベルのユーザ関与を必要とするため、ビデオ観察に関する上述の利点が失われてしまう。このため、大規模および／または長期間の動物モニタリング実験は、依然として実現不可能である。

[0006]神経科学および行動科学が大量の行動データおよび計算行動学の時代に突入するにつれ、長期間にわたって半自然かつ動的な環境で動物の行動の分類を容易化するには、動物を追跡するより優れた技術が必要となる。

[0007]したがって、オープンフィールドにおける動物（たとえば、マウス）の堅牢かつスケーラブルな追跡を提供可能なニューラルネットワークを用いたシステムおよび方法が開発されている。一例として、高い時空間分解能で動物の動きのビデオデータの取得を容易化するシステムおよび方法が提供されている。このビデオデータは、長期間にわたって、一組の広範な環境条件の下、継続的に捕捉され得る。

[0008]取得されたビデオデータは、追跡のための畳み込みニューラルネットワーク・アーキテクチャの入力として採用され得る。ニューラルネットワークは、新たな環境または動物が提示された場合、トレーニング時に、高堅牢かつユーザ関与の調節なく複数の環境条件下で追跡を行い得るようにトレーニングされ得る。このような実験条件の例には、さまざまな毛色、体形、および行動のほか、異なるケージ環境にも関わらず、異なるマウス系統を含み得る。このため、本開示の実施形態は、最小侵襲動物追跡を容易化することにより、異種条件下で長期間にわたって、多数の動物の行動モニタリングを容易化し得る。

[0009]特定の実施形態においては、開示のビデオ観察および動物追跡技術が組み合わせて採用され得る。ただし、これらの技術はそれぞれ、単独での採用も可能であるし、相互または他の技術との任意の組み合わせでの採用も可能であることが了解され得る。

[0010]一実施形態においては、動物追跡の方法が提供される。この方法は、プロセッサにより、動物の観察を表すビデオデータを受信するステップと、プロセッサにより、ニューラルネットワーク・アーキテクチャを実行するステップと、を含み得る。ニューラルネットワーク・アーキテクチャは、ビデオデータから抽出された入力ビデオフレームを受信すること、入力ビデオフレームに基づいて、少なくとも１匹の動物の楕円記述を生成すること、楕円記述はあらかじめ決められた楕円パラメータにより規定される、および少なくとも１匹の動物について、あらかじめ決められた楕円パラメータを特徴付ける値を含むデータを提供すること、を行うように構成され得る。

[0011]この方法の別の実施形態において、楕円パラメータは、平面内の動物の位置、動物の長軸の長さおよび短軸の長さ、ならびに動物の頭部が向いている角度であって、長軸の方向に対して規定される角度、を表す座標であり得る。

[0012]この方法の別の実施形態において、ニューラルネットワーク・アーキテクチャとしては、エンコーダ－デコーダ・セグメンテーション・ネットワークが可能である。エンコーダ－デコーダ・セグメンテーション・ネットワークは、入力ビデオフレームから、前景－背景セグメント化画像を予測すること、画素の観点で、セグメント化画像に基づいて、動物が入力ビデオフレーム中に存在するかを予測すること、画素の観点での予測に基づいて、セグメンテーションマスクを出力すること、および動物が存在すると予測されたセグメンテーションマスクの部分を楕円に適合させて、あらかじめ決められた楕円パラメータを特徴付ける値を決定すること、を行うように構成され得る。

[0013]この方法の別の実施形態において、エンコーダ－デコーダ・セグメンテーション・ネットワークは、特徴エンコーダ、特徴デコーダ、および角度予測器を備え得る。特徴エンコーダは、入力ビデオフレームを一組の小さな空間解像度の特徴へと抽象化するように構成され得る。特徴デコーダは、一組の特徴を入力ビデオフレームと同じ形状へと変換し、前景－背景セグメント化画像を出力するように構成され得る。角度予測器は、動物の頭部が向いている角度を予測するように構成され得る。

[0014]この方法の別の実施形態において、ニューラルネットワーク・アーキテクチャは、楕円記述の各楕円パラメータの最確値のヒートマップを予測するように構成されたビニング分類ネットワークを備え得る。

[0015]この方法の別の実施形態において、ビニング分類ネットワークは、入力ビデオフレームを小さな空間解像度へと抽象化するように構成された特徴エンコーダを備え、抽象化が、ヒートマップを生成するように採用され得る。

[0016]この方法の別の実施形態において、ニューラルネットワーク・アーキテクチャは、入力ビデオフレームから特徴を抽出し、楕円パラメータそれぞれを特徴付ける値を直接予測するように構成された回帰ネットワークを備え得る。

[0017]この方法の別の実施形態において、動物としては、齧歯動物が可能である。
[0018]一実施形態においては、動物追跡のシステムが提供される。このシステムは、動物の観察を表すビデオデータを維持するデータ記憶装置を備え得る。また、このシステムは、データ記憶装置からビデオデータを受信すること、およびニューラルネットワーク・アーキテクチャを実装することを行うように構成されたプロセッサを備え得る。ニューラルネットワーク・アーキテクチャは、ビデオデータから抽出された入力ビデオフレームを受信すること、ビデオフレームに基づいて、少なくとも１匹の動物の楕円記述を生成すること、楕円記述はあらかじめ決められた楕円パラメータにより規定される、および少なくとも１匹の動物について、あらかじめ決められた楕円パラメータを特徴付ける値を含むデータを提供すること、を行うように構成され得る。

[0019]このシステムの別の実施形態において、楕円パラメータは、平面内の動物の位置、動物の長軸の長さおよび短軸の長さ、ならびに動物の頭部が向いている角度であって、長軸の方向に対して規定される角度、を表す座標であり得る。

[0020]このシステムの別の実施形態において、ニューラルネットワーク・アーキテクチャとしては、エンコーダ－デコーダ・セグメンテーション・ネットワークが可能である。エンコーダ－デコーダ・セグメンテーション・ネットワークは、入力ビデオフレームから、前景－背景セグメント化画像を予測すること、画素の観点で、セグメント化画像に基づいて、動物が入力ビデオフレーム中に存在するかを予測すること、画素の観点での予測に基づいて、セグメンテーションマスクを出力すること、動物が存在すると予測されたセグメンテーションマスクの部分を楕円に適合させて、あらかじめ決められた楕円パラメータを特徴付ける値を決定すること、を行うように構成され得る。

[0021]このシステムの別の実施形態において、エンコーダ－デコーダ・セグメンテーション・ネットワークは、特徴エンコーダ、特徴デコーダ、および角度予測器を備え得る。特徴エンコーダは、入力ビデオフレームを一組の小さな空間解像度の特徴へと抽象化するように構成され得る。特徴デコーダは、一組の特徴を入力ビデオフレームと同じ形状へと変換し、前景－背景セグメント化画像を出力するように構成され得る。角度予測器は、動物の頭部が向いている角度を予測するように構成され得る。

[0022]このシステムの別の実施形態において、ニューラルネットワーク・アーキテクチャは、ビニング分類ネットワークを備え得る。ビニング分類ネットワークは、楕円記述の各楕円パラメータの最確値のヒートマップを予測するように構成され得る。

[0023]このシステムの別の実施形態において、ビニング分類ネットワークは、入力ビデオフレームを小さな空間解像度へと抽象化するように構成された特徴エンコーダを備え、抽象化が、ヒートマップを生成するように採用され得る。

[0024]このシステムの別の実施形態において、ニューラルネットワーク・アーキテクチャは、入力ビデオフレームから特徴を抽出し、楕円パラメータそれぞれを特徴付ける値を直接予測するように構成された回帰ネットワークを備え得る。

[0025]このシステムの別の実施形態において、動物としては、齧歯動物が可能である。
[0026]一実施形態においては、命令を格納した非一時的コンピュータプログラム製品が提供される。命令は、少なくとも１つのコンピューティングシステムの少なくとも１つのデータプロセッサにより実行されたときに、動物の観察を表すビデオデータを受信するステップと、ニューラルネットワーク・アーキテクチャを実行するステップと、を含む方法を実行し得る。ニューラルネットワーク・アーキテクチャは、ビデオデータから抽出された入力ビデオフレームを受信すること、入力ビデオフレームに基づいて、少なくとも１匹の動物の楕円記述を生成すること、楕円記述はあらかじめ決められた楕円パラメータにより規定される、および少なくとも１匹の動物について、あらかじめ決められた楕円パラメータを特徴付ける値を含むデータを提供すること、を行うように構成され得る。

[0027]別の実施形態において、楕円パラメータは、平面内の動物の位置、動物の長軸の長さおよび短軸の長さ、ならびに動物の頭部が向いている角度であって、長軸の方向に対して規定される角度、を表す座標であり得る。

[0028]別の実施形態において、ニューラルネットワーク・アーキテクチャとしては、エンコーダ－デコーダ・セグメンテーション・ネットワークが可能である。エンコーダ－デコーダ・セグメンテーション・ネットワークは、入力ビデオフレームから、前景－背景セグメント化画像を予測すること、画素の観点で、セグメント化画像に基づいて、動物が入力ビデオフレーム中に存在するかを予測すること、画素の観点での予測に基づいて、セグメンテーションマスクを出力すること、および動物が存在すると予測されたセグメンテーションマスクの部分を楕円に適合させて、あらかじめ決められた楕円パラメータを特徴付ける値を決定すること、を行うように構成され得る。

[0029]別の実施形態において、エンコーダ－デコーダ・セグメンテーション・ネットワークは、特徴エンコーダ、特徴デコーダ、および角度予測器を備え得る。特徴エンコーダは、入力ビデオフレームを一組の小さな空間解像度の特徴へと抽象化するように構成され得る。特徴デコーダは、一組の特徴を入力ビデオフレームと同じ形状へと変換し、前景－背景セグメント化画像を出力するように構成され得る。角度予測器は、動物の頭部が向いている角度を予測するように構成され得る。

[0030]別の実施形態において、ニューラルネットワーク・アーキテクチャは、楕円記述の各楕円パラメータの最確値のヒートマップを予測するように構成されたビニング分類ネットワークを備え得る。

[0031]別の実施形態において、ビニング分類ネットワークは、入力ビデオフレームを小さな空間解像度へと抽象化するように構成された特徴エンコーダを備え、抽象化が、ヒー
トマップを生成するように採用され得る。

[0032]別の実施形態において、ニューラルネットワーク・アーキテクチャは、入力ビデオフレームから特徴を抽出し、楕円パラメータそれぞれを特徴付ける値を直接予測するように構成された回帰ネットワークを備え得る。

[0033]別の実施形態において、動物としては、齧歯動物が可能である。
[0034]一実施形態においては、システムが提供され、このシステムは、アリーナおよび取得システムを備え得る。アリーナは、フレームと、フレームに取り付けられ筐体と、を含み得る。筐体は、動物を収容するように寸法規定され、内部へのアクセスを許容するように構成されたドアを含み得る。取得システムは、カメラ、少なくとも二組の光源、コントローラ、およびデータ記憶装置を含み得る。各組の光源は、互いに異なる波長で、筐体に入射する光を放射するように構成され得る。カメラは、複数組の光源のうちの少なくとも１つにより照射されたときに、筐体の少なくとも一部のビデオデータを取得するように構成され得る。コントローラは、カメラおよび複数組の光源と電気的に連通し得る。コントローラは、カメラによるビデオデータの取得および複数組の光源による光の放射を制御するように動作する制御信号を生成すること、およびカメラにより取得されたビデオデータを受信すること、を行うように構成され得る。データ記憶装置は、コントローラと電気的に連通し、コントローラから受信されたビデオデータを格納するように構成され得る。

[0035]このシステムの別の実施形態においては、筐体の少なくとも一部が可視光に対して略不透明であり得る。
[0036]このシステムの別の実施形態においては、筐体の少なくとも一部が可視光波長に対して略不透明な材料で形成され得る。

[0037]このシステムの別の実施形態においては、筐体の少なくとも一部が赤外光波長に対して略無反射の材料で形成され得る。
[0038]このシステムの別の実施形態においては、筐体の少なくとも一部がポリ塩化ビニル（ＰＶＣ）またはポリオキシメチレン（ＰＯＭ）のシートで形成され得る。

[0039]このシステムの別の実施形態においては、第１の組の光源が、１つまたは複数の可視光波長で光を放射するように構成された１つまたは複数の第１の照明を含み、第２の組の光源が、１つまたは複数の赤外（ＩＲ）光波長で光を放射するように構成された１つまたは複数の第２の照明を含み得る。

[0040]このシステムの別の実施形態において、赤外光の波長は、約９４０ｎｍであり得る。
[0041]このシステムの別の実施形態において、カメラは、少なくとも４８０×４８０画素の解像度でビデオデータを取得するように構成され得る。

[0042]このシステムの別の実施形態において、カメラは、マウスの動きの頻度よりも高いフレームレートでビデオデータを取得するように構成され得る。
[0043]このシステムの別の実施形態において、カメラは、少なくとも２９フレーム／秒（ｆｐｓ）のフレームレートでビデオデータを取得するように構成され得る。

[0044]このシステムの別の実施形態において、カメラは、少なくとも８ビット深度を有するビデオデータを取得するように構成され得る。
[0045]このシステムの別の実施形態において、カメラは、赤外波長でビデオデータを取得するように構成され得る。

[0046]このシステムの別の実施形態において、コントローラは、カメラから受信されたビデオデータを圧縮するように構成され得る。
[0047]このシステムの別の実施形態において、コントローラは、分散ベースの背景減算を採用したフィルタを含むＭＰＥＧ４コーデック用いて、カメラから受信されたビデオデータを圧縮するように構成され得る。

[0048]このシステムの別の実施形態において、ＭＰＥＧコーデックのフィルタとしては、Ｑ０ＨＱＤＮ３Ｄが可能である。
[0049]このシステムの別の実施形態において、コントローラは、明暗サイクルを模擬するスケジュールに従って筐体を照射するよう第１の光源に要求するように構成され得る。

[0050]このシステムの別の実施形態において、コントローラは、明暗サイクルの明部において、およそ５０ｌｕｘ～およそ８００ｌｕｘの強度を有する可視光で筐体を照射するよう第１の光源に要求するように構成され得る。

[0051]このシステムの別の実施形態において、コントローラは、赤外照射による筐体の温度上昇が５℃未満となるように、赤外光で筐体を照射するよう第２の光源に要求するように構成され得る。

[0052]このシステムの別の実施形態において、コントローラは、対数的にスケーリングされた１０２４レベルの照明に従って筐体を照射するよう第１の光源に要求するように構成され得る。

[0053]一実施形態においては、方法が提供され、この方法は、少なくとも一組の光源により、動物を収容するように構成された筐体を照射するステップを含み得る。各組の光源は、互いに異なる波長の光を放射するように構成され得る。また、この方法は、カメラにより、複数組の光源のうちの少なくとも１つにより照射された筐体の少なくとも一部のビデオデータを取得するステップを含み得る。また、この方法は、カメラおよび複数組の光源と電気的に連通したコントローラにより、カメラによるビデオデータの取得および複数組の光源による光の放射を制御するように動作する制御信号を生成するステップを含み得る。さらに、この方法は、コントローラにより、カメラにより取得されたビデオデータを受信するステップを含み得る。

[0054]この方法の別の実施形態においては、筐体の少なくとも一部が可視光に対して略不透明であり得る。
[0055]この方法の別の実施形態においては、筐体の少なくとも一部が可視光波長に対して略不透明な材料で形成され得る。

[0056]この方法の別の実施形態においては、筐体の少なくとも一部が赤外光波長に対して略無反射の材料で形成され得る。
[0057]この方法の別の実施形態においては、筐体の少なくとも一部がポリ塩化ビニル（ＰＶＣ）またはポリオキシメチレン（ＰＯＭ）のシートで形成され得る。

[0058]この方法の別の実施形態においては、第１の組の光源が、１つまたは複数の可視光波長で光を放射するように構成された１つまたは複数の第１の照明を含み、第２の組の光源が、１つまたは複数の赤外（ＩＲ）光波長で光を放射するように構成された１つまたは複数の第２の照明を含み得る。

[0059]この方法の別の実施形態において、赤外光の波長は、約９４０ｎｍであり得る。
[0060]この方法の別の実施形態において、カメラは、少なくとも４８０×４８０画素の
解像度でビデオデータを取得するように構成され得る。

[0061]この方法の別の実施形態において、カメラは、マウスの動きの頻度よりも高いフレームレートでビデオデータを取得するように構成され得る。
[0062]この方法の別の実施形態において、カメラは、少なくとも２９フレーム／秒（ｆｐｓ）のフレームレートでビデオデータを取得するように構成され得る。

[0063]この方法の別の実施形態において、カメラは、少なくとも８ビット深度を有するビデオデータを取得するように構成され得る。
[0064]この方法の別の実施形態において、カメラは、赤外波長でビデオデータを取得するように構成され得る。

[0065]この方法の別の実施形態において、コントローラは、カメラから受信されたビデオデータを圧縮するように構成され得る。
[0066]この方法の別の実施形態において、コントローラは、分散ベースの背景減算を採用したフィルタを含むＭＰＥＧ４コーデック用いて、カメラから受信されたビデオデータを圧縮するように構成され得る。

[0067]この方法の別の実施形態において、ＭＰＥＧコーデックのフィルタとしては、Ｑ０ＨＱＤＮ３Ｄが可能である。
[0068]この方法の別の実施形態において、コントローラは、明暗サイクルを模擬するスケジュールに従って筐体を照射するよう第１の光源に要求するように構成され得る。

[0069]この方法の別の実施形態において、コントローラは、明暗サイクルの明部において、およそ５０ｌｕｘ～およそ８００ｌｕｘの強度を有する可視光で筐体を照射するよう第１の光源に要求するように構成され得る。

[0070]この方法の別の実施形態において、コントローラは、赤外照射による筐体の温度上昇が５℃未満となるように、赤外光で筐体を照射するよう第２の光源に要求するように構成され得る。

[0071]この方法の別の実施形態において、コントローラは、対数的にスケーリングされた１０２４レベルの照明に従って筐体を照射するよう第１の光源に要求するように構成され得る。

[0072]上記および他の特徴については、添付の図面と併せた以下の詳細な説明によって容易に理解されよう。

[0073]図１は、動物追跡の動作環境の例示的な一実施形態を示したフロー図である。 [0074]図２は、動物行動モニタリングのシステムの一実施形態の模式図である。 [0075]図３Ａ～３Ｆは、図２のシステムにより取得されたサンプルフレームを示した画像である；（Ａ～Ｃ）可視光；（Ｄ～Ｆ）赤外（ＩＲ）光。 [0076]図４Ａ～４Ｂは、２つのカメラモデルについての波長の関数としての量子効率のプロットである；（Ａ）ＳｅｎｔｅｃｈＳＴＣ－ＭＣ３３ＵＳＢについての相対応答；（Ｂ）ＢａｓｌｅｒａｃＡ１３００－６０ｇｍ－ＮＩＲの量子効率。 [0077]ＩＲロングパスフィルタの透明性－波長プロファイルのプロットを示した図である。 [0078]図６Ａ～６Ｄは、異なる圧縮技術が適用されたビデオフレームの例示的な実施形態を示す画像である；（Ａ）無圧縮；（Ｂ）ＭＰＥＧ４Ｑ０、（Ｃ）ＭＰＥＧ４Ｑ５；（Ｄ）ＭＰＥＧ４Ｑ０ＨＱＤＮ３Ｄ； [0079]図７は、図２のシステムとの使用に適した取得システムの構成要素の実施形態を示した図である。 [0080]図８Ａは、黒色のマウス、灰色のマウス、アルビノのマウス、およびまだら模様のマウスを含む、本開示に従って解析された観察環境の例示的な実施形態の模式図である。 [0081]図８Ｂは、動物追跡が不十分となる状態の模式図である。 [0082]図８Ｃは、楕円の形態の物体追跡を含むマウス追跡の例示的な一実施形態の模式図である。 [0083]図９は、セグメンテーション・ネットワーク・アーキテクチャの例示的な一実施形態の模式図である。 [0084]図１０は、ビニング分類ネットワーク・アーキテクチャの例示的な一実施形態の模式図である。 [0085]図１１は、回帰分類ネットワーク・アーキテクチャの例示的な一実施形態の模式図である。 [0086]図１２Ａは、前景（Ｆ）および背景（Ｂ）の２つのマークの配置を示すグラフィカルユーザインターフェースの例示的な一実施形態を示した図である。 [0087]図１２Ｂは、図１２Ａのマーキングの結果としてのセグメンテーションを示すグラフィカルユーザインターフェースの例示的な一実施形態を示した図である。 [0088]図１３Ａは、図９～図１１のセグメンテーション、回帰、およびビニング分類ネットワークの実施形態のトレーニングカーブのプロットを示した図である。 [0089]図１３Ｂは、図９～図１１のセグメンテーション、回帰、およびビニング分類ネットワークの実施形態の検証カーブのプロットを示した図である。 [0090]図１３Ｃは、図９のセグメンテーション・ネットワーク・アーキテクチャのトレーニングおよび検証性能のプロットを示した図である。 [0091]図１３Ｄは、図１１の回帰ネットワーク・アーキテクチャのトレーニングおよび検証性能のプロットを示した図である。 [0092]図１３Ｅは、図１０のビニング分類ネットワーク・アーキテクチャのトレーニングおよび検証性能のプロットを示した図である。 [0093]図１４Ａは、本開示の実施形態に係る、複数組の異なるサイズをトレーニングするステップの関数としてのトレーニングエラーのプロットを示した図である。 [0094]図１４Ｂは、本開示の実施形態に係る、複数組の異なるサイズをトレーニングするステップの関数としての検証エラーのプロットを示した図である。 [0095]図１４Ｃは、トレーニングサンプルのフルトレーニングセットのステップの関数としてのトレーニングおよび検証エラーのプロットを示した図である。 [0096]図１４Ｄは、１０，０００（１０ｋ）個のトレーニングサンプルを含むトレーニングセットのステップの関数としてのトレーニングおよび検証エラーのプロットを示した図である。 [0097]図１４Ｅは、５，０００（５ｋ）個のトレーニングサンプルを含むトレーニングセットのステップの関数としてのトレーニングおよび検証エラーのプロットを示した図である。 [0098]図１４Ｆは、２，５００（２．５ｋ）個のトレーニングサンプルを含むトレーニングセットのステップの関数としてのトレーニングおよび検証エラーのプロットを示した図である。 [0099]図１４Ｇは、１，０００（１ｋ）個のトレーニングサンプルを含むトレーニングセットのステップの関数としてのトレーニングおよび検証エラーのプロットを示した図である。 [00100]図１４Ｈは、５００個のトレーニングサンプルを含むトレーニングセットのステップの関数としてのトレーニングおよび検証エラーのプロットを示した図である。 [00101]図１５Ａ～１５Ｄは、各マウスを互いに区別するカラー指標が重ね合わされた捕捉ビデオデータのフレームである；（Ａ～Ｂ）可視光照射；（Ｃ～Ｄ）赤外光照射。 [00102]図１６は、図９のセグメンテーション・ネットワーク・アーキテクチャの性能をビームブレークシステムと比較するプロットである。 [00103]図１７Ａは、本開示の一実施形態およびＣｔｒａｘによる予測のプロットである。

[00104]図１７Ｂは、図９のセグメンテーション・ネットワーク・アーキテクチャによ
り決定された短軸予測の相対標準偏差のプロットである。
[00105]図１８Ａは、図９のセグメンテーション・ネットワーク・アーキテクチャにより決定された遺伝子学的に異なる動物の大規模ひずみ調査用に追跡された合計距離のプロットである。 [00106]図１８Ｂは、図９のセグメンテーション・ネットワーク・アーキテクチャにより決定された動的環境で４日間にわたり継続的に追跡された６匹の動物において観察された概日運動パターンのプロットである。

[00107]図面は、必ずしも原寸に比例しないことに留意する。図面は、本明細書に開示
の主題の代表的な態様のみを示すことが意図されるため、本開示の範囲を制限するものと考えられるべきではない。

[00108]明瞭化のため、本明細書においては、マウス等の小型齧歯動物に関して、１匹
または複数匹の動物のビデオ捕捉および１匹または複数匹の動物の追跡によって行動モニタリングを容易化するシステムおよび対応する方法の例示的な実施形態が論じられる。ただし、開示の実施形態は、制限なく他の動物もモニタリングするように採用および／または構成され得る。

[00109]図１は、アリーナ２００、取得システム７００、およびニューラルネットワー
ク追跡器を実装するように構成された追跡システムを具備する動作環境１００の例示的な一実施形態を示した模式図である。以下により詳しく論じられる通り、１匹または複数匹のマウスがアリーナ２００に収容され得る。少なくとも１匹の動物（マウス等）のビデオデータが取得される。ビデオデータは、単独でも取得され得るし、オーディオおよび環境パラメータ（たとえば、温度、湿度、光強度）等、動物モニタリングに関する他のデータとの組み合わせでも取得され得る。カメラ、マイク、照明、他の環境センサー、データストレージ、およびデータ圧縮の制御等、このデータを取得するプロセスは、取得システム７００により実行され得る。取得されたビデオデータは、このビデオデータに基づいて１匹または複数匹の動物を追跡する畳み込みニューラルネットワーク（ＣＮＮ）を実行可能な追跡システムに入力され得る。

Ｉ．ビデオデータ取得
[00110]一実施形態においては、動物の動きを含むビデオデータを捕捉するシステムお
よび方法が提供される。以下に論じられる通り、ビデオデータは、あらかじめ決められた期間（たとえば、１分または複数分、１時間または複数時間、１日または複数日、１週間または複数週間、１カ月または複数カ月、１年または複数年等）にわたって継続的に取得
され得る。ビデオデータの特性としては、行動パターンの抽出のための後続の解析を容易化するのに十分なものが可能であり、解像度、フレームレート、およびビット深度のうちの１つまたは複数が挙げられるが、これらに限定されない。実用的なソリューションが提供されており、既存のビデオ捕捉システムよりも堅牢かつ高品質と見られる。本開示の実施形態は、マウスを視覚的にマーキングする複数の方法でテストされる。また、ビデオおよび超音波発声データの同期取得の実用例も提示される。

[00111]一実施形態においては、およそ４～６週間の期間において、動物モニタリング
のためのビデオモニタリングシステムが展開され得る。展開としては、画像捕捉およびアリーナ設計、チャンバ設計の微調整、ビデオ取得ソフトウェアの開発、オーディオデータの取得、カメラ、チャンバ、およびソフトウェアの負荷テスト、ならびに展開段階のチャンバの生産の決定のうちの１つまたは複数が挙げられる。これらそれぞれについて、以下に詳しく説明される。先述の４～６週間の観察期間は、例示的な目的で与えられており、本開示の実施形態は、必要に応じてより長期間またはより短期間にも採用され得ることが了解され得る。

ａ．アリーナ設計
[00112]高品質な行動データの取得には、適正なアリーナ設計が重要となり得る。この
アリーナは、動物の「住居」であり、環境外乱からの分離、適正な概日照明、餌、水、寝床のうちの１つまたは複数を提供するように構成され得る。また、一般的にはストレスのない環境である。

[00113]行動の観点から、アリーナは、ストレスおよび環境外乱を最小限に抑えるとと
もに、自然な行動を表せるのが望ましいはずである。
[00114]飼育の観点から、アリーナは、清掃、追加または削除、マウスの取り出し、餌
および水の追加および除去を容易化するのが望ましいはずである。

[00115]獣医学の観点から、アリーナは、実質的に関心行動を阻害することなく、健康
診断および治療の提供のほか、環境条件（たとえば、温度、湿度、光等）のモニタリングを容易化するのが望ましいはずである。

[00116]コンピュータビジョンの観点から、アリーナは、実質的なオクルージョン、歪
み、反射、および／または騒音公害なく、また、実質的に関心行動の表現を妨げることなく、高品質なビデオおよびオーディオの取得を容易化するのが望ましいはずである。

[00117]設備の観点から、アリーナは、実質的に床面積を最小限に抑えるとともに、分
解または再組み立ての必要のない相対的に容易な保管を提供するのが望ましいはずである。

[00118]したがって、アリーナは、行動、飼育、演算、および設備のバランスをもたら
すように構成され得る。アリーナ２００の例示的な一実施形態が図２に示される。アリーナ２００は、筐体２０４が搭載されるフレーム２０２を具備し得る。筐体２０４は、内部へのアクセスを許容するように構成されたドア２０６を具備し得る。１つまたは複数のカメラ２１０および／または照明２１２が（たとえば、筐体２０４の上方で）フレーム２０２に隣接して取り付けられることも可能であるし、フレーム２０２に直接取り付けられることも可能である。

[00119]以下に詳しく論じられる通り、特定の実施形態において、照明２１２は、少な
くとも二組の光源を含み得る。各組の光源は、他方の組と異なる波長で、筐体２０４に入射する光を放射するように構成された１つまたは複数の照明を含み得る。一例としては、
第１の組の光源が、１つまたは複数の可視波長（たとえば、およそ３９０ｎｍ～およそ７００ｎｍ）で光を放射するように構成され、第２の組の光源が、１つまたは複数の赤外（ＩＲ）波長（たとえば、およそ７００ｎｍ超～およそ１ｍｍ）で光を放射するように構成され得る。

[00120]カメラ２１０および／または照明２１２は、ユーザインターフェース２１４と
電気的に連通し得る。ユーザインターフェース２１４としては、カメラ２１０により取得されたビデオデータを表示するように構成されたディスプレイが可能である。特定の実施形態において、ユーザインターフェース２１４としては、カメラ２１０および／または照明２１２の制御のための１つまたは複数のユーザインターフェースを表示するように構成されたタッチスクリーンディスプレイが可能である。

[00121]上記の代替または追加として、カメラ１１０、照明２１２、およびユーザイン
ターフェース２１４は、コントローラ２１６と電気的に連通し得る。コントローラ２１６は、カメラ２１０によるビデオデータの取得、照明２１２による光の放射、および／またはユーザインターフェース２１４による取得ビデオデータの表示を制御するように動作する制御信号を生成するように構成され得る。特定の実施形態において、ユーザインターフェースは、任意選択として省略され得る。

[00122]また、コントローラ２１６は、データ記憶装置２２０と連通し得る。コントロ
ーラ２１６は、カメラ２１０により取得されたビデオデータを受信し、当該取得ビデオデータをデータ記憶装置２２０に送信して格納するように構成され得る。カメラ２１０、照明２１２、ユーザインターフェース２１４、コントローラ２１６、およびデータ記憶装置２２０のうちの１つまたは複数の間の通信は、有線通信リンク、無線通信リンク、およびこれらの組み合わせを用いて実行され得る。

[00123]以下に論じられる通り、アリーナ２００は、行動、飼育、演算、および設備の
所望のバランスを実現する一方、所定期間（たとえば、およそ５カ月間）での完了を可能にするように構成されたオープンフィールド設計を有し得る。

材料
[00124]特定の実施形態においては、筐体２０４（たとえば、筐体２０４の下部）を構
成する材料の少なくとも一部が可視光波長に対して実質的に不透明となり得る。このように、照明２１２以外の光源により放射される可視光のほか、筐体２０４内の動物が観察可能な視覚的刺激（たとえば、物体および／またはユーザの動き）が抑制および／または実質的に除去され得る。付加的な実施形態において、筐体２０４を構成する材料は、ビデオデータの取得を容易化するため、赤外波長に対して略無反射となり得る。筐体２０４の壁の厚さは、機械的支持を与えるのに適した範囲内（たとえば、およそ０．３１７５ｃｍ（１／８インチ）～およそ０．６３５ｃｍ（１／４インチ））で選択され得る。

[00125]一実施形態において、筐体２０４は、ポリ塩化ビニル（ＰＶＣ）またはポリオ
キシメチレン（ＰＯＭ）で形成された発泡シートを用いて構築され得る。ＰＯＭの一例は、Ｄｅｌｒｉｎ（登録商標）（ＤｕＰｏｎｔ、Ｗｉｌｍｉｎｇｔｏｎ、ＤＥ、ＵＳＡ）である。このような発泡シートは、アリーナ２００の長期間動物モニタリングに対して十分な多用途性および耐久性を与え得るため有益である。

[00126]一実施形態において、フレーム２０２は、複数の脚部２０２ａと、これらの間
で（たとえば、水平に）延びた１つまたは複数の棚部２０２ｂと、を含み得る。一例として、フレーム２０２としては、保管エリアへの移動用の固定車輪を備えた所定サイズの市販の棚システムが可能である。一実施形態において、所定サイズとしては、およそ６１ｃ
ｍ（２フィート）×６１ｃｍ（２フィート）×１８３ｃｍ（６フィート）（たとえば、ＳｕｐｅｒＥｒｅｃｔａＭｅｔｒｏｓｅａｌ３（商標）、ＩｎｔｅｒＭｅｔｒｏＩｎｄｕｓｔｒｉｅｓＣｏｒｐｏｒａｔｉｏｎ、Ｗｉｌｋｅｓ－Ｂａｒｒｅ、ＰＡ、ＵＳＡ）が可能である。ただし、他の実施形態においては、異なるサイズのアリーナが制限なく採用され得る。

ｂ．データ取得
[00127]ビデオ取得システムは、カメラ２１０、照明２１２、ユーザインターフェース
２１４、コントローラ２１６、およびデータ記憶装置２２０を具備し得る。ビデオ取得システムは、性能特性のあらかじめ決められたバランスを有するように採用され得る。性能特性としては、ビデオ取得のフレームレート、ビット深度、各フレームの解像度、および赤外領域内のスペクトル感度のほか、ビデオ圧縮および格納のうちの１つまたは複数が挙げられるが、これらに限定されない。以下に論じられる通り、これらのパラメータは、データの品質を最大化するとともに量を最小化するように最適化され得る。

[00128]一実施形態において、カメラ２１０は、およそ６４０×４８０画素の解像度、
およそ２９ｆｐｓ、およびおよそ８ビット深度のうちの少なくとも１つを有するビデオデータを取得し得る。これらのビデオ取得パラメータを用いることにより、およそ３３ＧＢ／時の無圧縮ビデオデータが生成され得る。一例として、カメラ２１０としては、ＳｅｎｔｅｃｈＵＳＢ２（ＳｅｎｓｏｒＴｅｃｈｎｏｌｏｇｉｅｓＡｍｅｒｉｃａ，Ｉｎｃ．、Ｃａｒｒｏｌｌｔｏｎ、ＴＸ、ＵＳＡ）が可能である。図３Ａ～図３Ｆは、可視光（図３Ａ～図３Ｃ）および赤外（ＩＲ）光（図３Ｄ～図３Ｆ）を用いてビデオ取得システムの一実施形態から取得されたサンプルフレームを示している。

[00129]以下に論じられる通り、収集されたビデオデータは、カメラ２１０および／ま
たはコントローラ２１６により圧縮され得る。
[00130]別の実施形態において、ビデオ取得システムは、取得ビデオデータの解像度を
約２倍（たとえば、およそ９６０×９６０画素）にするように構成され得る。以下に示されるように、ＳｅｎｔｅｃｈＵＳＢよりも高い解像度を有する４つの別のカメラが調査された。

[00131]これらのカメラは、コスト、解像度、最大フレームレート、ビット深度、およ
び量子効率の点で異なり得る。
[00132]ビデオ取得システムの実施形態は、モノクロ、およそ３０ｆｐｓ、およびおよ
そ８ビット深度のビデオデータを収集するように構成され得る。シャノン－ナイキストの定理によれば、フレームレートは、関心イベントの頻度の少なくとも２倍とすべきである（たとえば、Ｓｈａｎｎｏｎ（１９９４）参照）。マウスの行動は、毛繕いの場合の数ヘルツから素早い動きの場合の２０ヘルツまで変動し得る（たとえば、Ｄｅｓｃｈｅｎｅｓ
ｅｔａｌ．（２０１２）、Ｋａｌｕｅｆｆｅｔａｌ．（２０１０）、Ｗｉｌｔｓｃｈｋｏｅｔａｌ．（２０１５）参照）。毛繕いは、最大およそ７Ｈｚでの発生が観察されているため、ほとんどのマウスの行動を観察するには、マウスの動きの頻度よりも高いフレームレート（たとえば、およそ２９ｆｐｓ）でビデオを記録するのが適切と考えられる。ただし、カメラは、ＩＲ領域では急速に感度を失い得る。このコントラストの損失は、ＩＲ光のレベルの増大により克服され得るが、ＩＲ光の強度を高くすると、環境温度が上昇する可能性がある。

照明
[00133]上述の通り、照明２１２は、可視白色光および赤外光等、１つまたは複数の種
類の光を放射するように構成され得る。可視光が照射に採用され、明暗サイクルおよび調整可能な強度を提供するように（たとえば、コントローラ２１６によって）プログラムされ得る。照明サイクルを調節できることは、動物が野生で浴びる太陽からの光の模擬を可能にする。明暗期間の長さは、季節を模擬するように調整され、時差ぼけ（概日相前進および後退）実験を模擬するように照明シフトが実行され得る。また、特定の動物の不安を引き起こすのに高輝度照明が採用され、異なる探索行動を引き出すのに低輝度照明が採用され得る。このように、明暗の長さおよび光強度を時間的に制御できることは、適正な行動実験に不可欠である。

[00134]特定の実施形態において、コントローラ２１６は、明暗サイクルの明部におい
て、およそ５０ｌｕｘ～およそ８００ｌｕｘの強度を有する可視光での筐体２０４の照射
を可視光源に要求するように構成され得る。選択される光強度は、観察対象の運動の種類に応じて変化し得る。一態様においては、マウスによる探索運動を促して観察するため、比較的に低い強度（たとえば、およそ２００ｌｕｘ～およそ３００ｌｕｘ）が採用され得る。

[00135]特定の実施形態においては、ＩＲロングパスフィルタを用いることにより、Ｉ
Ｒ領域において、カメラ２１０により略すべてのビデオデータが取得され得る。ＩＲロングパスフィルタは、カメラ２１０に対する略すべての可視光入力を除去し得る。ＩＲ光は、昼夜を問わず筐体１０４の均一な照明を可能にするため有益である。

[00136]ＩＲ光の２つの波長（８５０ｎｍおよび９４０ｎｍのＬＥＤ）が評価された。
８５０ｎｍ光は、肉眼で見られる鮮明な赤の色相を示し、動物に対しては低輝度露光となり得る。ただし、このような薄明かりは、マウスに情緒の変動をもたらし得る。したがって、記録には９４０ｎｍ光が選択される。

[00137]９４０ｎｍの波長での記録は、カメラでの量子収率が非常に低くなり得るため
、高利得のため粗く見える画像となって現れ得る。したがって、赤外照射のために筐体２０４の温度を実質的に上げることなく得られる最大光レベルを識別するため、異なるカメラを用いたさまざまな赤外照明レベルが評価された。特定の実施形態において、筐体２０４の温度は、およそ５℃以下（たとえば、およそ３℃以下）だけ上昇可能である。

[00138]また、ＢａｓｌｅｒａｃＡ１３００－６０ｇｍ－ＮＩＲカメラが評価された
。このカメラは、図４Ａおよび図４Ｂに示されるように、表１に掲載の他のカメラと比較して、９４０ｎｍで約３～４倍のスペクトル感度を有する。図４Ａは、相対応答の観点での代表例としてＳｅｎｔｅｃｈカメラのスペクトル感度を示しており、図４Ｂは、量子効率の観点でＢａｓｌｅｒカメラのスペクトル感度を示している。量子効率は、センサーに衝突する光子に対して放射された電子の測度である。相対応答は、０～１のスケール上で表された量子効率である。図４Ａおよび図４Ｂにおいては参考として、９４０ｎｍの波長が垂直線としてさらに示される。

[00139]照明２１２によりもたらされる可視光サイクルは、コントローラ２１６または
照明２１２と連通した別のデバイスにより制御され得る。特定の実施形態において、コントローラ２１６は、照明制御盤（ＰｈｅｎｏｍｅＴｅｃｈｎｏｌｏｇｉｅｓ、Ｓｋｏｋｉｅ、ＩＬ）を具備し得る。制御盤は、対数的にスケーリングされ、ＲＳ４８５インターフェースを介して制御可能であり、夜明け／日暮れ事象を実行可能な１０２４レベルの照明を有する。以下により詳しく論じられる通り、可視光の制御は、コントローラ２１６により実行される制御ソフトウェアに組み込まれ得る。

フィルタ
[00140]上述の通り、任意選択として、ビデオデータ取得中に略すべての可視光がカメ
ラ２１０に達しないようにするため、ＩＲロングパスフィルタが採用され得る。一例としては、物理的なＩＲロングパスフィルタがカメラ１１０とともに採用され得る。この構成は、アリーナ２００の明暗相に関わらず、実質的に均一な照明を提供し得る。

[00141]開示のシステムおよび方法の実施形態における使用に潜在的に適したフィルタ
プロファイルが図５に示される（たとえば、ＩＲパスフィルタ０９２および０９３）。ＩＲ光を遮断するＩＲカットフィルタ４８６が比較として示される。ＲＧ－８５０（ガラス、ＥｄｍｕｎｄｓＯｐｔｉｃｓ）および４３－９４９（プラスチック、レーザ硬化性、ＥｄｍｕｎｄｓＯｐｔｉｃｓ）用の付加的なプロファイルも好適と考えられる。

レンズ
[00142]一実施形態において、カメラレンズとしては、０．８４７ｃｍ（１／３”）、
３．５－８ｍｍ、ｆ１．４（ＣＳマウント）が可能である。このレンズは、図３Ａおよび図３Ｂに見られる画像を生成し得る。Ｃマウントレンズの類似レンズも採用され得る。

ビデオ圧縮
[00143]圧縮を無視すれば、カメラ２１０によって、およそ１ＭＢ／フレーム、およそ
３０ＭＢ／秒、およそ１０８ＧＢ／時、およそ２．６ＴＢ／日というレートで生のビデオデータが生成され得る。格納方法を選択する場合は、多様な目的が考えられる。ビデオの状況に応じて、長期格納の前にビデオの特定要素を除去するのが有益な選択肢となり得る。また、長期格納を考える場合は、フィルタまたは（たとえば、コントローラ２１６による）他の形態の処理の適用が望ましいはずである。ただし、処理方法が後で変更される場合は、元のビデオデータすなわち生のビデオデータを保存するのが有益なソリューションとなり得る。ビデオ圧縮テストの一例が以下で説明される。

[00144]画素解像度およそ４８０×４８０、およそ２９ｆｐｓ、およびおよそ８ビット
／画素でおよそ１００分間に収集されたビデオデータに関して、複数の圧縮規格が評価された。生のビデオからテストされた２つの無損失フォーマットは、ＤｉｒａｃおよびＨ２６４である。Ｈ２６４は、ファイルサイズがわずかに小さいものの、コード変換に要する時間がわずかに長い。Ｄｉｒａｃは、別のフォーマットへの後続のコード変換により広く支持され得る。

[00145]ＭＰＥＧ４損失性フォーマットも評価された。Ｈ２６４と密接に関連するため
であり、ビットレートを良好に制御可能であることが知られている。ビットレートの設定には、２つの方法がある。第１は、符号化ビデオ全体を通して一定の固定ビットレートを設定する方法であり、第２は、元のビデオからの逸脱に基づいて可変ビットレートを設定する方法である。ＭＰＥＧ４符号化器を用いたｆｆｍｐｅｇにおいて、可変ビットレートの設定は、品質値（０～３１（０は略無損失））の選択により容易に実現され得る。

[00146]図６Ａ～図６Ｄにおいては、元（生）の捕捉ビデオフレームに対して、３つの
異なる画像圧縮方法が比較される。元の画像は、図４Ａに示される。その他３つの方法は、図４Ｂ～図４Ｄにおいて、元画像からの画素の差により示され、圧縮の影響のみを示している。すなわち、圧縮画像は、元画像とこれほども異なる。したがって、少差がより優れており、また、高圧縮比がより優れている。図４Ｂに示されるように、Ｑ０フィルタを備えたＭＰＥＧ４コーデックに従って実行される圧縮は、１／１７の圧縮比を示す。図４Ｃに示されるように、Ｑ５フィルタを備えたＭＰＥＧ４コーデックに従って実行される圧縮は、１／２３７の圧縮比を示す。図４Ｄに示されるように、ＨＱＤＮ３Ｄフィルタを備えたＭＰＥＧ４コーデックに従って実行される圧縮は、１／９７の圧縮比を示す。

[00147]開示の実施形態に従って収集されたビデオデータは、品質０パラメータ（Ｑ０
フィルタ（図４Ｂ）、Ｑ０ＨＱＤＮ３Ｄフィルタ（図４Ｄ））を使用する場合、画素の約０．０１％が元画像から変化している（強度が最大４％増大または低下している）。これは、１フレーム当たりおよそ２５画素を占める。これらの画素の大部分は、陰影の境界に位置付けられる。当然のことながら、この小さな画像の変化は、カメラ２１０自体に干渉するノイズの規模に従う。より高い品質値（たとえば、Ｑ５（図４Ｃ））では、ビデオデータをより良好に圧縮するため、アーチファクトが導入され得る。これらは、圧縮中に注意が払われない場合に出現するブロックノイズを伴うアーチファクトに通じることが多い。

[00148]これらのフォーマットのほか、個々のユーザのデータセットに対応するため、
他の好適な無損失フォーマットが生成され得る。これらのうちの２つとして、ＦＭＦコーデック（フライムービー（ｆｌｙｍｏｖｉｅ）フォーマット）およびＵＦＭＦコーデック（マイクロフライムービー（ｍｉｃｒｏｆｌｙｍｏｖｉｅ）フォーマット）が挙げられる。これらのフォーマットの目的は、無関係な情報を最小限に抑えるとともに、追跡のための可読性を最適化することにある。これらのフォーマットは、無損失であり、固定された背景モデル上で機能するため、フィルタリングされていないセンサーノイズにより、実質的なデータ圧縮は一切不可能であった。この圧縮評価の結果が表２に示される。

[00149]データ圧縮用のコーデックの選択のほか、画像の背景ノイズの低減も望ましい
はずである。背景ノイズは、すべてのカメラに内在しており、ダークノイズと言われることが多く、画像内の基準ノイズを表す。

[00150]このノイズを除去するには、露光時間の延長、絞りの拡大、および利得の低減
等、多くの方法がある。ただし、これらの方法が実験に直接影響する場合は、実行可能な選択肢ではない。したがって、時空間情報を取り込んで小変動を除去するｆｆｍｐｅｇのＨＱＤＮ３Ｄフィルタが採用され得る。

[00151]図６Ｂ～図６Ｄに示されるように、ＨＱＤＮ３Ｄフィルタは、取得ビデオデー
タのファイルサイズを大幅に低減させることが観察される（たとえば、元のビデオデータのファイルサイズと比較して約１００倍小さい）。ＨＱＤＮ３Ｄフィルタを備えたＭＰＥ
Ｇ４コーデックによる圧縮の後、結果としての平均ビットレートとしては、圧縮ビデオにおいて、およそ０．３４ＧＢ／時が可能である。さらに、実質的にすべての情報の損失は、センサーノイズからの生成物（マウスのいない状態で取得されたビデオ）の数桁未満であることが実験的に検証された。この種のノイズ除去は、圧縮性を大幅に向上させる。

[00152]予想外にも、ＨＱＤＮ３Ｄフィルタは、以下に詳しく論じられる畳み込みニュ
ーラルネットワーク（ＣＮＮ）による追跡の性能を大幅に向上させることが発見されている。理論上の制約を受けることなく、この性能向上は、ＨＱＤＮ３Ｄフィルタが分散ベースの背景減算法であるために実現されると考えられる。低分散では、前景の識別が容易であり、高品質の追跡をもたらされる。

超音波オーディオ取得
[00153]マウスは、超音波領域での発声によって、社会的コミュニケーション、交配、
攻撃、および飼育を行い得る（たとえば、Ｇｒｉｍｓｌｅｙｅｔａｌ．（２０１１）参照）。嗅覚および触覚の刺激と併せて、この発声は、マウスのコミュニケーションの最も顕著な形態のうちの１つとなり得る。マウスではテストされていないものの、人間の場合、声および発声の変化（加齢）は、思春期および老化等の遷移を規定し得る（たとえば、ＤｅｃｏｓｔｅｒａｎｄＤｅｂｒｕｙｎｅ（１９９７）、Ｍａｒｔｉｎｓｅｔａｌ．（２０１４）、Ｍｕｅｌｌｅｒ（１９９７）参照）。

[00154]したがって、以下に詳しく論じられる通り、アリーナ２００の実施形態は、１
つまたは複数のマイク２２２をさらに具備し得る。マイク２２２は、フレーム２０２に取り付けられ、筐体２０４に入れられた動物からオーディオデータを取得するように構成され得る。マイクアレイの形態でマイク２２２を使用することにより、同期データ収集が導かれ得る。このマイク２２２の構成は、発声しているマウスの特定を可能にする。一群のマウスの中で発声しているマウスをさらに決定できることは、近年、マイクアレイを用いて実証されている（たとえば、Ｈｅｃｋｍａｎｅｔａｌ．（２０１７）、Ｎｅｕｎｕｅｂｅｌｅｔａｌ．（２０１５）参照）。

[00155]Ｎｅｕｎｕｅｂｅｌｅｔａｌ．と同様にデータ収集セットアップが提供さ
れ得る。音声を捕捉可能なアリーナの側面に４つのマイクが位置決めされ得る。ビデオデータと統合された場合に、最尤法を用いて、発声しているマウスが識別され得る（たとえば、Ｚｈａｎｇｅｔａｌ．（２００８）参照）。

環境センサー
[00156]一実施形態において、アリーナ２００は、温度、湿度、および／または光強度
（たとえば、可視および／またはＩＲ）等の１つまたは複数の環境パラメータを測定するように構成された１つまたは複数の環境センサー２２４をさらに具備し得る。特定の実施形態において、環境センサー２２４は、統合されて、２つ以上の環境パラメータを測定するように構成され得る（たとえば、ＰｈｅｎｏｍｅＴｅｃｈｎｏｌｏｇｉｅｓ、Ｓｋｏｋｉｅ、ＩＬ参照）。環境センサー２２４は、コントローラ２１６と電気的に連通して、光レベルとともに日々の温度および湿度データを収集可能である。収集された環境データは、最低および最高温度のほか、照明状態を示すユーザインターフェースにおける表示のため、出力され得る（以下の制御ソフトウェアに関する記述参照）。

ソフトウェア制御システム
[00157]データ取得および光制御のため、コントローラ２１６によりソフトウェア制御
システムが実行され得る。ソフトウェア制御システムは、対応するタイムスタンプとともに、ビデオ、オーディオ／超音波、および環境データを独立して収集できるように構成され得る。このように、あらかじめ決められた任意の期間（たとえば、１秒または複数秒、
１分または複数分、１時間または複数時間、１日または複数日、１年または複数年等）にわたって中断なく、データが収集され得る。これは、取得ビデオ、オーディオ／超音波、および／または環境データの後々の編集または同期による解析または提示を可能とし得る。

オペレーティングシステム
[00158]オペレーティングシステムの選定は、さまざまなセンサーのドライバの可用性
により推進され得る。たとえば、ＡｖｉｓｏｆｔＵｌｔｒａｓｏｎｉｃマイクドライバのみがＷｉｎｄｏｗｓオペレーティングシステムと互換性を有する。ただし、この選定は、以下に影響を及ぼす可能性がある。

プロセス間通信：プロセス間通信の選択肢は、基本ＯＳの影響を受ける。同様に、ＯＳは、スレッド間の通信の選定に影響を及ぼす。ただし、ＱＴのようなプラットフォーム横断型フレームワーク上の開発が橋渡しとなり得る。

システムクロックへのアクセス：高分解能システムクロックへのアクセス方法は、以下により詳しく論じられる通り、ＯＳごとに異なる。
ハードウェアの選択肢
[00159]特定の実施形態において、制御システムは、シングルボードコンピュータの形
態でコントローラ２１６により実装され得る。継続運用に対して高堅牢な軍用規格／産業用コンピュータ等、複数の選択肢が利用可能である。

外部クロック対システムクロック
[00160]外部クロックをシステムに導入することなく、システムクロックから、適切な
実時間クロック値を利用可能である。ポジックスシステムにおいては、ｃｌｏｃｋ＿ｇｅｔｔｉｍｅ（ＣＬＯＣＫ＿ＭＯＮＯＴＯＮＩＣ、・・・）関数が秒およびナノ秒を返し得る。クロックの分解能は、ｃｌｏｃｋ＿ｇｅｔｒｅｓ（）関数で問い合わせ可能である。制御システムの実施形態のクロック分解能は、およそ３３ミリ秒のフレーム期間よりも小さいことが望ましいはずである。一実施形態において、システムクロックは、Ｕｎｉｘシステムである。

[00161]システムが開始されて以降のミリ秒数の取得に用いられるＧｅｔＴｉｃｋＣｏ
ｕｎｔ６４（）システム関数が開発されている。このタイマーの予想分解能は、およそ１０～およそ１６ミリ秒である。これは、ｃｌｏｃｋ＿ｇｅｔｔｉｍｅ（）システムコールと同じ目的を果たし得るものの、値のラッピングを確認して考慮するのが有益となり得る。

[00162]Ｍａｃｉｎｔｏｓｈコンピュータ上では、システムクロックに同じようにアク
セス可能である。以下のコードスニペットが評価され、サブミクロン秒の分解能が観察されている。

ｃｌｏｃｋ＿ｓｅｒｖ＿ｔｃｃｌｏｃｋ；
ｍａｃｈ＿ｔｉｍｅｓｐｅｃ＿ｔｍｔｓ；
ｈｏｓｔ＿ｇｅｔ＿ｃｌｏｃｋ＿ｓｅｒｖｉｃｅ（ｍａｃｈ＿ｈｏｓｔ＿ｓｅｌｆ（），ＳＹＳＴＥＭ＿ＣＬＯＣＫ，＆ｃｃｌｏｃｋ）；
ｃｌｏｃｋ＿ｇｅｔ＿ｔｉｍｅ（ｃｃｌｏｃｋ，＆ｍｔｓ）；
[00163]如何なるＯＳにおいても、時刻を返すシステムコールは、調整が周期的になさ
れると、後ろに移動する場合があり得る。一実施形態においては、単調増加するシステムクロックが採用され得る。ＧｅｔＴｉｃｋＣｏｕｎｔ６４（）、ｃｌｏｃｋ＿ｇｅｔｔｉｍｅ（）、およびｃｌｏｃｋ＿ｇｅｔ＿ｔｉｍｅ（）はすべて、この基準を満たし得る。

ビデオファイルサイズ
[00164]カメラ供給業者のソフトウェアは、妥当なサイズへと自動的に分割された適切
なタイムスタンプの出力ファイルを保存するとは考えにくい。コントローラ１１６の実施形態では、中断なくビデオデータを収集し、カメラ１１０から各フレームを読み出して、単純な形態で収集ビデオデータを提供するのが望ましい。たとえば、コントローラ１１６は、タイムスタンプヘッダまたはフレーム間のタイムスタンプとともに、生のフォーマットで、１ファイル当たりおよそ１０分間のビデオフレームをデータ記憶装置１２０に与えるように構成され得る。そして、各ファイルは、２ＧＢを下回ることになる。

制御システムアーキテクチャ
[00165]図７は、取得システム７００の構成要素を示したブロック図である。特定の実
施形態において、取得システム７００は、コントローラ２１６により実行され得る。各ブロックは、実行の別個のプロセスまたはスレッドを表す。
コントローラプロセス
[00166]制御プロセスは、他のプロセスまたはスレッドを開始および停止するように構
成され得る。また、制御プロセスは、取得システム７００のユーザインターフェースを提供するように構成され得る。制御プロセスは、活動のログを保存するように構成され、また、取得中に発生するエラーを（たとえば、ログに）記録し得る。また、制御プロセスは、休止となったプロセスまたはスレッドを再開させるように構成され得る。

[00167]構成要素間の通信の方法は、システムＯＳの選定後に決定され得る。制御プロ
セスに対するユーザインターフェースとしては、コマンドラインインターフェースまたはグラフィカルインターフェースが可能である。グラフィカルインターフェースは、ＯＳからの独立をもたらすＱＴ等の移植可能なフレームワーク上に構築され得る。

ビデオ取得プロセス
[00168]ビデオ取得プロセスは、カメラ２１０と直接通信して、タイムスタンプされた
フレームをデータ記憶装置２２０に保存するように構成され得る。ビデオ取得プロセスは、高優先度で動作することにより、フレーム落ちの可能性を最小限に抑え得る。ビデオ取得プロセスは、フレーム間の処理を最小限に抑えることで、比較的単純に保たれ得る。また、ビデオ取得プロセスは、照明２１２により放射されるＩＲ照射を制御することによって、最小限の有効シャッター速度で適正な露光を保証するように構成され得る。

オーディオ取得プロセス
[00169]別個のオーディオ取得プロセスは、適当なタイムスタンとともに超音波オーデ
ィオデータを取得するように構成され得る。一実施形態において、オーディオシステムは、筐体２０４とオーディオ連通して配置されたマイク２２２のアレイを具備し得る。特定の実施形態においては、マイク２２２のうちの１つまたは複数が筐体２０４内に位置決めされ得る。マイクアレイの各マイクは、およそ５００ｋＨｚのサンプリング周波数、およそ１６ビットのＡＤＣ分解能、およそ１０ｋＨｚ～およそ２０ｋＨｚの周波数範囲、および８次で２１０ｋＨｚのアンチエイリアシングフィルタといった性能のうちの１つまたは複数を有し得る。一例として、マイクアレイの各マイクは、ＰｅｔｔｅｒｓｓｏｎＭ５００マイク（ＰｅｔｔｅｒｓｓｏｎＥｌｅｋｔｒｏｎｉｋＡＢ、Ｕｐｐｓａｌａ、Ｓｗｅｄｅｎ）またはその機能的同等物を含み得る。上述の通り、マイク２２２により捕捉されたオーディオデータは、タイムスタンプされ、解析のためのコントローラ２１６への提供および／または格納のためのデータ記憶装置２２０への提供がなされ得る。

環境データ取得プロセス
[00170]別個の環境データ取得プロセスは、温度、湿度、および光レベル等の環境デー
タを収集するように構成され得る。環境データは、低周波数（たとえば、およそ０．０１Ｈｚ～０．１Ｈｚ）で収集され得る。環境データは、データ記憶装置２２０により、レコードごとにタイムスタンプを伴って（たとえば、１つまたは複数のＣＳＶファイルとして）格納され得る。

照明制御プロセス
[00171]照明制御プロセスは、マウスに昼夜サイクルを与えるため、照明２１２により
放射された可視光を制御するように構成され得る。一実施形態においては、上述の通り、カメラ２１０が実質的にすべての可視光を取り除いてＩＲのみに応答するように構成され、ＩＲが生じないように可視光がフィルタリングされ得るため、このプロセスは、ビデオ捕捉に対する影響を回避可能である。

ビデオ編集プロセス
[00172]ビデオ編集プロセスは、取得ビデオデータをあらかじめ決められた圧縮であら
かじめ決められたフォーマットへと再パッケージングするように構成され得る。このプロセスは、フレーム落ちの機会を最小限に抑えるため、ビデオ取得から分離させておくことができる。ビデオ編集プロセスは、低優先度の背景タスクとしての動作あるいはデータ取得完了後の動作が可能である。

ウォッチドッグプロセス
[00173]ウォッチドッグプロセスは、データ取得プロセスの健全性をモニタリングする
ように構成され得る。一例として、問題を（たとえば、ログに）記録し、必要に応じて再開をもたらし得る。また、ウォッチドッグプロセスは、監視している構成要素からの「鼓動」を聴くことができる。一般的に、鼓動としては、コントローラ２１６に送信され、システム７００の構成要素が正常に動作していることを確認する信号が可能である。一例として、システム７００の構成要素が機能を停止した場合は、コントローラ２１６によって、この構成要素から鼓動が送信されないことが検出され得る。この検出の後、コントローラ２１６は、イベントを記録し、警報を発することができる。このような警報としては、オーディオアラームおよび視覚的アラーム（たとえば、光、英数字表示等）が挙げられるが、これらに限定されない。このようなアラームの代替または追加として、コントローラ２１６は、再初期設定信号の送信または電源の切り替え等、構成要素の動作を再開しようとし得る。システム７００の構成要素とコントローラ２１６との間の通信の方法は、ＯＳの選定に応じて変化し得る。

マウスのマーキング
[00174]特定の実施形態においては、追跡を容易化するため、マウスがマーキングされ
得る。ただし、以下により詳しく論じられる通り、マーキングが省略され、他の技術により追跡が容易化され得る。

[00175]視覚的識別のためのマウスのマーキングには、自明ではない複数のパラメータ
が存在する。一実施形態においては、マウス自身に見えないようにすることで、マウスのコミュニケーションおよび行動への影響を最小限の抑える長期間（数週間）のマーキングがマウスに対して実行され得る。一例として、通常のマウスの視界範囲には見えない長期ＩＲ感応マーカが採用され得る。

[00176]代替実施形態においては、人間のヘアカラーおよびヘアブリーチを用いて、マ
ウスの毛にマーキングが施され得る。この手法では、マウスを数週間にわたって明確に識別可能であり、行動実験において成功裏に使用され得る（たとえば、Ｏｈａｙｏｎｅｔ
ａｌ．（２０１３）参照）。ただし、毛にマーキングを施すプロセスには、マウスへの麻酔を要するが、これは、本マウスモニタリングシステムには受け入れられないプロセス
である。麻酔が生理機能を変化させ、また、染毛剤自体が、マウスの行動を変化させることが多い刺激物となり得る。各ＤＯマウスが一意であることから、これが色素／麻酔×遺伝子型効果となって、未知の変数を導入し得る。

[00177]また、ＩＲ色素ベースのマーカおよびタトゥーを用いるさらに別の方法が採用
され、最適化され得る。
[00178]別の実施形態においては、マーキングの一形態としてマウスの背中にパターン
を生成するため、剃毛が採用され得る。

データストレージ
[00179]開発段階においては、合計で２ＴＢ未満のデータが必要とされ得る。これらの
データには、さまざまなカメラおよび圧縮方法によるサンプルの生のビデオおよび圧縮ビデオを含み得る。したがって、統合ＵＳＶ・ビデオデータのほか、負荷テスト中の長期７～１０日間ものビデオデータのデータ転送が実現され得る。ビデオのサイズは、選定された圧縮規格に従って低減され得る。サンプルのデータストレージ推定値が以下に与えられる。
テスト：
１つのアリーナ
最大５つのカメラ
ビデオの継続時間：それぞれ約１～２時間
合計約１０ＧＢ（上限）
負荷テスト：
１つのアリーナ
１つのカメラ
ビデオの継続時間：１４日
解像度：現行の２倍（９６０×９６０）
合計約２ＴＢ
生産：
１２０回の合計実行（１２～１６個のアリーナ、グループ実行当たり８０匹の動物、交互の実験）
継続時間（各）：７日
解像度：現行の２倍（９６０×９６０）
３２．２５ＴＢ
ＩＩ．動物追跡
[00180]マウス等の動物のビデオ追跡は、高レベルのユーザ関与がなければ、複雑かつ
動的な環境においても、既存の動物モニタリングシステムにおける遺伝子学的に異種の動物に対しても実行し得ず、大規模な実験が実現不可能となる。後述の通り、既存のシステムおよび方法を用いることにより複数の環境において多数の異なるマウス系統を追跡しようとすれば、これらのシステムおよび方法が大規模な実験のデータセットに対して不適切であることが明らかとなる。

[00181]黒色、アグーチ、アルビノ、灰色、茶色、ヌード、およびまだら模様等、異な
る毛色のマウスを含む例示的なデータセットが解析に用いられた。以下に概説されるＪＡＸ－ＩＡＣＵＣの手順に従って、すべての動物がテストされた。マウスは、生後８～１４週間にテストされた。データセットは、５９系統の１８５７個のビデオを含み、合計１７０２時間であった。

[00182]すべての動物がジャクソン研究所の生産コロニーから調達された。ジャクソン
研究所のＩｎｓｔｉｔｕｔｉｏｎａｌＡｎｉｍａｌＣａｒｅａｎｄＵｓｅＣｏｍｍｉｔｔｅｅガイドラインによる認証手順に従って、８～１４週間の成体マウスの行動
がテストされた。Ｋｕｍａｒ（２０１１）に記載の通り、オープンフィールド行動アッセイが実行された。要するに、集団飼育のマウスの重さが計量され、ビデオ記録の開始前３０～４５分間にわたって、テストルームに慣らされた。本明細書においては、最初の５５分間の運動のデータが提示される。入手可能な場合は、各近交系統およびＦ１同質遺伝子系統から、８匹の雄および８匹の雌がテストされた。

[00183]一態様においては、白色背景にて、同じオープンフィールド装置（たとえば、
アリーナ２００）で複数の動物を追跡するのが望ましいはずである。ビデオ取得システムにより取得されたフルフレームおよびクロッピングされたビデオ画像の例が図８Ａの１列目（フルフレーム）および２列目（クロップ）に示される。さまざまな遺伝子学的背景の各環境において、理想的な追跡フレームおよび実際の追跡フレームの例が示される（図８Ａの３列目（理想的な追跡）および４列目（実際の追跡））。

[00184]別の態様においては、餌および水入れを含むアリーナ２００の一実施形態およ
びジャクソン研究所におけるＫｎｏｃｋｏｕｔＭｏｕｓｅＰｒｏｊｅｃｔ（ＫＯＭＰ２）等、過酷な環境における行動のビデオ解析の実行が望ましかった（それぞれ、図８Ａの５列目および６列目）。

[00185]２４時間装置において、マウスは、白紙の寝床および餌／水入れとともにアリ
ーナ２００に収容された。マウスはアリーナ２００に拘束され、照明２１２により放射された赤外光を用いることにより、昼夜条件において継続的な記録が実行された。寝床および餌入れはマウスにより移動され、昼夜サイクルを模擬するため、照明２１２により放射される可視光が各日の経過にわたって変更された。

[00186]ＫＯＭＰ２プロジェクトでは、５年間にわたるデータが収集されたが、ビーム
ブレークシステムでは識別され得ない歩行の影響を検出する追加の解析様式として、ビデオベースの記録を実行するのが望ましかった。歩行解析においては、動物の動きが解析される。動物の歩行が異常な場合は、骨格、筋肉、および／または神経等の異常が導出され得る。ＫＯＭＰ２プロジェクトでは、赤外線が全面に照射された透明なポリカーボネートのボックスにマウスが入れられるビームブレークシステムを使用する。マトリクスの床もポリカーボネートであって、基礎となるベンチ面は暗灰色である。２つのテーブルの接続部に配置されたいくつかのボックスが接合を可能とし、天井の照明（たとえば、ＬＥＤ照明）がすべてのボックスに対して一意の高輝度をもたらし得る。

[00187]一態様においては、背景減算および斑点検出ヒューリスティクスを使用する現
代のオープンソースな追跡ツールであるＣｔｒａｘを用いて、このデータセットのビデオの追跡が試行された。Ｃｔｒａｘは、長軸および短軸、マウスの中心のｘおよびｙ位置、および動物の方向という５つの測定基準に対して、フレームごとにマウスを抽象化する（Ｂｒａｎｓｏｎ（２００９））。また、ＭＯＧ２背景減算モデルを利用するが、この場合、ソフトウェアは、背景減算に使用するビデオの背景の平均および分散の両者を推定する。Ｃｔｒａｘでは、予測前景の形状を用いて楕円に適合させる。

[00188]別の態様においては、独自の追跡アルゴリズムを使用する市販の追跡ソフトウ
ェアであるＬｉｍｅＬｉｇｈｔを用いて、このデータセットのビデオの追跡が試行された。ＬｉｍｅＬｉｇｈｔは、単一のキーフレーム背景モデルを使用して、セグメンテーションおよび検出を行う。マウスが検出されたら、ＬｉｍｅＬｉｇｈｔは、独自のアルゴリズムを用いることにより、重心に対してマウスを抽象化する。

[00189]このデータセットには、これら既存の解析システムに対して重大な課題がある
。一例として、ＣｔｒａｘおよびＬｉｍｅＬｉｇｈｔでは、マウスの毛色および環境の組
み合わせを扱うのが困難であった。一般的に、白色背景上の暗色マウス（たとえば、黒色、アグーチ）等、高コントラストを示す環境は、良好な追跡結果を生じている。ただし、白色背景上の明色マウス（たとえば、アルビノ、灰色、またはまだら模様のマウス）等、低コントラストの環境は、不十分な結果を生じている。白色オープンフィールドにおける黒色マウスは、高い前景－背景コントラストを実現するため、実際の追跡が理想と緊密に一致する。灰色マウスは、視覚的にアリーナの壁に類似するため、壁を背にすると鼻が取り除かれてしまう場合が多い。アルビノのマウスは、アリーナ自体の背景に類似するため、追跡中は見つからないことが多い。まだら模様のマウスは、毛色がパターン化されているため、真っ二つに割れる。ビデオごとにＣｔｒａｘを最適化および微調節する試みがなされたものの、図８Ａの３列目（理想的な追跡）と比較して４列目（実際の追跡）の実際の追跡結果に示されるように、かなりの数の不良追跡フレームが依然として観察された。不良追跡フレームを破棄すると、サンプリングが偏って生物学的解釈が歪められ得るため、望ましくない。

[00190]これらのエラーは、２４時間環境およびＫＭＯＰ２環境等、環境が追跡に理想
的ではなくなると大きくなることが観察された。さらに、エラーの分布は、ランダムではなかった。たとえば、図８の４列目（実際の追跡）に示されるように、マウスが隅部、壁近く、または餌入れの上にいる場合は追跡が極めて不正確である一方、中央にいる場合は追跡があまり不正確にならないことが分かった。２４時間環境において餌入れをアリーナに配置すると、マウスがその上に登った場合に追跡の問題が生じる。また、ＫＯＭＰ２等の反射面を有するアリーナでも、追跡アルゴリズムにエラーが生じる。

[00191]不良追跡の原因をさらに探求して、ほとんどの場合、不適正な追跡は、マウス
の背景からの不十分なセグメンテーションに起因することが分かった。これには、マウスが前景から取り除かれる事例または不十分なコントラストのために背景が前景に含まれる事例を含んでいた。従来は、最適化されたビデオデータ収集に対して環境を変化させることにより、これらハードルの一部に対処がなされていた。たとえば、アルビノのマウスを追跡するため、オープンフィールドの背景色を黒色に変えて、コントラストを高くすることができる。ただし、このような環境変化は、本文脈において適さない。環境の色はマウスおよび人間の行動に影響を及ぼすため、このような操作は潜在的に、実験結果を混同させ得るからである（Ｖａｌｄｅｚ（１９９４）、Ｋｕｌｅｓｓｋａｙａ（２０１４））。また、２４時間データ収集システムまたはＫＯＭＰ２アリーナにおいては、このようなソリューションがまだら模様のマウスに対して機能しない可能性がある。

[00192]Ｃｔｒａｘでは単一背景モデルのアルゴリズムを使用するため、他の背景モデ
ルが追跡結果を改善し得るかを判定するテストが実行された。２６個の異なるセグメンテーションアルゴリズム（Ｓｏｂｒａｌ（２０１３））がテストされ、図８Ｂに示されるように、これら従来のアルゴリズムがそれぞれ、特定の状況下では十分に機能し、他の場所では機能しなくなることが発見された。動物追跡のための他の利用可能なシステムおよび方法は、追跡のための背景減算手法に依拠する。２６個の背景減算方法がすべて機能しなくなったことから、ＣｔｒａｘおよびＬｉｍｅＬｉｇｈｔの結果がこれら他の技術を表すと考えられる。これらのセグメンテーションアルゴリズムは、不適正なセグメンテーションのために機能しなくなると考えられる。

[00193]このように、ビデオデータの解析について多くの追跡ソリューションが存在す
るものの、既存ソリューションの代表例により、適正なマウスのセグメンテーションに関する基本的な問題を克服して高品質のマウス追跡を実現する試みは、成功に至っていない。マウスのセグメンテーションに関する基本的な問題への適当な対処を行い、環境の最適化に大略依拠して適正なセグメンテーションを実現するものはないため、潜在的な混同が生じる。

[00194]さらに、背景減算アルゴリズムのパラメータを微調節する時間コストは、法外
となり得る。たとえば、２４時間設定によるデータの追跡において、マウスは、同じ姿勢で長時間にわたって眠っている場合、背景モデルの一部となって、追跡不可能となる。通常の監視では、経験豊富なユーザがビデオの１時間ごとに５分間の相互作用を行って、高品質の追跡結果を保証することになる。このレベルのユーザ相互作用は、小さくて制限された実験の場合は扱いやすいが、大規模かつ長期間の実験では、追跡性能を監視するのに長時間の関与が必要となる。

[00195]本開示の実施形態は、これらの困難を克服し、マウス等の動物を含むビデオデ
ータの解析に適した堅牢な次世代追跡器を構築する。以下に詳しく論じられる通り、複雑かつ動的な環境条件下で高い性能を実現し、毛色の遺伝的特徴を問わず、ユーザによる持続的な微調節を要しない人工ニューラルネットワークが採用される。

[00196]畳み込みニューラルネットワークは、複数レベルの抽象化でデータの表現を学
習する複数の処理レイヤを含む演算モデルである。これらの方法は、最先端の音声認識、視覚的物体認識、物体検出、ならびに創薬およびゲノミクス等のその他多くの領域を劇的に向上させてきた（ＬｅＣｕｎ（２０１５））。１つの利点において、好適なハイパーパラメータを伴う効率的なネットワークが開発されたら、適当なトレーニングデータを追加するだけで、ニューラルネットワークが容易に他のタスクへと拡張され得る。したがって、開示の実施形態は、マウス追跡のための高度に一般化可能なソリューションを提供する。
ニューラルネットワーク・アーキテクチャ
[00197]視覚的追跡の問題を解決する３つの主要なネットワーク・アーキテクチャが開
発された。一実施形態においては、図８Ｃに示されるように、セグメンテーションマスクに基づいて、物体追跡がマウスの楕円記述の形態を取り得る（Ｂｒａｎｓｏｎ（２００５）参照）。代替実施形態においては、楕円以外の形状が採用され得る。

[00198]楕円表現は、本明細書においてパラメータとも称される６つの変数によって、
動物の位置を記述し得る。一態様において、変数のうちの１つとしては、取得ビデオフレーム中のマウスの画素位置（たとえば、平均中心位置）を表すあらかじめ決められた座標系（たとえば、直交座標系のｘおよびｙ）における位置を規定する座標が可能である。すなわち、平面内の一意の画素位置である。任意選択的に、必要に応じて、座標の決定を補助するため、ビデオフレーム中のランドマーク（たとえば、筐体２０４の隅部）が検出され得る。別の態様において、変数には、マウスの長軸の長さおよび短軸の長さ、ならびに長軸のベクトル角の正弦および余弦をさらに含み得る。この角度は、長軸の方向に対して規定され得る。長軸は、ビデオフレームの座標系において、動物の頭部の先端（たとえば、鼻）辺りから動物の身体の端部（たとえば、動物の尾部が身体から延びる点辺り）まで延伸し得る。本明細書においては明瞭化のため、ニューラルネットワークの入力としてクロッピングされたフレームが示される一方、実際の入力は、マーキングされていないフルフレームである。

[00199]ニューラルネットワーク・アーキテクチャを利用して楕円パラメータを決定す
る例示的なシステムおよび方法が以下に詳しく論じられる。必要に応じて、開示の実施形態により他のパラメータが利用および決定され得ることが了解され得る。

[00200]一実施形態において、第１のアーキテクチャは、エンコーダ－デコーダ・セグ
メンテーション・ネットワークである。図９に示されるように、このネットワークは、所与の入力フレームから前景－背景セグメント化画像を予測するとともに、出力をセグメンテーションマスクとして、マウスが存在するか否かを画素の観点で予測可能である。

[00201]この第１のアーキテクチャは、入力を一組の小さな空間解像度の特徴（たとえ
ば、４８０×４８０に対して５×５）へと抽象化するように構成された特徴エンコーダを具備する。多くのパラメータが学習のため、ニューラルネットワークに割り当てられる。学習は、教師ありトレーニングにより実行され得るが、この場合、ニューラルネットワークには例が提示され、パラメータの調節によって正しい予測を生じる。最終モデルの定義およびトレーニングハイパーパラメータがすべて、以下の表３に記載される。

[00202]特徴エンコーダには、一組の小さな空間解像度の特徴を元の入力画像と同じ形
状へと戻すように構成された特徴デコーダが後続する。すなわち、ニューラルネットワークにおいて学習されたパラメータは、特徴符号化演算を逆転する。

[00203]３つの完全接続レイヤが符号化特徴に追加されて、楕円が向く基本方向を予測
する。完全接続レイヤは、所与のレイヤの各数字に異なるパラメータ（たとえば、学習可能なパラメータ）が乗じられ、その合計によって新たなレイヤに単一の値を生じるニューラルネットワークレイヤを表し得る。この特徴デコーダは、前景－背景セグメント化画像を生成するようにトレーニングされ得る。

[00204]ネットワークの最初の半分（エンコーダ）は、バッチ正規化、ＲｅＬｕ活性化
が続く２Ｄ畳み込みレイヤおよび２Ｄ最大プーリングレイヤを利用する。別途詳細については、Ｇｏｏｄｆｅｌｌｏｗ（２０１６）に見られる。

[00205]各プーリングレイヤ後に２倍になる開始フィルタサイズとして８が採用された
。使用されるカーネルは、２Ｄ畳み込みレイヤの場合は５×５、最大プーリングレイヤの場合は２×２の形状である。入力ビデオは、４８０×４８０×１（たとえば、モノクロ）の形状であり、これらのレイヤを６回繰り返した後、結果としての形状は、１５×１５×１２８（たとえば、１２８色）である。

[00206]代替実施形態においては、３×３等、他の形状のプーリングレイヤが採用され
得る。繰り返しレイヤは、繰り返し構造のレイヤを表す。ニューラルネットワークは、レイヤごとに異なるパラメータを学習し、各レイヤがスタックされる。６個の繰り返しレイヤを上述したが、繰り返しレイヤの採用数は、これより多くすることも少なくすることも可能である。

[00207]別の２Ｄ畳み込みレイヤ（カーネル５×５、２倍フィルタ）が適用された後、
異なるカーネル３×３およびストライド３の２Ｄ最大プールが適用される。１５×１５の空間形状は、係数３の使用によって、さらに縮小され得る。通常の最大プールはカーネル２×２、ストライド２であるが、各２×２グリッドは、最大値を選択するとともに１つの値を生成する。これらの設定は、３×３グリッドにおいて最大値を選択する。

[00208]最終的な２Ｄ畳み込みレイヤが適用され、５×５×５１２の形状の特徴ボトル
ネックが生成される。特徴ボトルネックは符号化特徴セットを表し、実際の行列値は、これらすべての行列演算により出力される。学習アルゴリズムは、符号化特徴セットが十分に作用するようにトレーニングされるタスクに対して最も有意となるように符号化特徴セットを最適化する。この特徴ボトルネックはその後、セグメンテーションデコーダおよび角度予測器の両者に受け渡される。

[00209]セグメンテーションデコーダは、ストライド転置２Ｄ畳み込みレイヤを用いて
エンコーダを逆転するとともに、合計ジャンクション（ｓｕｍｍａｔｉｏｎｊｕｎｃｔｉｏｎ）によって、プレダウンサンプリング活性化を繰り越す。このデコーダは、ＲｅＬｕ活性化を利用しないことに留意するものとする。プレダウンサンプリング活性化および合計ジャンクションは、スキップ接続（ｓｋｉｐｃｏｎｎｅｃｔｉｏｎ）とも称され得る。エンコーダレイヤと同じ形状に対して復号化が整合するレイヤにおける特徴以降、ネットワークは、より良くなる符号化とエンコーダ状態時の状態保持とのいずれかを選定可能である。

[00210]レイヤが４８０×４８０×８の形状に戻った後は、カーネルサイズ１×１の別
途畳み込みの適用によって、深度が２つのモノクロ画像（背景予測および前景予測）になる。最終的な出力は、４８０×４８０×２（２色）である。第１の色は、背景を表すように指定される。第２の色は、前景を表すように指定される。各画素に応じて、２つのうちの大きい方を、ネットワークは入力画素と考える。以下に論じられる通り、ｓｏｆｔｍａｘ演算は、合計が１になる累積確率となるように、これらの色を再スケーリングする。

[00211]その後、この深度全体にｓｏｆｔｍａｘが適用される。ｓｏｆｔｍａｘは、あ
るグループへの分類またはｂｉｎｍｉｎの形態である。ｓｏｆｔｍａｘに関する別途情報については、Ｇｏｏｄｆｅｌｌｏｗ（２０１６）に見られる。

[00212]特徴ボトルネックからは、角度予測も生成される。これは、２つの２Ｄ畳み込
みレイヤにバッチ正規化およびＲｅＬｕ活性化を適用することによって実現される（カーネルサイズ５×５、特徴深度１２８および６４）。ここから、１つの完全接続レイヤが平坦化され、マウスの頭部が向く四分円を予測するように作用する４ニューロンの形状を生成するために用いられる。バッチ正規化、ＲｅＬｕ活性化、および平坦化の別途詳細については、Ｇｏｏｄｆｅｌｌｏｗ（２０１６）に見られる。

[00213]角度がセグメンテーションマスクにより予測されることから、正しい方向（±
１８０°）の選択のみが必要となる。すなわち、楕円が予測されているため、長軸は１つしか存在しない。長軸の一端は、マウスの頭部の方向である。マウスは、頭部－尾部軸に沿ってより長いと仮定される。このため、一方向が＋１８０°（頭部）であり、他方向が－１８０°（尾部）である。エンコーダ－デコーダ・ニューラルネットワーク・アーキテクチャが選択可能な４つの考え得る方向は、極座標グリッド上で４５～１３５°、１３５～２２５°、２２５～３１５°、および３１５～４５°である。

[00214]これらの境界は、角度予測の不連続を回避するために選択されたものである。
とりわけ、上述の通り、角度予測は、長軸のベクトル角の正弦および余弦の予測であり、ａｔａｎ２関数を採用する。ａｔａｎ２関数は（１８０°で）不連続であり、選択された境界がこれらの不連続を回避する。

[00215]ネットワークがセグメンテーションマスクを生成した後は、Ｂｒａｎｓｏｎ（
２００９）に記載の通り、追跡のために楕円フィッティングアルゴリズムが適用され得る。Ｂｒａｎｓｏｎは、これらの計算に加重サンプル平均および分散を使用するが、セグメンテーション・ニューラルネットワークは、改善を表す状況に対して不変を維持する。背景減算アルゴリズムにより生成されたセグメンテーションマスクに対しては、投射される陰影がエラーを付加する場合がある。ニューラルネットワークは、これらの問題を一切含まないように学習する。また、加重および非加重サンプル平均および分散の使用間には、大きな差が観察されない。加重および非加重手法により予測される楕円フィッティングパラメータは、開示のニューラルネットワークの実施形態によって予測されるマスクを用いることにより、大きくは異ならない。

[00216]セグメンテーションマスクを所与として、画素位置のサンプル平均が中心位置
を表すように計算される。

同様に、長軸の長さ（ａ）、短軸の長さ（ｂ）、および角度（θ）を表すように、画素位置のサンプル分散が計算される。

軸長および角度を求めるには、固有値分解方程式を解く必要がある。

[00217]第２のネットワーク・アーキテクチャは、ビニング分類ネットワークである。
図１０に示されるように、ビニング分類ネットワーク・アーキテクチャの構造は、各楕円フィッティングパラメータの最確値のヒートマップを予測可能である。

[00218]このネットワーク・アーキテクチャは、入力画像を小さな空間解像度へと抽象
化する特徴エンコーダで開始となる。回帰予測器の大部分が境界ボックス（たとえば、正方形または長方形）によってソリューションを実現するのに対して、楕円では、１つの付加的なパラメータである角度を追加するのみである。角度が３６０°および０°で等値になる繰り返し数であることから、角度パラメータは、その正弦および余弦成分に変換される。これにより、ネットワークから回帰した合計６つのパラメータが生じる。このネットワークの最初の半分は、問題を解くことと関連する一組の特徴を符号化する。

[00219]符号化された特徴は、特徴を表す行列（アレイ）を単一ベクトルへと変換する
ことによって平坦化される。そして、平坦化された符号化特徴は、（たとえば、特徴のベクトルを完全接続レイヤに入力することにより）出力形状が所望の出力解像度によって決定される付加的な完全接続レイヤに接続される。たとえば、マウスのＸ座標位置の場合は、４８０×４８０画素の画像の各ｘ列に１ビンずつ、４８０個のビンが存在する。

[00220]ネットワークが動作すると、各ヒートマップ中の最大値が最確値として選択さ
れる。所望の各出力パラメータは、符号化特徴に接続された一組の独立したトレーニング可能な完全接続レイヤとして実現され得る。

[00221]ＲｅｓｎｅｔＶ２５０、ＲｅｓｎｅｔＶ２１０１、ＲｅｓｎｅｔＶ
２２００、ＩｎｃｅｐｔｉｏｎＶ３、ＩｎｃｅｐｔｉｏｎＶ４、ＶＧＧ、およびＡｌｅｘｎｅｔ等の多種多様な予備構築特徴検出器がテストされた。特徴検出器は、入力画像に対して動作する畳み込みを表す。これらの予備構築特徴検出器のほか、多様なカスタムネットワークも調査された。この調査により、ＲｅｓｎｅｔＶ２２００が最も良く機能することが観察された。

[00222]最後のアーキテクチャは、図１１に示される回帰ネットワークである。一例と
して、回帰ネットワークは、入力ビデオフレームを取得し、Ｒｅｓｎｅｔ２００ＣＮＮによって特徴を抽出し、楕円フィッティング用の６つのパラメータを直接予測する。各値（楕円フィッティング用の６つ）は連続しており、無限の範囲を有し得る。ネットワークは、適当な値の範囲を学習する必要がある。このように、入力画像から直接、追跡楕円を記述する楕円の数値が予測される。すなわち、パラメータを直接予測する代わりに、回帰ネットワークはそうではなく、考え得るビニング値の選択肢から最確値を選択する。

[00223]その他のニューラルネットワーク・アーキテクチャは、異なる動作をする。エ
ンコーダ－デコーダ・ニューラルネットワーク・アーキテクチャは、各画素がマウスであるか否かの確率を出力する。ビニング分類ニューラルネットワーク・アーキテクチャは、マウスの位置を表すビンを出力する。各パラメータのクラスは予め決定されており、ネットワーク（エンコーダ－デコーダまたはビニング）は、各クラスの確率を出力しさえすればよい。

[00224]回帰ネットワーク・アーキテクチャは、入力を小さな空間解像度へと抽象化す
る特徴エンコーダで開始となる。上記アーキテクチャとは対照的に、回帰ニューラルネットワーク・トレーニングは、平均平方エラー損失関数とは異なり、交差エントロピー損失関数に依拠する。

[00225]メモリの制約から、特徴次元を減らして、カスタムＶＧＧ様ネットワークのみ
がテストされた。最も良く機能するネットワークは、２つの２Ｄ畳み込みレイヤの後、２Ｄ最大プーリングレイヤで構造化されたものであった。使用されるカーネルは、２Ｄ畳み込みレイヤの場合は３×３、２Ｄ最大プーリングレイヤの場合は２×２の形状である。最初に用いられるフィルタ深度は１６であって、２Ｄ最大プールレイヤごとに２倍される。この２つの畳み込み＋最大プールシーケンスは、５回繰り返されて、１５×１５×２５６の形状を生じる。

[00226]このレイヤは平坦化され、出力ごとに完全接続レイヤに接続される。各出力の
形状は、予測の所望の分解能および範囲によって決定される。一例として、これらの符号化特徴はその後、平坦化され、完全接続レイヤに接続されて、出力形状６を生じたが、これは、楕円への適合を予測するようにネットワークが要求された値の数である。テストを目的として、中心位置のみが観察され、広範な全体画像（０～４８０）でトレーニングされた。角度予測等の付加的な出力は、付加的な出力ベクトルとして容易に追加され得る。多様な現代の特徴エンコーダがテストされたが、このネットワークに対して本明細書に論じられるデータは、このアーキテクチャに対して最も良く機能する結果を実現した２００レイヤのＲｅｓｎｅｔＶ２に由来する（Ｈｅ（２０１６））。

トレーニングデータセット
[00227]ネットワーク・アーキテクチャをテストするため、後述の通り、ＯｐｅｎＣＶ
ベースのラベリングインターフェースを用いて、複数の系統および環境にまたがる１６，２３４個のトレーニング画像および５６８個の別個の検証画像から成るトレーニングデータセットが生成された。このラベリングインターフェースは、前景および背景の高速ラベリングのほか、楕円フィッティングを可能にするものであり、トレーニングデータを直ちに生成して、転移学習により任意のネットワークを新たな実験条件に適応させるのに用いられ得る。

[00228]インタラクティブな分水嶺（ｗａｔｅｒｓｈｅｄ）ベースのセグメンテーショ
ンおよび輪郭（ｃｏｎｔｏｕｒ）ベースの楕円フィッティングを生成するため、ＯｐｅｎＣＶライブラリが採用された。このソフトウェアを用いることによって、ユーザは、図１２Ａに示されるように、左クリックにより前景（たとえば、マウス（Ｆ））として点をマークし、右クリックにより背景（Ｂ）として他の点をラベリングする。キーストロークにより分水嶺アルゴリズムが実行され、図１２Ｂに示されるように、セグメンテーションおよび楕円を予測する。ユーザは、予測されたセグメンテーションおよび楕円を編集する必要がある場合、さらにエリアをラベリングして、分水嶺を再び動作させるだけでよい。

[00229]ニューラルネットワークのユーザ（たとえば、研究者）により選択されたあら
かじめ決められたエラー許容範囲内に予測が含まれる場合、ユーザは、楕円の方向を選択する。ユーザは、４つの基本方向（上、下、左、右）のうちの１つを選択することによって、選択を行う。楕円フィッティングアルゴリズムによって正確な角度が選択されることから、ユーザは、方向の±９０°を識別しさえすればよい。方向が選択されたら、すべての関連するデータが保存され、ユーザには、ラベリングする新たなフレームが提示される。

[00230]ラベル付きデータセットの目的は、マウス用の良好な楕円フィッティング追跡
データを識別することである。データをラベリングする間に、長軸の端部がマウスの鼻に略接触した状態で、楕円の中心がマウスの胴体となるように楕円フィッティングが最適化された。尾部は、より優れた楕円フィッティングを提供するため、セグメンテーションマスクから除去されることが多かった。

[00231]推論用のネットワークをトレーニングするため、３つのラベル付きトレーニン
グセットが生成された。各データセットには、基準フレーム（入力）、セグメンテーションマスク、および楕円フィッティングを含む。トレーニングセットはそれぞれ、異なる環境でマウスを追跡するように生成されたものである。

[00232]第１の環境は、１６，８０２個の注釈付きフレームを含む一定白色背景のオー
プンフィールドであった。最初の１６，０００フレームは、２４個の同一セットアップのうちの１つから取得された６５個の別個のビデオによりラベリングされた。ネットワークの第１のトレーニングの後、ネットワークは、ラベル付きデータに含まれていない特殊状況下において、十分に機能していないことが観察された。アリーナにおける中間跳躍、変則的な姿勢、および排尿の事例は通常、不成功として観察された。これらの不成功は、性能をさらに一般化して向上させるため、識別され、正しくラベリングされ、ラベル付きトレーニングセットに組み込まれた。

[00233]第２の環境は、αドライ（ＡＬＰＨＡ－ｄｒｉ）寝床および餌入れが２つの異
なる照明条件（日中の可視照射および夜間の赤外照射）の下にある標準的なオープンフィールドであった。このデータセットにおいては、４日間で６つのセットアップにまたがって、合計２，１９２フレームがラベル付けされた。注釈付きフレームのうちの９１６個が夜間照射から取得され、注釈付きフレームのうちの１，２７６個が日中照射から取得されたものである。

[00234]最後のラベル付きデータセットは、ＫＯＭＰデータセットに対してＯｐｔｏ－
Ｍ４オープンフィールドケージを用いることにより生成された。このデータセットは、１０８３個のラベル付きフレームを含んでいた。これらのラベルはすべて、異なるビデオ（ビデオごとに１フレームをラベリング）および８つの異なるセットアップにまたがってサンプリングされたものである。

ニューラルネットワーク・トレーニング
ａ）トレーニングデータセットの拡張
[00235]このトレーニングデータセットは、反射を適用することによって、トレーニン
グ中に８倍に拡張され、コントラスト、輝度、回転の小さなランダム変化の適用により、入力データのわずかな変動に対してネットワークを堅牢化させた。この拡張は、ニューラルネットワークによるトレーニングデータセットの記憶を阻止するために実行される。データセットが記憶されると、データセットに含まれない例（検証）に対して十分に機能しなくなる。別途詳細については、Ｋｒｉｚｈｅｖｓｋｙ（２０１２）に見られる。

[00236]トレーニングセットの拡張は、Ａｌｅｘｎｅｔ以来、ニューラルネットワーク
のトレーニングの重要な一側面となっている（Ｋｒｉｚｈｅｖｓｋｙ（２０１２））。良好な正則化性能を実現するため、一握りのトレーニングセット拡張が利用される。データが鳥瞰図に由来することから、同等のトレーニングセットサイズにおいて即座に８倍増やすには、水平、垂直、および斜め反射を適用するのが容易である。また、実行時には、フレーム全体にわずかな回転および平行移動が適用される。回転拡張値は、均一な分布からサンプリングされる。最後に、ノイズ、輝度、およびコントラスト拡張についても、フレームに適用され得る。これらの拡張に用いられるランダム値は、通常の分布から選択される。

ｂ）トレーニングの学習レートおよびバッチサイズ
[00237]トレーニングの学習レートおよびバッチサイズは、ネットワークトレーニング
ごとに独立して選択された。ＲｅｓｎｅｔＶ２２００等の大規模ネットワークは、４８０×４８０の入力サイズにおいてバッチサイズのメモリ制約に陥り得るが、グリッド探
索手法を用いて、良好な学習レートおよびバッチサイズが実験的に識別された。これらのネットワークのトレーニング用に選択されたハイパーパラメータは、上の表３に示される。

モデル
[00238]Ｔｅｎｓｏｒｆｌｏｗｖ１．０において、モデルの構築、トレーニング、お
よびテストが行われた。提示されたトレーニングベンチマークは、ＮＶＩＤＩＡ（登録商標）Ｔｅｓｌａ（登録商標）Ｐ１００ＧＰＵアーキテクチャ上で実行された。

[00239]ハイパーパラメータは、複数回のトレーニング反復を通じてトレーニングされ
た。ネットワークの第１のトレーニングの後、ネットワークは、トレーニングデータにおいて過小評価された特殊状況下において、十分に機能していないことが観察された。アリーナにおける中間跳躍、変則的な姿勢、および排尿の事例は通常、不成功として観察された。これらの困難なフレームは、性能をさらに向上させるため、識別され、トレーニングデータセットに組み込まれた。最終モデルの定義の完全記述およびトレーニングハイパーパラメータがすべて、上の表３に記載される。

[00240]３つの全ネットワークにより示されるトレーニングおよび検証の損失曲線プロ
ットがそれぞれ、図１３Ａ～図１３Ｅに示される。全体として、トレーニングおよび検証損失曲線は、３つの全ネットワークが１～２画素の平均エラーの性能となるようにトレーニングされていることを示す。予想外にも、ビニング分類ネットワークは、不安定な損失曲線を表しており、検証時のオーバフィッティングおよび不十分な一般化を示している（図１３Ｂ、図１３Ｅ）。回帰アーキテクチャは、１．２画素の検証エラーへと収束したが、これは、検証よりも優れたトレーニング性能を示している（図１３Ａ、図１３Ｂ、図１３Ｄ）。ただし、最良の結果を与える特徴抽出器であるＲｅｓｎｅｔＶ２２００は、２００レイヤおよび６２７０万パラメータを超える大規模な深層ネットワークであり、１フレーム当たりの処理時間が実質的に長くなる（３３．６ｍｓ）。他の予備構築汎用ネットワーク（Ｚｏｐｈ（２０１７））は、短い演算時間と引き換えに、同様以下の性能しか実現できない。このように、回帰ネットワークは、正確ながら演算コストの高いソリューションである。

[00241]図１３Ａ、図１３Ｂ、図１３Ｃにさらに示されるように、エンコーダ－デコー
ダ・セグメンテーション・アーキテクチャは、０．９画素の検証エラーへと収束した。セグメンテーション・アーキテクチャが十分に機能するのみならず、５～６ｍｓ／フレームの平均処理時間でＧＰＵ演算の演算効率が良い。ビデオデータは、サーバレベルのＧＰＵであるＮｖｉｄｉａ（登録商標）Ｔｅｓｌａ（登録商標）Ｐ１００上において最大２００ｆｐｓ（実時間の６倍）で処理可能であり、民生レベルのＧＰＵであるＮｖｉｄｉａ（登録商標）ＴｉｔａｎＸｐ上において１２５ｆｐｓ（実時間の４．２倍）で処理可能であった。この高い処理速度は、構造の深度が１８レイヤに過ぎず、パラメータが１０６０万個に過ぎないためと考えられる。

[00242]エンコーダ－デコーダ・セグメンテーション・ネットワーク・アーキテクチャ
の良好なネットワーク性能に対して必要なラベル付きトレーニングデータの相対スケールを識別するため、トレーニングセットサイズのベンチマークも行われた。このベンチマークは、トレーニングセットの部分集合（たとえば、１０，０００、５，０００、２，５００、１，０００、および５００）のシャッフルおよびランダムサンプリングによってテストされた。サブサンプリングされた各トレーニングセットは、トレーニングされるとともに同一の検証セットと比較された。このベンチマークの結果が図１４Ａ～図１４Ｈに示される。

[00243]一般的に、トレーニング曲線は、区別不可能に見える（図１４Ａ）。すなわち
、トレーニングセットサイズは、トレーニングセットのエラー率に関して性能変化を何ら示さない（図１４Ａ）。驚くべきことに、検証性能が２，５００個超のトレーニングサンプルで同じ値に収束する一方、エラーは、１，０００個未満のトレーニングサンプルで増加している（図１４Ｂ）。さらに図示されるように、２，５００個超のトレーニングサンプルでは、検証精度がトレーニング精度より優れる（図１４Ｃ～図１４Ｆ）一方、１，０００個でトレーニング精度と一致してからは、弱い一般化の兆候を示し始めている（図１４Ｇ）。発散および増大する検証エラー率により示されるように、トレーニングサンプルを５００個しか使わないのは明らかに過学習である（図１４Ｈ）。これは、トレーニングセットがもはや、ネットワークが十分に一般化し得るのに十分な大きさではないことを示唆する。このため、良好な結果が得られるのは、２，５００個のラベル付き画像のみでトレーニングされたネットワークからであり、当該ラベリングインターフェースでの生成には約３時間を要する。したがって、トレーニングサンプルの厳密な数が結局は視覚的問題の困難さに依拠することになる一方、推奨開始点のトレーニングサンプル数は、２，５００個前後となる。

[00244]開示の実施形態に従って追跡されるマウスを示した例示的なビデオフレームは
、可視光下の場合は図１５Ａおよび図１５Ｂに示され、赤外光下の場合は図１５Ｃおよび図１５Ｄに示される。図示のように、個々のマウスの空間的範囲は、画素単位で色分けされている。

[00245]演算効率、精度、トレーニングの安定性、および少数の所要トレーニングデー
タを所与として、エンコーダ－デコーダ・セグメンテーション・アーキテクチャは、他の手法との比較のため、ビデオ全体のマウスの位置の予測用に選択されたものである。

[00246]異なる毛色およびデータ収集環境（図８Ａ）でマウスからビデオ全体を推論す
るとともに、追跡の品質を視覚的に評価することによって、ニューラルネットワークベースの追跡の品質が評価された。また、ニューラルネットワークベースの追跡は、独立した追跡様式であるＫＯＭＰ２ビームブレークシステムとも比較された（図８Ａ、６列目）。

実験アリーナ
ａ）オープンフィールドアリーナ
[00247]アリーナ２００の一実施形態がオープンフィールドアリーナとして採用された
。オープンフィールドアリーナは、５２ｃｍ×５２ｃｍである。床は白色のＰＶＣプラスチックであり、壁は灰色のＰＶＣプラスチックである。清掃保守に役立つように、白色２．５４ｃｍの面がすべての内側縁部に追加された。ＬＥＤ照明リング（モデルＦ＆ＶＲ３００）によって照射が与えられる。照明リングは、各アリーナに６００ｌｕｘの光を生じるように校正された。

ｂ）２４時間モニタリングのオープンフィールドアリーナ
[00248]オープンフィールドアリーナは、数日間のテスト用に拡張された。照明２１２
は、標準的な１２：１２ＬＤサイクルに設定された天井ＬＥＤ照明の形態である。αドライが寝床としてアリーナに配置された。餌および水を提供するため、単一のＤｉｅｔＧｅｌ７６Ａ餌入れがアリーナに配置された。この栄養源はモニタリングされ、無くなった場合に交換された。各マトリクスは、日中は２５０ｌｕｘで照射され、夜間はおよそ５００ｌｕｘ未満で照射された。夜間のビデオ記録のため、照明２１２は、ＩＲＬＥＤ（９４０ｎｍ）照明を含むものとした。

ｃ）ＫＯＭＰオープンフィールドアリーナ
[00249]カスタムアリーナのほか、開示のシステムおよび方法の実施形態は、市販のシ
ステムに対してもベンチマークが行われた。透明なプラスチック壁を用いることにより、Ｏｐｔｏ－Ｍ４オープンフィールドケージが構成される。このため、結果としての反射により、視覚的追跡は非常に困難である。ケージは、４２ｃｍ×４２ｃｍである。このアリーナの照明は、１００～２００ｌｕｘのＬＥＤ照射によって行われるものとした。

ビデオ取得
[00250]すべてのビデオデータは、図２および図７に関して論じられたビデオ取得シス
テムの一実施形態により取得された。ビデオデータは、Ｓｅｎｔｅｃｈカメラ（モデルＳＴＣ－ＭＢ３３ＵＳＢ）およびコンピュータレンズ（モデルＴ３Ｚ２９１０ＣＳ－ＩＲ）の形態のカメラ２１０を用いて、６４０×４８０画素の解像度、８ビットのモノクロ深度、およびおよそ２９ｆｐｓ（たとえば、およそ２９．９ｆｐｓ）で取得された。露光時間および利得は、１９０／２５５の目標輝度を用いてデジタル的に制御された。絞りは、目標輝度の実現のために低いアナログ利得が用いられるように、最も広くなるように調整された。これにより、基準ノイズの増幅が抑えられる。ファイルは、「生ビデオ」コーデックおよび「ｐａｌ８」画素フォーマットを用いてローカルのハードドライブに仮保存された。アッセイは、約２時間にわたって動作し、約５０ＧＢの生ビデオファイルを生成した。４８０×４８０画素クロップのノイズ除去フィルタを適用するとともに、約６００ＭＢの圧縮ビデオサイズを生成するＭＰＥＧ４コーデック（品質は最大に設定）を用いて圧縮を行うため、ｆｆｍｐｅｇソフトウェアが夜通し使用された。

[00251]射影歪みを緩和するため、棚部２０２ｂの約１００ｃｍ上方でフレーム２０２
にカメラ２１０が取り付けられた。ズームおよびフォーカスは、８画素／ｃｍのズームを実現するように手動で設定された。この解像度は、アリーナ境界上の未使用画素を最小限に抑えるとともに、１匹のマウス当たり約８００画素のエリアを生成する。ＫＯＭＰアリーナはわずかに小さいものの、同じ８画素／ｃｍの目標ズームが利用された。

[00252]エンコーダ－デコーダ・セグメンテーション・ニューラルネットワークを用い
ることにより、ＫＯＭＰ２データセットから２００２個のビデオ（合計７００時間）が追跡され、その結果が図８に示される。これらのデータは、２０分のオープンフィールドアッセイでテストされた２３２本のノックアウトラインをＣ５７ＢＬ／６ＮＪ背景に含んでいた。透明マトリクスのために各ＫＯＭＰ２アリーナがわずかに異なる背景を有することから、追跡性能は、８つのテストチャンバそれぞれ（平均してｎ＝２５０（図１６））およびすべての組み合わせボックスに対して比較された。ＫＯＭＰ２が使用した８つの全テストチャンバにわたって、２つの手法間では、オープンフィールド内の総移動距離間に非常に高い相関が観察された（Ｒ＝９６．９％）。この傾向（赤色矢印）から、２匹の動物が高い不一致で観察された。ビデオの観察結果は、両方の動物に存在する変則的な姿勢を示しており、一歩がよたよた歩行、他方が猫背の姿勢であった。よたよた歩行および猫背の歩行は、異常なビームブレークとなって、ビームブレークシステムからの異常に高い総移動距離測度を生じると考えられる。本例は、動物の姿勢の影響を受けないニューラルネットワークの利点のうちの１つを強調している。

[00253]トレーニングされたセグメンテーション・ニューラルネットワークの性能につ
いても、さまざまなテスト環境からの広範なビデオおよび図８Ａに関して上述した毛色全体にわたって、Ｃｔｒａｘと比較された。Ｃｔｒａｘとの比較は、多くの理由が動機となっている。一側面において、Ｃｔｒａｘは、多くの追跡設定の微調節を可能にする従来最良の追跡器のうちの１つと考えられる。また、Ｃｔｒａｘはオープンソースであり、ユーザサポートを提供する。ＢＧＳライブラリによる結果（図８Ｂ）を所与として、他の追跡器には、同様以下の性能が予想される。トレーニングされたセグメンテーション・ニューラルネットワークおよびＣｔｒａｘの両者にて、１グループ当たり１２匹の動物が追跡された。Ｃｔｒａｘの設定は、後述の通り、７２個のビデオごとに微調節された。

[00254]Ｃｔｒａｘは、追跡能力を最適化するための多様な設定を含む（Ｂｒａｎｓｏ
ｎ（２００９））。このソフトウェアの作者は、良好な追跡を保証するためアリーナが特定の基準下でセットアップされるように強く推奨している。本明細書において論じられるテストのほとんど（たとえば、白色背景上のアルビノマウス）で、Ｃｔｒａｘが十分に機能するように設計されていない環境が採用される。それにも関わらず、パラメータが十分に調節されることで、良好な性能が依然として実現可能である。操作のための多くの設定により、Ｃｔｒａｘは、良好な追跡性能を実現するために時間コストが容易に高くなり得る。開示の環境においてマウスを追跡するためのＣｔｒａｘのセットアップ手順は、以下の通りである。

[00255]第１の動作においては、背景モデルが生成される。Ｃｔｒａｘの核心は、背景
減算に基づくため、堅牢な背景モデルを有することが機能上必須である。マウスが移動する場合はモデルが最適に機能する。背景モデルを生成するため、マウスが明らかに移動しているビデオの部分が探索され、当該部分からフレームがサンプリングされる。これにより、背景モデルにマウスが含まれなくなる。この手法は、２４時間データに対するＣｔｒａｘの追跡性能をかなり改善する。マウスはあまり移動しないため、通常は、背景モデルに組み込まれるためである。

[00256]第２の動作は、背景減算の設定を行うことである。ここで、標準範囲が２５４
．９～２５５．０の背景輝度正規化法が用いられる。マウスを分離するために適用される閾値は、予備ビデオに基づいて調節される。露光および毛色のわずかな変化が性能に影響を及ぼすためである。これらの閾値を調節するため、一組の良好な開始値が適用されるとともに、大略良好な性能を保証するためにビデオが精査される。特定の実施形態においては、壁を背にするマウスの事例に対して、すべてのビデオが確認され得る。これらが通常、陰影のために追跡が最も難しいフレームだからである。また、環境の希薄な変化を除去するほか、楕円フィッティング用にマウスの尾部を除去するため、形態学的フィルタリングが適用され得る。開口半径として４、閉塞半径として５が採用された。

[00257]別の動作においては、観察結果が事実上マウスとなるように、Ｃｔｒａｘで可
能な種々追跡パラメータが手動で調整される。時間を考慮して、これらのパラメータは、他のすべての追跡マウスに使用される際およびその後に十分調節された。ビデオの機能が目に見えて不十分な場合は、性能を向上させるため、一般設定が微調整された。形状パラメータについては、個々の黒色マウスのビデオから、２つの標準偏差に基づく範囲が決定された。特定のマウスがセグメンテーションステップで十分に機能しなくなることが予想されたため、最小値がさらに下げられた。これにより、Ｃｔｒａｘは依然として、マウス全体のセグメント化が不可能であるにも関わらず、マウスの良好な位置を見出すことができる。この手法は、すべてのセットアップが同じズーム８を有し、テストされるマウスが大略同じ形状であることから、十分に機能する。実験セットアップでは、アリーナのマウスを１匹しか追跡しないため、動き設定は非常に緩やかである。観察パラメータの下、大規模な検出を取り除く「最小面積無視（ＭｉｎＡｒｅａＩｇｎｏｒｅ）」が主として利用される。ここでは、２，５００より大きな検出が取り除かれる。後知恵タブの下では、５００フレーム長よりも短い検出を除去するため、「固定不要検出（ＦｉｘＳｐｕｒｉｏｕｓＤｅｔｅｃｔｉｏｎｓ）」設定が用いられる。

[00258]Ｃｔｒａｘが有効な背景モデルを生成できないことから、動物が長時間連続し
て眠る２４時間装置からのビデオは、手動で比較から省略された。Ｃｔｒａｘとニューラルネットワークとの間の総移動距離の累積相対エラーが計算され、（図１７Ａ）に示される。ビデオの毎分に、ニューラルネットワークおよびＣｔｒａｘの両者からの移動距離予測が比較される。この測定基準は、各マウスの重心追跡の精度を測定する。黒色、灰色、
およびまだら模様のマウスの追跡は、４％未満のエラーを示していた。ただし、有意に高レベルのエラーがアルビノ（１４％）、２４時間アリーナ（２７％（橙色））、およびＫＯＭＰ２（１０％（青色））には見られた（図１７Ａ）。このため、ニューラルネットワーク追跡器がなければ、アルビノ追跡、ＫＯＭＰ２、または２４時間のデータは適切に追跡され得なかった。

[00259]また、陰影が予測に含まれる場合等、前景セグメンテーション予測が正しくな
い場合は、楕円フィッティングがマウスの姿勢を正しく表さないことも観察された。これらの場合は、重心追跡が可能であったとしても、楕円フィッティング自体が高変動であった。

[00260]ＪＡＡＢＡ（Ｋａｂｒａ（２０１３））等、行動認識のための現代の機械学習
ソフトウェアは、行動の分類にこれらの特徴を利用する。楕円追跡における分散は、短軸の相対標準偏差によって量子化され、図１７Ｂに示される。この測定基準は、すべての実験用マウスにわたって最小分散を示す。個々のマウスの幅は、追跡が正確な場合の行動アッセイにおいて表される広範な姿勢を通じて変わらず類似するためである。総移動距離のエラー累積相対エラーが小さくても（図１７Ｂ）、灰色およびまだら模様のマウスでは、高い追跡分散が観察された（図１７Ａ）。予想通り、アルビノおよびＫＯＭＰ２の追跡の場合は、短軸に関して、高い相対標準偏差が観察される。このため、重心追跡および楕円フィッティングの分散の両者について、ニューラルネットワーク追跡器が従来の追跡器よりも優れていることが分かる。

[00261]エンコーダ－デコーダ・セグメンテーション・ニューラルネットワークを高精
度追跡器として構築したため、その性能が２つの大きな行動データセットによってさらにテストされた。種々すべての色、まだら模様、ヌード、および肥満のマウスを含む５８系統のマウスにわたって、１８４５匹のマウスでオープンフィールドのビデオデータが生成された（１６９１時間）。このデータセットには、４７の近交マウス系統および１１のＦ１同質遺伝子マウス系統を含んでおり、Ｂｏｇｕｅ（２０１８）のＭｏｕｓｅＰｈｅｎｏｍｅＤａｔａｂａｓｅに従って生成された最も大きなオープンフィールドデータセットである。

[00262]総移動距離に関する追跡結果が図１８Ａに示される。各点は系統中の個体を示
し、ボックスは平均±標準偏差を示す。ユーザ調節を行っていない単一のトレーニング済みネットワークを用いて、すべてのマウスが高精度に追跡された。過半数の系統のマウスは、追跡の忠実度が視覚的に確認され、優れた性能が観察された。観察された運動表現型は、マウスのオープンフィールド行動の公開済みデータセットと一致する。

[00263]４匹のＣ５７ＢＬ／６Ｊマウスおよび２匹のＢＴＢＲＴ^＋ｌｔｐｒ３^ｔｆ
／Ｊマウスについて収集された２４時間ビデオデータを追跡するため、同じニューラルネットワークが採用された（図８Ａの５列目）。これらのマウスは、数日間にわたって寝床、餌および水入れとともに収容され、その間、餌の位置を変え、照明は１２：１２の明暗条件とした。可視光源および赤外光源を用いてビデオデータが記録された。これらの条件下で同じネットワークを用いて、すべての動物の運動が追跡され、明暗条件下で非常に優れた性能が観察された。

[00264]結果が図１８Ｂに示されるが、８つの明点および暗点がそれぞれ、明条件およ
び暗条件を表す。予想通り、暗期に高レベルの自発運動を伴う運動リズム（曲線）が観察された。

[00265]要約すれば、複雑な環境における動物のビデオベースの追跡は、動物行動の分
野における積年の課題であった（Ｅｇｎｏｒ（２０１６））。現在最先端のシステムでは、動物セグメンテーションの基本的な問題に対処しておらず、正確な追跡のため、前景と背景との視覚的コントラストに多くを依拠している。その結果、ユーザは、最適な結果を実現するために環境を制限する必要がある。

[00266]本明細書においては、複雑かつ動的な環境において機能し得る現代のニューラ
ルネットワークベースの追跡器および対応する使用方法が記載される。トレーニング可能なニューラルネットワークの使用によって、追跡における基本的な問題（前景および背景のセグメンテーション）は対処される。３つの異なるアーキテクチャのテストから、エンコーダ－デコーダ・セグメンテーション・ネットワークが高レベルの精度を実現し、高速（実時間の６倍超）で機能することが分かった。

[00267]ユーザがわずか２，５００個の画像にラベリングすることにより（約３時間を
要する）、特定の環境について新たなネットワークをトレーニング可能なラベリングインターフェースがさらに提供される。

[00268]開示のトレーニング済みニューラルネットワークは、２つの既存のソリューシ
ョンと比較され、複雑な環境においてこれらよりも非常に優れていることが分かった。背景減算手法を利用する任意の市販システムについても、同様の結果が予想される。実際、２６個の異なる背景減算方法をテストした場合は、それぞれが特定の状況下で不成功になることが観察された。ただし、１つのニューラルネットワーク・アーキテクチャだけ、微調節の必要性もユーザ入力の必要性もなく、複数の環境下ですべての毛色のマウスに対して機能し得る。この機械学習手法は、最小限のユーザ入力によって、動的な環境条件下での長期追跡を可能とするため、行動研究のための次世代の追跡アーキテクチャの基礎を構成する。

[00269]本明細書に記載の制御システムの１つまたは複数の態様または特徴は、デジタ
ル電子回路、集積回路、特殊設計の特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはこれらの組み合わせにて実現され得る。これらの種々態様または特徴には、専用または汎用で、ストレージシステム、少なくとも１つの入力装置、および少なくとも１つの出力装置に対するデータおよび命令の受信ならびにデータおよび命令の送信を行うように結合され得る少なくとも１つのプログラム可能なプロセッサを含むプログラム可能なシステム上で実行および／または解釈可能な１つまたは複数のコンピュータプログラムにおける実装を含み得る。プログラム可能なシステムまたはコンピュータシステムとしては、クライアントおよびサーバが挙げられる。クライアントおよびサーバは一般的に、互いに遠隔であって、通常は、通信ネットワークを通じて相互作用する。クライアントおよびサーバの関係は、各コンピュータ上で動作し、クライアント－サーバ関係を互いに有するコンピュータプログラムによって生じる。

[00270]プログラム、ソフトウェア、ソフトウェアアプリケーション、アプリケーショ
ン、コンポーネント、またはコードとも称され得るコンピュータプログラムには、プログラム可能なプロセッサの機械命令を含み、高水準手続き型言語、オブジェクト指向プログラミング言語、関数型プログラミング言語、論理型プログラミング言語、および／またはアセンブリ／機械語にて実装され得る。本明細書において、用語「機械可読媒体（ｍａｃｈｉｎｅ－ｒｅａｄａｂｌｅｍｅｄｉｕｍ）」は、たとえばプログラム可能なプロセッサに機械命令および／またはデータを提供するのに用いられる磁気ディスク、光ディスク、メモリ、およびプログラム可能論理素子（ＰＬＤ）等（機械命令を機械可読信号として受信する機械可読媒体を含む）、任意のコンピュータプログラム製品、装置、および／またはデバイスを表す。用語「機械可読信号（ｍａｃｈｉｎｅ－ｒｅａｄａｂｌｅｓｉｇ
ｎａｌ）」は、プログラム可能なプロセッサに機械命令および／またはデータを提供するのに用いられる任意の信号を表す。機械可読媒体は、たとえば非過渡的固体メモリ、磁気ハードドライブ、または任意同等の記憶媒体等のように、上記のような機械命令を持続的に格納し得る。この代替または追加として、機械可読媒体は、たとえばプロセッサキャッシュまたは１つもしくは複数の物理的プロセッサコアと関連付けられた他のランダムアクセスメモリ等のように、上記のような機械命令を持続的に格納し得る。

[00271]ユーザとの相互作用を可能にするため、たとえば情報をユーザに表示する陰極
線管（ＣＲＴ）、液晶ディスプレイ（ＬＣＤ）、もしくは発光ダイオード（ＬＥＤ）モニタ等の表示装置ならびにユーザが入力をコンピュータに与え得るキーボードおよびポインティングデバイス（たとえば、マウス、トラックボール等）を有するコンピュータ上において、本明細書に記載の主題の１つまたは複数の態様または特徴が実装され得る。ユーザとの相互作用を可能にする他の種類のデバイスも同様に使用され得る。たとえば、視覚的フィードバック、聴覚的フィードバック、または触覚的フィードバック等、ユーザに与えられるフィードバックとしては、任意の形態の感覚的フィードバックが可能であり、また、ユーザからの入力は、任意の形態で受け付けられ、音響、発話、または触覚入力が挙げられるが、これらに限定されない。他の考え得る入力装置としては、タッチスクリーンまたは単点もしくは多点抵抗性もしくは容量性トラックパッド等の他のタッチセンサー式デバイス、音声認識ハードウェアおよびソフトウェア、光学スキャナ、光学ポインタ、デジタル画像捕捉装置および関連する解釈ソフトウェア等が挙げられるが、これらに限定されない。

[00272]本願の全体を通して引用されるすべての参考文献（たとえば、発行もしくは登
録特許または同等物、特許出願公開、および非特許文献または他の原資料）は、各参考文献が本願の開示内容と少なくとも部分的に矛盾しない範囲において、参照により個々に組み込まれているかのように、そのすべての内容が参照により本明細書に組み込まれる。たとえば、一部が矛盾する参考文献は、その一部矛盾する部分を除いて、参照により組み込まれる。

[00273]本明細書において、マーカッシュ群または他の群が用いられる場合は、当該群
のすべての個別要素ならびに当該群に可能なすべての組み合わせおよび副組み合わせが開示内容に個々に含まれることが意図される。

[00274]本明細書において、単数形「１つの（ａ）」、「１つの（ａｎ）」、および「
その（ｔｈｅ）」は、文脈上の別段の明確な指示のない限り、複数の意味を含む。このため、たとえば「細胞（ａｃｅｌｌ）」という表現には、当業者が既知の複数の当該細胞およびその同等物を含み、その他の場合も同様である。また、用語「１つの（ａ）」（または、「１つの（ａｎ）」）、「１つまたは複数（ｏｎｅｏｒｍｏｒｅ）」、および「少なくとも１つ（ａｔｌｅａｓｔｏｎｅ）」は、本明細書において区別なく使用され得る。

[00275]本明細書において、用語「備える（ｃｏｍｐｒｉｓｉｎｇ）」は、「具備する
（ｉｎｃｌｕｄｉｎｇ）」、「有する（ｈａｖｉｎｇ）」、「含む（ｃｏｎｔａｉｎｉｎｇ）」、および「～を特徴とする（ｃｈａｒａｃｔｅｒｉｚｅｄｂｙ）」と同義であり、それぞれ区別なく使用され得る。これらの用語はそれぞれ、さらに包括的またはオープンエンドであり、列挙されていない付加的な要素も方法ステップも除外しない。

[00276]本明細書において、用語「～から成る（ｃｏｎｓｉｓｔｉｎｇｏｆ）」は、
特許請求の要素において指定されない如何なる要素、ステップ、または成分をも除外する。

[00277]本明細書において、用語「本質的に～から成る（ｃｏｎｓｉｓｔｉｎｇｅｓ
ｓｅｎｔｉａｌｌｙｏｆ）」は、特許請求の範囲の基本的かつ新規な特性に実質的な影響を及ぼさない要素もステップも除外しない。本明細書において如何なる場合にも、用語「備える（ｃｏｍｐｒｉｓｉｎｇ）」、「本質的に～から成る（ｃｏｎｓｉｓｔｉｎｇｅｓｓｅｎｔｉａｌｌｙｏｆ）」、および「～から成る（ｃｏｎｓｉｓｔｉｎｇｏｆ）」はいずれも、その他２つの用語のいずれかにより置き換え得る。

[00278]本明細書において例示的に記載された実施形態は、本明細書に具体的に開示さ
れていない１つまたは複数の要素、１つまたは複数の限定が一切ない状態で好適に実現され得る。

[00279]表現「請求項ＸＸ～ＹＹのいずれか一項に記載の（ｏｆａｎｙｏｆｃｌ
ａｉｍｓＸＸ－ＹＹ）」（ＸＸおよびＹＹは、請求項番号を表す）は、代替形態の多項従属請求項を提供するように意図され、いくつかの実施形態においては、表現「ａｓｉｎａｎｙｏｎｅｏｆｃｌａｉｍｓＸＸ－ＹＹ」と区別なく使用され得る。

[00280]別段の定めのない限り、本明細書において使用されるすべての技術用語および
科学用語は、開示の実施形態が属する技術分野の当業者が通常理解するのと同じ意味を有する。

[00281]本明細書において、たとえば温度範囲、時間範囲、組成範囲、または濃度範囲
等の範囲が与えられている場合はいつでも、すべての中間範囲および副範囲のほか、与えられた範囲に含まれるすべての個別値が本開示に含まれることが意図される。本明細書において、範囲は具体的に、当該範囲の終点値として提供される値を含む。たとえば、１～１００という範囲は具体的に、１および１００という終点値を含む。本明細書の記述に含まれる如何なる副範囲も、範囲または副範囲内の個々の値も、特許請求の範囲からは除外され得ることが了解される。

[00282]上述および特許請求の範囲において、「～のうちの少なくとも１つ（ａｔｌ
ｅａｓｔｏｎｅｏｆ）」または「～のうちの１つまたは複数（ｏｎｅｏｒｍｏｒｅｏｆ）」等の表現は、要素または特徴の接続リストを後ろに伴って現れ得る。また、用語「および／または（ａｎｄ／ｏｒ）」は、２つ以上の要素または特徴のリストとして現れ得る。使用文脈上の別段の暗示的または明示的な矛盾のない限り、このような表現は、リストの要素もしくは特徴のいずれかを個々に意味すること、または、列挙要素もしくは特徴のいずれかとその他の列挙要素もしくは特徴のいずれかとの組み合わせを意味することが意図される。たとえば、表現「ＡおよびＢのうちの少なくとも１つ（ａｔｌｅａｓｔｏｎｅｏｆＡａｎｄＢ）」、「ＡおよびＢのうちの１つまたは複数（ｏｎｅｏｒｍｏｒｅｏｆＡａｎｄＢ）」、および「Ａおよび／またはＢ（Ａａｎｄ／ｏｒＢ）」はそれぞれ、「Ａ単独、Ｂ単独、またはＡおよびＢの組み合わせ」を意味することが意図される。３つ以上の項目を含むリストに対しても、同様の解釈が意図される。たとえば、表現「Ａ、Ｂ、およびＣのうちの少なくとも１つ（ａｔｌｅａｓｔ
ｏｎｅｏｆＡ，Ｂ，ａｎｄＣ）」、「Ａ、Ｂ、およびＣのうちの１つまたは複数（ｏｎｅｏｒｍｏｒｅｏｆＡ，Ｂ，ａｎｄＣ）」、および「Ａ、Ｂ、および／またはＣ（Ａ，Ｂ，ａｎｄ／ｏｒＣ）」はそれぞれ、「Ａ単独、Ｂ単独、Ｃ単独、ＡおよびＢの組み合わせ、ＡおよびＣの組み合わせ、ＢおよびＣの組み合わせ、またはＡ、Ｂ、およびＣの組み合わせ」を意味することが意図される。また、上記および特許請求の範囲において、用語「～に基づく（ｂａｓｅｄｏｎ）」の使用は、列挙されていな特徴または要素も許容され得るように、「少なくとも部分的に～に基づく（ｂａｓｅｄａｔｌｅａｓｔｉｎｐａｒｔｏｎ）」を意味することが意図される。

[00283]本明細書において採用された用語および表現は、説明の用語として使用され、
何ら限定的なものではなく、また、このような用語および表現の使用には、図示および記載の特徴またはその一部の如何なる同等物の除外の意図もなく、一方、特許請求の実施形態の範囲内で種々改良が可能であるものと認識される。このため、本願には、好適な実施形態、例示的な実施形態、および任意選択的な特徴の記述を含み得るものの、本明細書に開示の概念の改良および変形が当業者により講じられ得ることが了解されるものとする。このような改良および変形は、添付の特許請求の範囲により規定される通り、開示の実施形態の範囲内と考えられる。本明細書に記載の具体的な実施形態は、本開示の有用な実施形態の例であり、当業者には当然のことながら、本明細書に記載のデバイス、デバイス構成要素、および方法ステップの多くの変形を用いて実行され得る。当業者には明らかなこととして、方法および本方法に有用なデバイスには、多くの任意選択的な構成、処理要素、およびステップを含み得る。

[00284]本開示の実施形態は、その主旨からも本質的特性からも逸脱することなく、他
の具体的形態にて具現化され得る。したがって、上記実施形態は、あらゆる点において、本明細書に記載の主題を制限するものではなく、例示と考えられるべきである。

参考文献
[00285]以下に掲載される参考文献はそれぞれ、そのすべての内容が参照により本明細
書に組み込まれる。

Claims

動物追跡の方法であって、
プロセッサにより、動物の観察を表すビデオデータを受信するステップと、
前記プロセッサにより、
前記ビデオデータから抽出された入力ビデオフレームを受信すること、
前記入力ビデオフレームに基づいて、少なくとも１匹の動物の楕円記述を生成すること、前記楕円記述はあらかじめ決められた楕円パラメータにより規定される、および
前記少なくとも１匹の動物について、前記あらかじめ決められた楕円パラメータを特徴付ける値を含むデータを提供すること、
を行うように構成されたニューラルネットワーク・アーキテクチャを実行するステップと、
を含む、方法。
前記楕円パラメータが、平面内の前記動物の位置、前記動物の長軸の長さおよび短軸の長さ、ならびに前記動物の頭部が向いている角度であって、前記長軸の方向に対して規定される角度、を表す座標である、請求項１に記載の方法。
前記ニューラルネットワーク・アーキテクチャが、
入力ビデオフレームから、前景－背景セグメント化画像を予測すること、
画素の観点で、前記セグメント化画像に基づいて、動物が前記入力ビデオフレーム中に存在するかを予測すること、
前記画素の観点での予測に基づいて、セグメンテーションマスクを出力すること、および
前記動物が存在すると予測された前記セグメンテーションマスクの部分を楕円に適合させて、前記あらかじめ決められた楕円パラメータを特徴付ける値を決定すること、
を行うように構成されたエンコーダ－デコーダ・セグメンテーション・ネットワークである、請求項１に記載の方法。
前記エンコーダ－デコーダ・セグメンテーション・ネットワークが、
前記入力ビデオフレームを一組の小さな空間解像度の特徴へと抽象化するように構成された特徴エンコーダと、
前記一組の特徴を前記入力ビデオフレームと同じ形状へと変換し、前記前景－背景セグメント化画像を出力するように構成された特徴デコーダと、
前記動物の頭部が向いている角度を予測するように構成された角度予測器と、
を備えた、請求項３に記載の方法。
前記ニューラルネットワーク・アーキテクチャが、前記楕円記述の各楕円パラメータの最確値のヒートマップを予測するように構成されたビニング分類ネットワークを備えた、請求項１に記載の方法。
前記ビニング分類ネットワークが、前記入力ビデオフレームを小さな空間解像度へと抽象化するように構成された特徴エンコーダを備え、前記抽象化が、前記ヒートマップを生成させるために利用される、請求項５に記載の方法。
前記ニューラルネットワーク・アーキテクチャが、入力ビデオフレームから特徴を抽出し、前記楕円パラメータそれぞれを特徴付ける値を直接予測するように構成された回帰ネットワークを備えた、請求項１に記載の方法。
前記動物が、齧歯動物である、請求項１に記載の方法。
動物追跡のシステムであって、
動物の観察を表すビデオデータを維持するデータ記憶装置と、
前記データ記憶装置からビデオデータを受信すること、およびニューラルネットワーク・アーキテクチャを実装することを行うように構成されたプロセッサとを備え、前記ニューラルネットワーク・アーキテクチャが、
前記ビデオデータから抽出された入力ビデオフレームを受信すること、
前記ビデオフレームに基づいて、少なくとも１匹の動物の楕円記述を生成すること、前記楕円記述はあらかじめ決められた楕円パラメータにより規定される、および
前記少なくとも１匹の動物について、前記あらかじめ決められた楕円パラメータを特徴付ける値を含むデータを提供すること、
を行うように構成された、システム。
前記楕円パラメータが、平面内の前記動物の位置、前記動物の長軸の長さおよび短軸の長さ、ならびに前記動物の頭部が向いている角度であって、前記長軸の方向に対して規定される角度、を表す座標である、請求項９に記載のシステム。
前記ニューラルネットワーク・アーキテクチャが、
入力ビデオフレームから、前景－背景セグメント化画像を予測すること、
画素の観点で、前記セグメント化画像に基づいて、動物が前記入力ビデオフレーム中に存在するかを予測すること、
前記画素の観点での予測に基づいて、セグメンテーションマスクを出力すること、および
前記動物が存在すると予測された前記セグメンテーションマスクの部分を楕円に適合させて、前記あらかじめ決められた楕円パラメータを特徴付ける値を決定すること、
を行うように構成されたエンコーダ－デコーダ・セグメンテーション・ネットワークである、請求項９に記載のシステム。
前記エンコーダ－デコーダ・セグメンテーション・ネットワークが、
前記入力ビデオフレームを一組の小さな空間解像度の特徴へと抽象化するように構成された特徴エンコーダと、
前記一組の特徴を前記入力ビデオフレームと同じ形状へと変換し、前記前景－背景セグメント化画像を出力するように構成された特徴デコーダと、
前記動物の頭部が向いている角度を予測するように構成された角度予測器と、
を備えた、請求項１１に記載のシステム。
前記ニューラルネットワーク・アーキテクチャが、前記楕円記述の各楕円パラメータの最確値のヒートマップを予測するように構成されたビニング分類ネットワークを備えた、請求項９に記載のシステム。
前記ビニング分類ネットワークが、前記入力ビデオフレームを小さな空間解像度へと抽象化するように構成された特徴エンコーダを備え、前記抽象化が、前記ヒートマップを生成させるために利用される、請求項１３に記載のシステム。
前記ニューラルネットワーク・アーキテクチャが、入力ビデオフレームから特徴を抽出し、前記楕円パラメータそれぞれを特徴付ける値を直接予測するように構成された回帰ネットワークを備えた、請求項９に記載のシステム。
前記動物が、齧歯動物である、請求項９に記載のシステム。
命令を格納した非一時的コンピュータプログラム製品であって、前記命令は、少なくとも１つのコンピューティングシステムの少なくとも１つのデータプロセッサにより実行されたときに、
動物の観察を表すビデオデータを受信するステップと、
ニューラルネットワーク・アーキテクチャを実行するステップと、
を含む方法を実行し、前記ニューラルネットワーク・アーキテクチャは、
前記ビデオデータから抽出された入力ビデオフレームを受信すること、
前記入力ビデオフレームに基づいて、少なくとも１匹の動物の楕円記述を生成すること、前記楕円記述があらかじめ決められた楕円パラメータにより規定される、および
前記少なくとも１匹の動物について、前記あらかじめ決められた楕円パラメータを特徴付ける値を含むデータを提供すること、
を行うように構成された、非一時的コンピュータプログラム製品。
前記楕円パラメータが、平面内の前記動物の位置、前記動物の長軸の長さおよび短軸の長さ、ならびに前記動物の頭部が向いている角度であって、前記長軸の方向に対して規定される角度、を表す座標である、請求項１７に記載のコンピュータプログラム製品。
前記ニューラルネットワーク・アーキテクチャが、
入力ビデオフレームから、前景－背景セグメント化画像を予測すること、
画素の観点で、前記セグメント化画像に基づいて、動物が前記入力ビデオフレーム中に存在するかを予測すること、
前記画素の観点での予測に基づいて、セグメンテーションマスクを出力すること、および
前記動物が存在すると予測された前記セグメンテーションマスクの部分を楕円に適合させて、前記あらかじめ決められた楕円パラメータを特徴付ける値を決定すること、
を行うように構成されたエンコーダ－デコーダ・セグメンテーション・ネットワークである、請求項１７に記載のコンピュータプログラム製品。
前記エンコーダ－デコーダ・セグメンテーション・ネットワークが、
前記入力ビデオフレームを一組の小さな空間解像度の特徴へと抽象化するように構成された特徴エンコーダと、
前記一組の特徴を前記入力ビデオフレームと同じ形状へと変換し、前記前景－背景セグメント化画像を出力するように構成された特徴デコーダと、
前記動物の頭部が向いている角度を予測するように構成された角度予測器と、
を備えた、請求項１９に記載のコンピュータプログラム製品。
前記ニューラルネットワーク・アーキテクチャが、前記楕円記述の各楕円パラメータの最確値のヒートマップを予測するように構成されたビニング分類ネットワークを備えた、請求項１７に記載の方法。
前記ビニング分類ネットワークが、前記入力ビデオフレームを小さな空間解像度へと抽象化するように構成された特徴エンコーダを備え、前記抽象化が、前記ヒートマップを生成させるために利用される、請求項２１に記載の方法。
前記ニューラルネットワーク・アーキテクチャが、入力ビデオフレームから特徴を抽出し、前記楕円パラメータそれぞれを特徴付ける値を直接予測するように構成された回帰ネットワークを備えた、請求項１７に記載の方法。
前記動物が、齧歯動物である、請求項１７に記載の方法。
以下を備えたシステム：
アリーナであって、
フレーム、
前記フレームに取り付けられ、動物を収容するように寸法規定された筐体、前記筐体は、筐体の内部へのアクセスを許容するように構成されたドアを含む、
を含むアリーナ；および
取得システムであって、
カメラ；
少なくとも二組の光源であって、各組の光源は、互いに異なる波長で、前記筐体に入射する光を放射するように構成され、
前記カメラが、前記複数組の光源のうちの少なくとも１つにより照射されたときに、前記筐体の少なくとも一部のビデオデータを取得するように構成された、少なくとも二組の光源；
前記カメラおよび前記複数組の光源と電気的に連通し、
前記カメラによるビデオデータの取得および前記複数組の光源による光の放射を制御するように動作する制御信号を生成すること、および
前記カメラにより取得されたビデオデータを受信すること、
を行うように構成されたコントローラ；および
前記コントローラと電気的に連通したデータ記憶装置であって、前記コントローラから受信されたビデオデータを格納するように構成されたデータ記憶装置
を含む取得システム。
前記筐体の少なくとも一部が、可視光に対して略不透明である、請求項２５に記載のシステム。
前記筐体の少なくとも一部が、可視光波長に対して略不透明な材料で形成された、請求項２５に記載のシステム。
前記筐体の少なくとも一部が、赤外光波長に対して略無反射の材料で形成された、請求項２５に記載のシステム。
前記筐体の少なくとも一部が、ポリ塩化ビニル（ＰＶＣ）またはポリオキシメチレン（ＰＯＭ）のシートで形成された、請求項２５に記載のシステム。
第１の組の光源が、１つまたは複数の可視光波長で光を放射するように構成された１つまたは複数の第１の照明を含み、第２の組の光源が、１つまたは複数の赤外（ＩＲ）光波長で光を放射するように構成された１つまたは複数の第２の照明を含む、請求項２５に記載のシステム。
赤外光の波長が、約９４０ｎｍである、請求項３０に記載のシステム。
前記カメラが、少なくとも４８０×４８０画素の解像度でビデオデータを取得するように構成された、請求項２５に記載のシステム。
前記カメラが、マウスの動きの頻度よりも高いフレームレートでビデオデータを取得するように構成された、請求項２５に記載のシステム。
前記カメラが、少なくとも２９フレーム／秒（ｆｐｓ）のフレームレートでビデオデータを取得するように構成された、請求項２５に記載のシステム。
前記カメラが、少なくとも８ビット深度を有するビデオデータを取得するように構成された、請求項２５に記載のシステム。
前記カメラが、赤外波長でビデオデータを取得するように構成された、請求項２５に記載のシステム。
前記コントローラが、前記カメラから受信されたビデオデータを圧縮するように構成された、請求項２５に記載のシステム。
前記コントローラが、分散ベースの背景減算を採用したフィルタを含むＭＰＥＧ４コーデック用いて、前記カメラから受信されたビデオデータを圧縮するように構成された、請求項３７に記載のシステム。
前記ＭＰＥＧコーデックのフィルタが、Ｑ０ＨＱＤＮ３Ｄである、請求項３８に記載のシステム。
前記コントローラが、明暗サイクルを模擬するスケジュールに従って前記筐体を照射するよう前記第１の光源に要求するように構成された、請求項３０に記載のシステム。
前記コントローラが、前記明暗サイクルの明部において、およそ５０ｌｕｘ～およそ８００ｌｕｘの強度を有する可視光で前記筐体を照射するよう前記第１の光源に要求するように構成された、請求項３０に記載のシステム。
前記コントローラが、赤外照射による前記筐体の温度上昇が５℃未満となるように、赤外光で前記筐体を照射するよう前記第２の光源に要求するように構成された、請求項３０に記載のシステム。
前記コントローラが、対数的にスケーリングされた１０２４レベルの照明に従って前記筐体を照射するよう前記第１の光源に要求するように構成された、請求項３０に記載のシステム。
少なくとも一組の光源により、動物を収容するように構成された筐体を照射するステップであって、各組の光源が、互いに異なる波長の光を放射するように構成された、ステップと、
カメラにより、前記複数組の光源のうちの少なくとも１つにより照射された前記筐体の少なくとも一部のビデオデータを取得するステップと、
前記カメラおよび前記複数組の光源と電気的に連通したコントローラにより、前記カメラによるビデオデータの取得および前記複数組の光源による光の放射を制御するように動作する制御信号を生成するステップと、
前記コントローラにより、前記カメラにより取得されたビデオデータを受信するステップと、
を含む方法。
前記筐体の少なくとも一部が、可視光に対して略不透明である、請求項４４に記載の方法。
前記筐体の少なくとも一部が、可視光波長に対して略不透明な材料で形成された、請求項４４に記載の方法。
前記筐体の少なくとも一部が、赤外光波長に対して略無反射の材料で形成された、請求
項４４に記載の方法。
前記筐体の少なくとも一部が、ポリ塩化ビニル（ＰＶＣ）またはポリオキシメチレン（ＰＯＭ）のシートで形成された、請求項４４に記載の方法。
第１の組の光源が、１つまたは複数の可視光波長で光を放射するように構成された１つまたは複数の第１の照明を含み、第２の組の光源が、１つまたは複数の赤外（ＩＲ）光波長で光を放射するように構成された１つまたは複数の第２の照明を含む、請求項４４に記載の方法。
赤外光の波長が、約９４０ｎｍである、請求項４９に記載の方法。
前記カメラが、少なくとも４８０×４８０画素の解像度でビデオデータを取得するように構成された、請求項４４に記載の方法。
前記カメラが、マウスの動きの頻度よりも高いフレームレートでビデオデータを取得するように構成された、請求項４４に記載の方法。
前記カメラが、少なくとも２９フレーム／秒（ｆｐｓ）のフレームレートでビデオデータを取得するように構成された、請求項４４に記載の方法。
前記カメラが、少なくとも８ビット深度を有するビデオデータを取得するように構成された、請求項４４に記載の方法。
前記カメラが、赤外波長でビデオデータを取得するように構成された、請求項４４に記載の方法。
前記コントローラが、前記カメラから受信されたビデオデータを圧縮するように構成された、請求項４４に記載の方法。
前記コントローラが、分散ベースの背景減算を採用したフィルタを含むＭＰＥＧ４コーデック用いて、前記カメラから受信されたビデオデータを圧縮するように構成された、請求項５６に記載の方法。
前記ＭＰＥＧコーデックのフィルタが、Ｑ０ＨＱＤＮ３Ｄである、請求項５７に記載の方法。
前記コントローラが、明暗サイクルを模擬するスケジュールに従って前記筐体を照射するよう前記第１の光源に要求するように構成された、請求項４９に記載の方法。
前記コントローラが、前記明暗サイクルの明部において、およそ５０ｌｕｘ～およそ８００ｌｕｘの強度を有する可視光で前記筐体を照射するよう前記第１の光源に要求するように構成された、請求項４９に記載の方法。
前記コントローラが、赤外照射による前記筐体の温度上昇が５℃未満となるように、赤外光で前記筐体を照射するよう前記第２の光源に要求するように構成された、請求項４９に記載の方法。
前記コントローラが、対数的にスケーリングされた１０２４レベルの照明に従って前記筐体を照射するよう前記第１の光源に要求するように構成された、請求項４９に記載の方
法。