ES2885873T3 - Modelado inverso para predicción de características de conjuntos de datos multiespectrales e hiperespectrales detectados de manera remota - Google Patents

Modelado inverso para predicción de características de conjuntos de datos multiespectrales e hiperespectrales detectados de manera remota Download PDF

Info

Publication number
ES2885873T3
ES2885873T3 ES10725542T ES10725542T ES2885873T3 ES 2885873 T3 ES2885873 T3 ES 2885873T3 ES 10725542 T ES10725542 T ES 10725542T ES 10725542 T ES10725542 T ES 10725542T ES 2885873 T3 ES2885873 T3 ES 2885873T3
Authority
ES
Spain
Prior art keywords
data
plant
model
plants
spectroscopic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES10725542T
Other languages
English (en)
Inventor
Jonathan E Lightner
Steven L Wright
Federico Valverde
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pioneer Hi Bred International Inc
Original Assignee
Pioneer Hi Bred International Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pioneer Hi Bred International Inc filed Critical Pioneer Hi Bred International Inc
Application granted granted Critical
Publication of ES2885873T3 publication Critical patent/ES2885873T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/048Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators using a predictor
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B17/00Systems involving the use of models or simulators of said systems
    • G05B17/02Systems involving the use of models or simulators of said systems electric

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Investigating Or Analysing Materials By Optical Means (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

Un método para estimar una característica de una planta, que comprende: a. construir un modelo predictivo utilizando el modelado inverso que utiliza: i. un primer conjunto de datos espectroscópicos de una primera población de plantas, y ii. conjuntos de datos de características medidos correspondientes de la primera población de plantas; y b. aplicar el modelo a un segundo conjunto de datos espectroscópicos de una segunda planta, una segunda población de plantas, o ambas, para estimar la característica en la segunda planta.

Description

DESCRIPCIÓN
Modelado inverso para predicción de características de conjuntos de datos multiespectrales e hiperespectrales detectados de manera remota
CAMPO TÉCNICO
La presente invención se refiere a los campos del modelado inverso y a la gestión de cultivo agrícola.
ANTECEDENTES
Existe interés en predecir rasgos agronómicos en las plantas. Dichas predicciones intentan proveer, con exactitud razonable, una estimación de algún aspecto cuantitativo o cualitativo de un rasgo o de una planta particular. Dicha estimación puede, a su vez, usarse, por ejemplo, para seleccionar o para retirar ciertas plantas de una población más grande.
Una manera de obtener datos a partir de los cuales pueden llevarse a cabo las predicciones es con la detección remota. Existe una variedad de métodos de detección remota. Un método implica la creación de imágenes de reflectancia de una planta o plantas en el espectro electromagnético (p. ej., visible (VIS), infrarrojo (IR), infrarrojo cercano (NIR, por sus siglas en inglés), ultravioleta (UV)) para capturar y/o aislar valores de absorción para una longitud de onda (espectro) dirigida del espectro electromagnético. Un sistema de detección remota a modo de ejemplo se describe en la Patente de Estados Unidos No. 7.038.191.
Algunos han buscado utilizar la detección remota para predecir el rendimiento en plantas que producen semillas. Muchos métodos predictivos existentes son "clásicos" o "inversos" en el sentido de que uno comienza con cierta información y/o suposiciones a priori (p. ej., que el espectro de una planta tomado en cierta longitud de onda es indicativo del rendimiento de la planta debido a cierto parámetro reflectante de la clorofila) y luego regresa (a saber, "retrocede") y construye un modelo basado en las suposiciones. Las suposiciones se basan en un paradigma clásico de teoría científica - crear una hipótesis relacionada con la causa y el efecto, obtener datos específicos indicados como relevantes por la hipótesis (p. ej., la única longitud de onda predeterminada), y luego generar un modelo de predicción que pueda usarse para evaluar los mismos datos específicos de una nueva muestra (p. ej., realizar una predicción de rendimiento).
Mediciones que se consideran relevantes se predeterminan según la hipótesis subyacente y la teoría científica. Dicho método se llama, a veces, un método determinista o de construcción de modelo causal, dado que el modelo depende, desde el inicio, de suposiciones predeterminadas sobre la causa y el efecto.
La mayoría de los modelos inversos o clásicos generan funciones predictivas según la síntesis de primeros principios. Cuando se usa el modelo para realizar una predicción, ello requiere, de manera adecuada, la recolección de datos de solo una o de unas pocas longitudes de onda espectrales discretas específicas (aquellas que coinciden con las entradas significativas predeterminadas), en lugar de rangos o regiones de longitudes de onda.
Debe llevarse a cabo mucho trabajo para primero identificar las funciones relevantes para basar el modelo, y luego para construir el modelo -de ahí el nombre de "modelado inverso". Dicho enfoque de "modelado inverso" requiere tiempo y recursos significativos al inicio de la construcción del modelo para desarrollar la teoría o hipótesis mediante un método científico válido. En general, no se trata simplemente de una cuestión de crear hipótesis y luego implementar la teoría. También se necesita mucha prueba y error y experimentación empírica para respaldar la teoría científica. La teoría se basa, normalmente, al menos en una parte significativa, en un conocimiento o trabajo a priori, y después de haber llevado a cabo dicho trabajo, puede probarse la teoría científica del modelo inverso para validarla. Incluso si el modelo se cambia después de las pruebas, este aún se basa en suposiciones, pruebas o información a priori.
En esencia, el modelado inverso o clásico requiere tiempo y recursos para conseguir funciones relacionadas con entradas que se necesitan para realizar una predicción. Los procesos para identificar dichas funciones pueden ser difíciles. Por ejemplo, para el fenotipo de concentración de clorofila en la hoja, las constantes pueden ser valores de absorción en no más de una a unas pocas longitudes de onda relativamente discretas. Pero puede llevar un tiempo largo crear una hipótesis que sea la(s) longitud(es) de onda apropiada(s) y determinar si usar dichas longitudes de onda discretas para predecir la concentración de clorofila en la hoja. El enfoque clásico y, por consiguiente, el modelo de predicción definitivo, necesitará explicar porqué ciertos espectros se refieren a la concentración de clorofila en la hoja.
Además, la suposición de que dichas pocas longitudes de onda predicen, de manera completa y exacta, la concentración de clorofila en la hoja de una planta particular no representa la posibilidad de que pueda haber otros motivos y, en particular, otros motivos que puedan diferenciarse de otros espectros. Por consiguiente, el modelado clásico o inverso puede no tener en cuenta, y puede pasar completamente por alto, factores importantes implicados en la concentración de clorofila en la hoja. El modelado se "encierra" o estrecha hacia las suposiciones a priori utilizadas para construirlo (por consiguiente, es determinista o causal). El modelo clásico supone una comprensión de todo sobre un sistema (p. ej., qué determina el contenido de clorofila en la hoja en una planta) y una hipótesis y modelo se construyen en base a dicha suposición.
Con la vegetación - incluidas, pero sin limitación a, plantas en experimentos de mejora vegetal y avance genético -datos recogidos por medio de la detección remota de la vegetación se basan fundamentalmente en lo físico y se dirigen principalmente por las propiedades de reflectancia de las hojas y la estructura de una canopia vegetal. La aplicación de datos de detección remota para experimentos de mejora vegetal y avance de plantas se ha centrado en el modelado clásico con respecto a los fenotipos de interés. Dicho modelado supone una resolución y un rango espectrales específicos objetivo, los cuales pueden ignorar información importante en otras regiones espectrales.
Por consiguiente, existe una necesidad en la técnica de utilizar detección de datos espectroscópicos para predecir rasgos fenotípicos, constituyentes, u otras características en o de las plantas. Por consiguiente, existe una necesidad en la técnica de métodos para predecir características de las plantas (p. ej., fenotipos, genotipos, y similares) que no sufran las limitaciones de las técnicas de modelado inverso clásicas. El valor de dichos métodos mejorará si los métodos pueden funcionar utilizando datos reunidos de forma remota (p. ej., no invasiva), en particular, datos que se recogen a cierta distancia de la planta o plantas de interés. También hay una necesidad relacionada de dispositivos que lleven a cabo dichos métodos. Los documentos US 2006/190137, WO 2008/097606, WO 02/97061, WO 94/20887, WO 2009/059176, WO02/97061, CN101403689, "Comparison of Four Radiative Transfer Models to Simúlate Plant Canopies Reflectance: Direct and Inverse Mode" de S. Jacquemoud y otros, y "Reflectance measurement of canopy biomass and nitrogen status in wheat crops using normalized difference vegetation indices andpartial least squares regression" de P.M. Hansen y otros describen los antecedentes de la técnica.
COMPENDIO
La invención se define en las reivindicaciones 1 y 14. Aspectos adicionales y realizaciones preferidas se definen en las reivindicaciones dependientes. Los aspectos, realizaciones y ejemplos de la presente descripción que no caigan dentro el alcance de las reivindicaciones anexas no forman parte de la invención y se proveen meramente con fines ilustrativos.
Se proveen métodos, aparatos y sistemas para la predicción de constituyentes o características a partir de conjuntos de datos multiespectrales e hiperespectrales de detección remota tomados de las plantas. Dichos métodos, aparatos y sistemas representan mejoras con respecto a la tecnología de vanguardia. La presente invención también:
• genera modelos que pueden usarse para la predicción y clasificación en tiempo real;
• construye un modelo predictivo más rápidamente que el modelado clásico;
• puede calcular, de manera razonablemente rápida, con una sobrecarga computacional razonable;
• no requiere el tipo de conocimiento a priori requerido del modelado clásico;
• no siempre requiere un entorno de laboratorio o investigación exhaustiva;
• puede usarse para excluir o predecir rápidamente;
• permite predicciones tempranas;
• puede ayudar a identificar o predecir nuevas correlaciones o explicaciones para la actividad del constituyente; • puede usarse planta por planta o en múltiples plantas;
• contribuye a construir modelos de predicción estables, robustos y razonablemente exactos;
• puede proveer una construcción de modelo automática o semiautomática;
• puede proveer una detección automática de valores atípicos y manejo de valores atípicos, errores en datos y anomalías;
• puede producir buenos resultados incluso en presencia de interferencia sustancial (p. ej., interferencia química en muestras, interferencia física en muestras, interferencia del proceso de medición, errores, fenómenos inesperados);
• puede manejar una variedad de diferentes tamaños de datos o número de muestras, cantidad de variables, etc.;
• permite la observación indirecta para realizar predicciones después de la construcción del modelo;
• es bastante flexible en su aplicación y uso;
• permite una variedad de técnicas de validación y mejora;
• puede proveer una predicción fiable de información que se necesita en el momento correcto por un coste aceptable;
• permite el análisis cuantitativo e interactivo, junto con el análisis cualitativo opcional;
• permite la visualización de variables y su evaluación;
• permite pretratamientos de datos;
• permite la clasificación de los resultados de la predicción; y
• puede proveer una comprensión mejorada de los procesos.
Un método comprende crear un modelo predictivo de una característica de una planta, incluidos, pero sin limitación a, un constituyente, un fenotipo, salud, fisiología, o combinaciones de ellos, al (a) construir un modelo con principios de modelado inverso basados en el análisis quimiométrico multivariante de imágenes espectroscópicas o detección remota de un conjunto o conjuntos de datos de calibración o capacitación y constituyente, característica, fenotipo, salud o valores de referencia de fisiología correspondientes directamente medidos de forma independiente como variables de entrada; (b) de manera opcional, probar o validar el modelo; y (c) aplicar el modelo validado a un conjunto de datos de prueba espectroscópicos o detectados de forma remota de una planta o plantas de interés. Un ejemplo de un modelado inverso es el análisis de regresión de mínimos cuadrados parciales. Pueden usarse otros. Los datos espectroscópicos o detectados de manera remota pueden ser, pero sin limitación a, datos multiespectrales o hiperespectrales. El modelo predictivo puede validarse a través de un número de métodos. Un ejemplo es la validación cruzada. Otro es el uso de uno o más conjuntos de datos o métodos de calibración o validación para mejorar el modelo como, por ejemplo, hacerlo más estable, robusto y/o exacto y preciso. El modelo predictivo inverso puede usarse para desarrollar una mayor comprensión de factores que influyen en el constituyente, característica, fenotipo, salud o fisiología de interés de la planta.
Un aparato a modo de ejemplo incluye (a) un ordenador con una memoria adaptada para almacenar una base de datos de datos espectroscópicos o de capacitación de detección remota, y una base de datos adaptada para almacenar un constituyente, característica, fenotipo, salud o valor de fisiología medidos para al menos múltiples datos de calibración o capacitación; (b) software que incluye un algoritmo de transformada matemático operado en el ordenador y adaptado para construir un modelo inverso para la predicción del constituyente, característica, fenotipo, salud o fisiología según el conjunto de calibración o capacitación y datos de referencia medidos; y (c) una base de datos para almacenar un conjunto de datos espectroscópicos o de prueba detectados de manera remota para la entrada en el modelo de predicción para generar una predicción del valor del constituyente, característica, fenotipo, salud o fisiología que se desconoce en una muestra que comprende una planta o plantas.
En otro ejemplo, un sistema incluye (a) un sensor de detección remota o espectroscópico adaptado para detectar y/o registrar datos espectroscópicos o de detección remota, (b) un ordenador adaptado para almacenar y leer los datos espectroscópicos detectados y/o registrados o detectados de manera remota; (c) un algoritmo operado en el ordenador y adaptado para construir una predicción de modelado inverso del constituyente, característica, fenotipo, salud o fisiología de un conjunto de calibración de los datos de referencia medidos detectados y asociados; (d) una entrada en el ordenador para ingresar al modelo un conjunto de datos espectroscópicos o de prueba detectados de forma remota para la predicción del constituyente, característica, fenotipo, salud o fisiología de interés.
Varios ejemplos no restrictivos de características que se predicen con los métodos, aparatos o sistemas de más arriba son concentración de clorofila, contenido de humedad en la hoja, y actividad de fotosíntesis. Varios ejemplos de características que se predicen incluyen cantidad de introgresión en un experimento de retrocruzamiento y tolerancia al estrés hídrico.
BREVE DESCRIPCIÓN DE LOS DIBUJOS
El compendio, así como la siguiente descripción detallada, se comprenden mejor cuando se leen en conjunto con los dibujos anexos. En aras de la ilustración de la invención, en los dibujos se muestran realizaciones a modo de ejemplo de la invención; sin embargo, la invención no se encuentra limitada a los métodos, composiciones y dispositivos específicos descritos. Además, los dibujos no se encuentran necesariamente dibujados a escala. En los dibujos:
La Figura 1 ilustra (a) múltiples muestras para su uso en la construcción de un modelo de calibración, aquí múltiples parcelas de crecimiento de plantas de maíz, (b) un sistema de detección remota para obtener un conjunto de calibración de variables de entrada (a lo cual, a veces, se hará referencia como datos del bloque X) para el modelo de calibración (aquí, datos multiespectrales o hiperespectrales de imágenes detectadas de forma remota de las diferentes parcelas), y (c) un sistema de medición de constituyente para obtener un conjunto de referencia de variables dependientes (a lo cual, a veces, se hará referencia como datos del bloque Y) para el modelo de calibración, aquí mediciones directas de un constituyente de interés de al menos una planta de cada parcela, todo ello según una realización a modo de ejemplo de la presente invención.
La Figura 2 es una representación esquemática de un hipercubo de imágenes espectrales que muestra la relación entre dimensiones espacial y espectral de datos espectroscópicos obtenidos de imágenes de las muestras obtenidas por el sistema de detección remota multiespectral o hiperespectral de la Figura 1. Los datos del bloque X para el modelo de calibración se extraen de la presente información.
La Figura 3 es un diagrama de un sistema computarizado, que puede incluir software de análisis multivariante, para desarrollar un modelo de calibración para el constituyente de interés de los conjuntos de datos de calibración (bloque X) y de referencia (bloque Y), y para luego realizar predicciones del constituyente de interés a partir de los conjuntos de datos de ensayo de imágenes multiespectrales o hiperespectrales detectadas de forma remota de nuevas plantas o parcelas de muestra.
Las Figuras 4A y B son ejemplos de interfaces gráficas de usuario (GUI, por sus siglas en inglés) de software comercialmente disponible que puede usarse con el sistema de ordenador de la Figura 3 para construir el modelo predictivo a partir de los conjuntos de datos del bloque X y del bloque Y y luego realizar predicciones a partir de los conjuntos de datos de prueba. Las GUI ilustran varias características, incluidas visualizaciones del procedimiento de modelado y validación de los resultados del modelado.
La Figura 5 ilustra GUI a modo de ejemplo de software de análisis multivariante comercialmente disponible adecuado para su uso con el sistema de la Figura 3. Las ilustraciones incluyen una visualización de datos de calibración espectrales detectados de forma remota de múltiples muestras (datos del bloque X) unos con respecto a otros que revelan similitudes y variaciones entre cada espectro (inferior derecha); un gráfico de coeficientes de regresión calculados por el software de los datos espectrales (superior derecha); un gráfico de puntuaciones de componentes principales calculadas por el software (superior izquierda); y un gráfico de validación cruzada de valores pronosticados del modelo versus valores reales medidos del constituyente de interés, según un número de variables latentes determinadas por el software.
La Figura 6 es un diagrama de flujo de un método de modelado clásico o inverso de la técnica anterior a modo de ejemplo para predecir un constituyente de interés.
La Figura 7 es un diagrama de flujo según una realización generalizada a modo de ejemplo de la presente invención para (a) usar el modelado inverso para construir un modelo para predecir un constituyente de interés a partir de un conjunto de calibración de datos multiespectrales o hiperespectrales detectados de forma remota (datos del bloque X) y mediciones reales del constituyente para plantas de las parcelas (datos del bloque Y) de la Figura 1, y (b) luego usar el modelo para predecir el constituyente de interés a partir de un conjunto de datos de prueba multiespectrales o hiperespectrales.
La Figura 8 es similar a la Figura 7, pero incluye un proceso de validación opcional añadido aplicado al modelado inverso de la Figura 7.
Las Figuras 9A y 9B son similares a la Figura 7, pero incluyen un proceso de validación opcional aplicado al modelado inverso de la Figura 7.
La Figura 10 ilustra la correlación entre concentración de clorofila medida real para un conjunto de plantas de maíz versus una predicción de concentración de clorofila mediante el uso de una función modelada inversa de mínimos cuadrados parciales (PLS, por sus siglas en inglés). La Figura 10A es un gráfico de validación cruzada para una primera realización específica a modo de ejemplo de la presente invención relacionada con el uso de un método de las Figuras 7, 8 o 9 para predecir el nivel de concentración de clorofila, como el constituyente de interés, en una planta o plantas de maíz. La Figura 10B es una visualización de ordenador a modo de ejemplo que permite la visualización de los datos hiperespectrales en una imagen tricolor roja, verde y azul para la selección de píxeles para calcular el espectro de la planta.
La Figura 11 es un gráfico de validación cruzada similar a la Figura 10, pero incluye una segunda realización específica a modo de ejemplo de la presente invención relacionada con el uso de un método de las Figuras 7, 8 o 9 para predecir el nivel de concentración de contenido de humedad en la hoja (el constituyente de interés) en una planta o plantas de maíz.
La Figura 12 es un gráfico de validación cruzada similar a la Figura 10, pero incluye una tercera realización específica a modo de ejemplo de la presente invención, aquí mediante el uso de un método de modelado inverso del tipo de las Figuras 7, 8 o 9 para predecir el grado o nivel relativo de introgresión de un gen, como el constituyente de interés, en un experimento de retrocruzamiento de plantas de maíz. La Figura 12 ilustra el grado de correlación entre el nivel real medido de introgresión del genoma para un conjunto de plantas híbridas de maíz versus una predicción del nivel de introgresión del genoma mediante el uso de un modelado inverso de mínimos cuadrados parciales (PLS).
La Figura 13 es un gráfico temporal relacionado con una cuarta realización específica a modo de ejemplo de la presente invención para predecir el nivel de actividad de fotosíntesis con el tiempo en una planta de maíz.
La Figura 14 es un gráfico relacionado con una quinta realización específica a modo de ejemplo de la presente invención, a saber, la predicción de nivel relativo de estrés hídrico en plantas de maíz mediante el uso del modelado inverso y clasificación de las muestras mediante análisis discriminante.
La Figura 15 es un diagrama de flujo que ilustra el uso de una o más de las predicciones de algunos de los ejemplos específicos en la mejora vegetal, un experimento de avance genético, o proceso de selección para determinar la cantidad de producción comercial de la semilla de maíz.
La Figura 16 es un gráfico relacionado con la predicción del crecimiento de genotipos de soja en un entorno controlado mediante el uso del modelado inverso y la clasificación de las muestras mediante análisis discriminante.
La Figura 17 es un gráfico de las predicciones de validación cruzada de la perturbación en las plantas producida por diferentes eventos y constructos de un transgén. Un solo constructo con muchos eventos se contrasta con el tipo salvaje. El análisis discriminante indica cambios claramente modelados en las imágenes hiperespectrales de las plantas para las plantas transgénicas en comparación con las plantas de tipo salvaje.
La Figura 18 es un gráfico de las predicciones de validación cruzada similar a la Figura 17. En el presente caso, la separación entre el tipo salvaje y el transgénico es solo posible para un número limitado de eventos resaltados en la elipse discontinua.
La Figura 19 es un gráfico de las predicciones de validación cruzada de la perturbación en diferentes genotipos producida por un solo evento transgénico. El análisis discriminante indica cambios claramente modelados en las imágenes hiperespectrales de las plantas a partir del evento transgénico.
La Figura 20 es un gráfico de la validación cruzada intentada para un segundo genotipo, como la Figura 20. En el presente caso, sin embargo, la separación entre las dos clases tipo salvaje y transgénico no es posible según las imágenes hiperespectrales de las plantas.
DESCRIPCIÓN DETALLADA
La invención se describe en el conjunto anexo de reivindicaciones independientes. Realizaciones adicionales se describen en el conjunto de reivindicaciones dependientes. La presente invención puede comprenderse más fácilmente mediante referencia a la siguiente descripción detallada tomada en conexión con las figuras y ejemplos anexos, los cuales forman una parte de la presente descripción. Se comprenderá que la presente invención no se encuentra limitada a los dispositivos, métodos, aplicaciones, condiciones o parámetros específicos descritos y/o que se muestran en la presente memoria, y que la terminología empleada en la presente memoria es en aras de describir realizaciones particulares a modo de ejemplo solamente y no pretende limitar la invención reivindicada.
Asimismo, según su uso en la presente memoria descriptiva, incluidas las reivindicaciones anexas, las formas singulares "un", "una" y "el/la" incluyen el plural, y una referencia a un valor numérico particular incluye al menos dicho valor particular, a menos que el contexto indique claramente lo contrario. El término "múltiples", según su uso en la presente memoria, significa más de uno. Cuando se expresa un rango de valores, otra realización incluye del valor particular y/o al otro valor particular. De manera similar, cuando se expresan valores como aproximaciones, mediante el uso del antecedente "alrededor de", se comprenderá que el valor particular forma otra realización. Todos los rangos son inclusivos y combinables.
Se apreciará que ciertas características de la invención que, en aras de la claridad, se describen en la presente memoria en el contexto de realizaciones separadas, pueden también proveerse en combinación en una sola realización. Por el contrario, varias características de la invención que, en aras de la brevedad, se describen en el contexto de una sola realización, pueden también proveerse de forma separada o en cualquier subcombinación. Además, la referencia a valores establecidos en rangos incluye cada uno de los valores dentro de dicho rango.
Términos
Según su uso en la presente memoria, "retrocruzamiento" se refiere a un proceso en el cual un fitogenetista cruza una variedad de progenie híbrida con uno de los genotipos de los parentales una o más veces.
Según su uso en la presente memoria, "progenie de retrocruzamiento" se refiere a plantas de progenie producidas mediante cruce de un progenitor recurrente con plantas de otra línea que comprenden un rasgo o locus deseado, mediante selección de plantas de progenie F1 que comprenden el rasgo o locus deseado, y mediante cruce de las plantas de progenie F1 seleccionadas con las plantas del parental recurrente una o más veces para producir plantas de progenie de retrocruzamiento que comprenden dicho rasgo o locus.
El término "mejora" se refiere a la manipulación genética de organismos vivos.
El término "cruce de mejora" se refiere a un cruce para introducir nuevo material genético en una planta para el desarrollo de una nueva variedad. Por ejemplo, uno puede cruzar la planta A con la planta B, en donde la planta B es genéticamente diferente de la planta A. Después del cruce de mejora, las plantas F1 resultantes pueden entonces autofecundarse o ser hermanas una, dos, tres o más veces (F1, F2, F3, etc.) hasta que se desarrolle una nueva variedad consanguínea. En aras de la aclaración, dichas nuevas variedades consanguíneas estarán dentro de una distancia de linaje de un cruce de mejora de las plantas A y B.
Según su uso en la presente memoria, el término "característica" se refiere a cualquier característica fenotípica o genotípica de una planta. Dichas características incluyen, por ejemplo, rendimiento, altura, un nivel químico, un nivel de introgresión, un constituyente (físico o genético), un rasgo transgénico, y cualquier combinación de estos. Por ejemplo, una característica puede ser la resistencia al glifosato, un fenotipo de aceite, o una combinación de estos dos. Una característica puede ser un aspecto que se considera deseable (p. ej., rendimiento) o negativo (p. ej., arrastre de rendimiento).
El término "cruce" se refiere a la combinación de material genético por métodos tradicionales como, por ejemplo, un cruce de mejora o retrocruzamiento, pero también incluye fusión de protoplastos y otros métodos de biología molecular de combinación de material genético a partir de dos fuentes.
El término "progenie F1" se refiere a plantas de progenie producidas cruzando una primera planta con una segunda planta, en donde la primera y la segunda plantas son genéticamente diferentes.
El término "genotipo" se refiere a la constitución genética de una célula u organismo.
"Variedad híbrida" se refiere a una línea híbrida sustancialmente heterocigótica y sus modificaciones genéticas menores que retienen la genética general de la línea híbrida, incluidas, pero sin limitación a, una conversión del locus, una inserción de transgenes, una mutación, o una variante somoclonal.
El término "consanguínea" se refiere a una variedad desarrollada a través de la endogamia o doble haploidía que normalmente comprende alelos homocigóticos en alrededor del 95% o más de sus loci.
Según su uso en la presente memoria, "introgresión" significa el proceso de transferir material genético de un genotipo a otro. El presente término pretende incluir la heterocigosidad u homocigosidad en un locus (p. ej., para un marcador, para un locus de rasgo cuantitativo, o para un transgén), así como antecedentes genéticos generales en el retrocruzamiento (p. ej., porcentaje de antecedentes de élite).
Según su uso en la presente memoria, "datos espectroscópicos" significa datos espectrales tomados en una o más longitudes de onda. Dichos datos pueden reunirse de manera remota, p. ej., por un dispositivo posicionado a una distancia de la planta sujeto o población de plantas. Los datos espectroscópicos incluyen datos de absorbancia, reflectancia o intensidad, o incluso una combinación de dos o más de estos. Los datos pueden reunirse en condiciones ambiente, o pueden reunirse con la ayuda de una fuente de iluminación complementaria.
La quimiometría es la aplicación de métodos matemáticos o estadísticos a datos químicos. La Sociedad Internacional de Quimiometría (ICS, por sus siglas en inglés) ofrece la siguiente definición:
La quimiometría es la ciencia de relacionar mediciones hechas en un sistema o proceso químico con el estado del sistema mediante aplicación de métodos matemáticos o estadísticos.
La investigación quimiométrica incluye diferentes métodos que pueden aplicarse en química. Existen técnicas para recoger buenos datos (optimización de parámetros experimentales, diseño de experimentos, calibración, procesamiento de señales) y para obtener información de dichos datos (estadística, reconocimiento de patrones, modelado, cálculos de relación estructura-propiedad).
La quimiometría se considera una especie de química computacional, que es una rama de la química que utiliza ordenadores para ayudar a resolver problemas químicos. La química computacional usa los resultados de la química teórica, incorporados a programas de ordenador eficientes, para calcular las estructuras y propiedades de moléculas y sólidos. Mientras sus resultados, normalmente, complementan la información obtenida por experimentos químicos, pueden, a veces, predecir fenómenos químicos no observados previamente.
Un ejemplo de su uso es en el diseño de nuevos fármacos y materiales. Un ejemplo de dichas propiedades son las cantidades espectroscópicas. Los métodos empleados cubren tanto situaciones estáticas como dinámicas. En todos los casos, el tiempo de análisis del ordenador aumenta rápidamente con el tamaño del sistema que se está estudiando.
La quimiometría abarca métodos como, por ejemplo, espectroscopia y su aplicación en química. En la espectroscopia, las aplicaciones de la quimiometría ocurren, con mayor frecuencia, en la calibración. La calibración se logra utilizando los espectros como descriptores multivariantes para predecir concentraciones de constituyentes de interés mediante el uso de enfoques estadísticos como, por ejemplo, regresión lineal múltiple (MLR, por sus siglas en inglés), regresión sobre componentes principales (PCR, por sus siglas en inglés), y mínimos cuadrados parciales (PLS). Un trabajo en esta área es el de Martens, H. y Naes, T., "Multivariate Calibration", John Wiley & Sons (Chichester 1989) (al que, en la presente memoria, se hace referencia como "Martens y Naes 1989" o como "Martens y Naes).
El análisis espectroscópico puede proveer resultados cualitativos y cuantitativos fáciles, no destructivos, que requieren poca o ninguna preparación de la muestra. Es rentable, coherente, fiable y satisface estándares regulatorios gubernamentales para muchas aplicaciones industriales.
Los fitogenetistas, fisiólogos y científicos, sin embargo, no tienen, en general, habilidades en la ciencia o métodos de detección remota. Tampoco tienen habilidades, en general, en la espectroscopia o quimiometría y, por consiguiente, han dependido del modelado clásico para el análisis de las plantas.
Una razón es que el modelado inverso con quimiometría de análisis multivariante no provee una interpretación directa de la fuente de la predicción. Por lo tanto, no ha habido razones contundentes para utilizar dichos métodos quimiométricos para analizar datos espectrales de detección remota relacionados con la mejora vegetal o experimentos de avance genético. Sin embargo, es contraintuitivo mirar en dicha dirección. Por ejemplo, históricamente, se ha mostrado que cuanta más clorofila haya en una planta de maíz, probablemente más alto será el rendimiento de la semilla de la planta. Se ha conocido, durante mucho tiempo, dónde absorbe la clorofila constituyente ciertas longitudes de onda de luz específicas, de modo que estas se analizan cuando se construye un modelo clásico para predecir el rendimiento en una planta de maíz que está creciendo.
Se proveen métodos para calcular una característica de una planta; el término "característica" se define en otra parte en la presente memoria y pretende incluir tanto características fenotípicas como genotípicas. Dichos métodos incluyen, de manera adecuada, construir un modelo predictivo mediante el uso del modelado inverso según, al menos en parte, un primer conjunto de datos espectroscópicos de una primera población de plantas y según conjuntos de datos de características medidas (o calculadas) correspondientes de la primera población de plantas. Por ejemplo, el primer conjunto de datos pueden ser espectros tomados de una serie de plantas que tienen niveles conocidos o calculados de resistencia a la sequía. Los espectros pueden tomarse de plantas de diferentes edades o incluso de diferentes niveles de estrés. El primer conjunto de datos puede, en algunos ejemplos, tratarse como un conjunto de datos de calibración en el que se basa el modelo.
Mientras los datos de calibración incluyen, de manera adecuada, datos basados en mediciones directas (p. ej., mediciones reales de clorofila), los datos pueden también incluir puntos de datos que se basan en estimaciones o predicciones. Por ejemplo, el usuario puede utilizar datos de calibración que se basan en una estimación de clorofila en la primera planta o población de plantas, antes que una medición directa de la clorofila.
Cualquier porción de o todos los datos espectroscópicos usados en los modelos pueden reunirse de manera remota. La detección remota es, en general, adquisición a gran escala o a corta escala de información de un objeto o fenómeno por el uso de un dispositivo de detección en tiempo real o grabación que está/no está en contacto físico o cercano con el objeto o fenómeno (p. ej., por medio de andamio, grúa pluma, grúa, aeronave, nave espacial, satélite, boya o barco). La detección remota se refiere, en general, al uso de tecnología de sensor de imágenes. El sensor de imágenes puede implicar la recolección pasiva para detectar energía natural (p. ej., radiación) que se emite o refleja por el objeto o área circundante que se está observando.
Ejemplos incluyen, pero sin limitación a, dispositivos de fotografía, sensores infrarrojos, dispositivos de carga acoplada, radiómetros y similares. Por el contrario, sistemas de recolección activa emiten energía con el fin de escanear objetos y áreas donde un sensor pasivo luego detecta y mide la radiación que se refleja o retrodispersa del objetivo (p. ej., RADAR). Se han llevado a cabo intentos de utilizar la detección remota para derivar rasgos o características de plantas con predicciones del modelo clásico o inverso. Es preciso ver, p. ej., la Patente de Estados Unidos 7.112.806.
Un modo común de recolección de energía lumínica se denomina datos multiespectrales. Varias bandas de espectros independientes pueden recogerse. Pueden obtenerse con los siguientes tipos de dispositivos o sensores: (a) RADAR convencional, (b) láser y altímetros RADAR en satélites, (c) detección y alcance de luz LIDAR, (d) radiómetros y fotómetros (p. ej., sensores visibles e infrarrojos, microonda, rayos gamma, ultravioleta, espectros de emisión de varios químicos), (e) pares estereográficos o fotografías aéreas, (f) plataformas multiespectrales simultáneas como, por ejemplo, Landsat.
Más recientemente, se han desarrollado imágenes hiperespectrales o lo que a veces se conoce como espectroscopia de imágenes, imágenes espectrales o imágenes químicas. La espectroscopia de imágenes es la adquisición simultánea de imágenes co-registradas espacialmente en muchas bandas espectralmente contiguas. La imagen producida mediante espectroscopia de imágenes es similar a una imagen producida por una cámara digital, excepto que cada píxel tiene muchas bandas de datos de intensidad de luz en lugar de solo tres bandas: roja, verde y azul. Los conjuntos de datos hiperespectrales pueden estar compuestos de un número relativamente grande (p. ej., 100­ 1000 bandas espectrales de anchos de banda relativamente estrechos (p. ej., 1-10 nm), mientras que los conjuntos de datos multiespectrales son, en general, menos bandas (p. ej., 5 a 10) de anchos de banda relativamente grandes (p. ej., 70-400 nm). Una de las cuestiones a las que los investigadores se han enfrentado es la clasificación, organización y uso de dichas cantidades masivas de datos.
En algunos ejemplos, la presente invención incluye el análisis de una imagen de una planta. Dicho análisis puede usarse para determinar un número de características fenotípicas diferentes, incluidas, pero sin limitación a, ángulo de la hoja, ancho de la hoja, número de nodos, longitud del internodo, ramificación, altura de la planta, altura de la espiga, floración, intervalo antesis-floración (ASI, por sus siglas en inglés), capacidad de permanecer verde, velocidad de crecimiento, biomasa total, biomasa parcial (p. ej., hoja, raíz, tallo) y/o fecha de liberación del polen. Algunos de dichos rasgos (p. ej., ASI, antesis) pueden calificarse con alta precisión manualmente (mediante registro de las respectivas fechas de antesis y floración realizando observaciones diarias). En algunos ejemplos, el análisis puede incluir generar un modelo basado en datos espectrales e incluir información en el modelo relacionada con una característica de la planta que se observa en la imagen como, por ejemplo, el ancho de la hoja. El modelo entonces incluirá información recopilada de los espectros e información recopilada de la observación de la imagen de la planta. El análisis de la imagen puede llevarse a cabo manualmente o en una manera automatizada. Por ejemplo, el usuario puede usar un algoritmo de análisis de imágenes para determinar el ancho de hoja promedio en una imagen, o la altura promedio de la planta, u otra característica. El análisis de imágenes puede incluir información sobre múltiples características de la planta (p. ej., altura de la planta y ancho de la hoja) en el modelo definitivo.
Un análisis de imágenes adecuado se conoce como modelo en espiral, en el cual el usuario extrae información de una imagen que se refiere a características de la imagen (p. ej., tamaño de la hoja), así como periodicidad (p. ej., espaciado de la hoja). En una aplicación del modelo en espiral, el usuario puede tomar una imagen de una planta, ubicar el centro de la imagen y mover lejos del centro un píxel a la vez. Como una función de la distancia y ángulo de un píxel dado desde el centro de la imagen, el usuario obtiene intensidad y valores de intensidad de fondo. Al examinar la periodicidad de la imagen, el usuario puede determinar, por ejemplo, el ancho y la frecuencia de las hojas. A partir de dicha información de periodicidad, el usuario puede determinar el ancho promedio de la hoja. Dichas técnicas se describen en, p. ej., Eleventh International Conference On Chemometrics For Analytical Chemistry, Montpellier, Francia, 30 junio-4 julio, 2008, y en "Angle measure technique (AMT) for image texture characterization - 10 years conceptualdevelopment history', Kim H. Esbensen.
Al incorporar información de imagen en los modelos de la invención, el usuario puede entonces representar tres órdenes de información, a saber (1) información arquitectónica (p. ej., enrollamiento de la hoja) extraída de una imagen; (2) datos espectrales de una parte (p. ej., una hoja) de una planta; y (3) datos espectrales tomados de toda una planta.
El modelo puede probarse o validarse - aunque dicha validación no siempre es necesaria para llevar a cabo los métodos reivindicados. Puede usarse cualquier método de validación. Dicha validación puede llevarse a cabo, p. ej., construyendo el modelo según un primer conjunto de datos. Por ejemplo, el usuario puede luego reemplazar ciertos datos del primer conjunto de datos por otros datos (p. ej., datos tomados de plantas que tienen un genotipo diferente de plantas en el primer conjunto) y volver a ejecutar todo el modelo en el conjunto de datos aumentado para evaluar la exactitud del modelo. De esta manera, el usuario puede validar el modelo mediante un análisis de remuestreo o de otra manera validando de manera cruzada el modelo basado en datos del exterior del conjunto de datos usado originalmente para construir el modelo.
El usuario aplica, de manera adecuada, el modelo a un segundo conjunto de datos espectroscópicos de una segunda planta para calcular la presencia de la característica en la segunda planta. Los métodos pueden usarse para calcular la presencia de la característica en la segunda planta al momento en el que los datos se han tomado de la segunda planta.
En algunos ejemplos, los métodos calculan la presencia de la característica en la segunda planta en un momento futuro. En dichos ejemplos, el modelo puede construirse según datos de calibración de plantas de diferentes edades de modo que el modelo final representa la edad de la planta.
Los métodos pueden usarse para calcular (o predecir) la presencia de una característica en una sola planta o en una población de plantas.
Lo datos espectroscópicos (a saber, espectros de plantas usados para desarrollar el modelo inverso o espectros de plantas que se procesan luego por el modelo) usados en los métodos o dispositivos pueden, según se describe en otra parte en la presente memoria, incluir espectros de una o más longitudes de onda del espectro de luz visible, del espectro infrarrojo, del espectro infrarrojo cercano, del espectro ultravioleta, del espectro ultravioleta profundo, o cualquier combinación de ellos. Por ejemplo, los datos espectroscópicos pueden incluir espectros de plantas donde todos los espectros se toman en una longitud de onda de alrededor de 300 nm. En otro ejemplo, los datos pueden incluir espectros tomados en longitudes de onda de alrededor de 200 nm a alrededor de 800 nm.
Los espectros usados en el modelo pueden ser de toda longitud de onda a lo largo de un rango (p. ej., en toda longitud de onda de 200 nm a alrededor de 800 nm), o pueden estar en intervalos (p. ej., en otra longitud de onda de 200 nm a alrededor de 800 nm, o incluso en cada quinta longitud de onda de alrededor de 200 nm a alrededor de 800 nm).
Los espectros pueden tomarse de rangos predeterminados como, por ejemplo, rangos establecidos por el usuario. Como un ejemplo, el usuario puede elegir tomar datos espectroscópicos en longitudes de onda de alrededor de 200 nm a alrededor de 2000 nm, o de alrededor de 300 nm a alrededor de 1800 nm, o incluso de alrededor de 400 nm a alrededor de 1000 nm. Los datos de alrededor de 200 nm a alrededor de 800 nm se consideran especialmente adecuados. El usuario puede recoger dichos datos mediante el uso de un dispositivo que barre a través de un rango de frecuencias, o que recoge datos en múltiples frecuencias. Los espectros pueden tomarse de rangos que se establecen al momento de la recolección, o incluso de rangos aleatorios. Los datos espectroscópicos pueden también incluir datos hiperespectrales.
Según se describe en detalle en otra parte en la presente memoria, los modelos pueden construirse en una variedad de maneras. Métodos de construcción adecuados incluyen análisis de regresión de mínimos cuadrados parciales, un análisis discriminante de mínimos cuadrados parciales, un análisis de componentes principales, y similares. El modelo puede construirse por combinaciones de dichas técnicas.
El usuario puede, según los resultados de los métodos, seleccionar una o más plantas de la segunda población de plantas según la estimación de la característica modelada. Por ejemplo, el usuario puede elegir plantar plantas de maíz adicionales de variedad X donde el método de la invención estima un nivel favorable de la característica deseada para la variedad X. De manera alternativa, el usuario puede elegir retirar una planta según los métodos. Por ejemplo, el usuario puede elegir retirar una planta de variedad Y si el modelo estima que la variedad Y posee (o puede poseer) una resistencia a la sequía desfavorable.
Las características, según se describe en otra parte en la presente memoria, abarcan un amplio rango de aspectos físicos y genéticos. Características en particular adecuadas examinadas por los métodos incluyen rasgos agronómicos, contenido de humedad, concentración de clorofila, actividad de fotosíntesis, introgresión, estrés hídrico, tolerancia a la sequía, resistencia a los herbicidas, respuesta a un químico, rendimiento, tolerancia al estrés, utilización de nitrógeno, resistencia a los insectos, resistencia a las enfermedades, locus del rasgo cuantitativo, un transgén, y similares. Los métodos y dispositivos pueden también usarse para investigar o estimar dos o más características. Por ejemplo, un usuario puede aplicar los métodos reivindicados para estimar (o predecir) el rendimiento y la resistencia a la sequía en una planta o en una población de plantas.
Según se describe en otra parte en la presente memoria, las plantas de maíz son adecuadas para su uso en la invención reivindicada, y la "primera población" descrita puede incluir una o más plantas de maíz. Los métodos no se encuentran de modo alguno limitados a una planta o plantas particulares, y las plantas de maíz se identifican aquí en aras de la ilustración solamente. Puede usarse casi cualquier especie de planta, incluidas, pero sin limitación a, las monocotiledóneas y las dicotiledóneas. Ejemplos de plantas incluyen, pero sin limitación a, maíz (Zea mays), Brassica spp. (p. ej., B. napus, B. rapa, B. juncea), castor, palma, alfalfa (Medicago sativa), arroz (Oryza sativa), centeno (Secale cereale), sorgo (Sorghum bicolor, Sorghum vulgare), mijo (p. ej., mijo perla (Pennisetum glaucum), mijo común (Panicum miliaceum), mijo menor (Setaria italica), mijo de dedo (Eleusine coracana)), girasol (Helianthus annuus), alazor (Carthamus tinctorius), trigo (Triticum aestivum), soja (Glycine max), tabaco (Nicotiana tabacum), patata (Solanum tuberosum), cacahuete (Arachis hypogaea), algodón (Gossypium barbadense, Gossypium hirsutum), batata (Ipomoea batatus), mandioca (Manihot esculenta), café (Coffea spp.), coco (Cocos nucifera), piña (Ananas comosus), cítricos (Citrus spp.), cacao (Theobroma cacao), té (Camellia sinensis), banana (Musa spp.), aguacate (Persea americana), higo (Ficus casica), guayaba (Psidium guajava), mango (Mangifera indica), aceituna (Olea europaea), papaya (Carica papaya), anacardo (Anacardium occidentale), macadamia (Macadamia integrifolia), almendra (Prunus amygdalus), remolacha azucarera (Beta vulgaris), caña de azúcar (Saccharum spp.), Arabidopsis thaliana, avena (Avena spp.), cebada (Hordeum spp.), plantas leguminosas como, por ejemplo, guar, algarroba, fenogreco, judías de jardín, caupí, judía mungo, vicia fava, lentejas, y garbanzos, verduras, plantas ornamentales, gramíneas y coníferas. Los vegetales incluyen tomates (Lycopersicon esculentum), lechuga (p. ej., Lactuca sativa), judías verdes (Phaseolus vulgaris), habas (Phaseolus limensis), guisantes (Pisium spp., Lathyrus spp.), y especies de Cucumis como, por ejemplo, pepino (C. sativus), melón cantalupo (C. cantalupensis), y melón verde (C. melo).
Las plantas ornamentales incluyen azaleas (Rhododendron spp.), hortensia (Macrophylla hydrangea), hibiscos (Hibiscus rosasanensis), rosas (Rosa spp.), tulipanes (Tulipa spp.), narcisos (Narcissus spp.), petunias (Petunia hybrida), clavel (Dianthus caryophyllus), flor de Pascua (Euphorbia pulcherrima), y crisantemo. Las coníferas incluyen pinos, por ejemplo, pino taeda (Pinus taeda), pino ellioti (Pinus elliotii), pino ponderosa (Pinus ponderosa), pino contorta (Pinus contorta), y pino de Monterrey (Pinus radiata), abeto de Douglas (Pseudotsuga menziesii); tsuga del Pacífico (Tsuga canadensis), pícea de Sitka (Picea glauca), secuoya (Sequoia sempervirens), abetos como, por ejemplo, abeto blanco (Abies amabilis) y abeto balsámico (Abies balsamea) y cedros como, por ejemplo, cedro rojo occidental (Thuja plicata) y cedro amarillo de Alaska (Chamaecyparis nootkatensis) .
Las células y/o tejido de las plantas que se han transformado pueden crecer en plantas mediante el uso de métodos convencionales (es preciso ver, p. ej., McCormick y otros (1986) Plant Cell Rep 5:81-84). Dichas plantas pueden entonces crecer y autopolinizarse, retrocruzarse y/o cruzarse sin repetición de ancestros, y la progenie resultante puede tener la característica deseada identificada. Dos o más generaciones pueden crecer para asegurar que la característica se mantenga de manera estable y se herede y luego las semillas se cosechen. De esta manera, se provee la semilla transformada que tiene un componente de cambio de gen, un represor, un promotor represible, un sistema de cambio de gen, un polinucleótido de interés, una recombinasa, un producto final de evento de recombinación, y/o polinucleótido que codifica un SuR de manera estable incorporado a su genoma. Una planta y/o una semilla que ha incorporado de forma estable el constructo de ADN puede además caracterizarse para la expresión, agronomía y número de copia.
Un primer conjunto de datos espectroscópicos - descritos más arriba - puede obtenerse de una o más plantas que no tienen (o se cree que no tienen) un rasgo transgénico. De manera alternativa, los datos pueden obtenerse de una o más plantas que poseen un rasgo transgénico. Dichos rasgos incluyen - pero sin limitación a - resistencia a insectos, resistencia al gusano de la raíz del maíz, resistencia a herbicidas, tolerancia a la sequía, utilización de nitrógeno, tolerancia al estrés, resistencia a enfermedades, rendimiento y similares.
También se proveen métodos para predecir la tolerancia a la sequía de una planta. Dichos métodos incluyen construir un modelo predictivo mediante el modelado inverso de datos espectroscópicos recogidos de una primera población de plantas y datos de tolerancia a la sequía medidos correspondientes de la primera población de plantas; aplicar el modelo predictivo a datos espectroscópicos recogidos de una segunda planta para estimar la resistencia a la sequía de la segunda planta. Los métodos son aplicables a poblaciones de plantas, así como a plantas individuales.
Además, se proveen métodos de predicción del nivel de un analito objetivo en una planta. Dichos métodos incluyen proveer un conjunto de datos espectrales de una o más plantas correspondientes a una o más concentraciones de valores de referencia de un analito de interés en la única o más plantas; construir un modelo predictivo entre los espectros de calibración y las concentraciones de valores de referencia en donde el modelo predictivo se construye usando el modelado inverso según un número óptimo de factores para modelar al menos una porción de dicho espectro de muestra; y generar un vector de coeficientes de calibración donde dicho vector constituye dicho modelo predictivo y en donde un número específico de factores modela al menos una región de un espectro.
Cualquier parte o partes de cualquiera de los métodos descritos en la presente memoria pueden llevarse a cabo utilizando un procesador. Los ordenadores personales, servidores, dispositivos informáticos portátiles y similares son todos apropiados para llevar a cabo una o más partes de los métodos.
Además, se proveen métodos para estimar una característica de una planta, los cuales comprenden construir mediante modelado inverso un modelo predictivo a partir de (i) un primer conjunto de datos espectroscópicos de una primera población de plantas y (ii) datos medidos correspondientes para la característica en al menos una porción de la primera población; y aplicar el modelo predictivo a un segundo conjunto de datos espectroscópicos de una segunda planta para estimar la presencia de la característica en la segunda planta. Al igual que con los otros métodos descritos, dichos métodos pueden también aplicarse a poblaciones de plantas y plantas individuales.
También se proveen sistemas para estimar una característica de una planta. Dichos sistemas incluyen, de manera adecuada, dispositivos que pueden recoger datos de absorbancia espectroscópicos de una o más plantas físicamente distantes del dispositivo. Dichos dispositivos son conocidos en la técnica. Los sistemas también incluyen, de manera adecuada, una o más unidades de memoria, cuyas unidades pueden ser extraíbles o integrales con el sistema. Dichas unidades pueden, de manera adecuada, almacenar los datos de absorbancia espectroscópicos recogidos, valores medidos de una característica de planta correspondiente a los datos de absorbancia espectroscópicos, o ambos. Los sistemas también incluyen uno o más dispositivos informáticos que pueden correlacionar, mediante modelado inverso, al menos una porción de los datos de absorbancia espectroscópicos con uno o más valores medidos de una característica de una planta correspondientes a los datos de absorbancia espectroscópicos.
Los dispositivos informáticos pueden incluir uno o más procesadores. Dispositivos a modo de ejemplo incluyen ordenadores personales, servidores y similares.
En algunos ejemplos, el dispositivo que puede recoger datos de absorbancia espectroscópicos puede también comunicar datos a la unidad de memoria, al dispositivo informático, o a ambos. Ello puede lograrse mediante conexión por cable, conexión radioeléctrica, conexión celular, y por otros métodos de comunicación conocidos en la técnica. El dispositivo puede transmitir los datos de modo que el sistema pueda construir y actualizar el modelo en tiempo real. En algunos ejemplos, el sistema construye el modelo según datos guardados; en otros, el sistema lo hace utilizando datos en tiempo real. El sistema puede también calcular el modelo según los datos guardados, y luego actualizar o revisar el modelo según los nuevos datos o datos en tiempo real.
Además, se proveen métodos de predicción de un nivel de introgresión de genoma para un experimento de retrocruzamiento. Dichos métodos incluyen, de manera adecuada, construir un modelo predictivo mediante principios de modelado inverso según el análisis quimiométrico de datos espectroscópicos de al menos una primera planta y nivel medido correspondiente de datos de introgresión de genoma como variables de entrada. El usuario puede entonces probar o validar el modelo. El usuario puede entonces aplicar el modelo (probado o no probado) a datos espectroscópicos (que pueden recogerse de forma remota) de al menos una segunda planta para estimar el nivel de introgresión de genoma en dicha al menos una segunda planta. Los métodos pueden, por supuesto, aplicarse a poblaciones de plantas, así como a plantas individuales.
Los datos espectroscópicos (p. ej., de detección remota) pueden incluir imágenes hiperespectrales de reflectancia de la planta. Los datos pueden también incluir datos de absorbancia.
Los datos medidos y los conjuntos de datos espectroscópicos o de detección remota pueden basarse en múltiples genotipos de una variedad de planta. El usuario puede también usar datos medidos y conjuntos de datos espectroscópicos o de detección remota que se toman de una planta o plantas que se han sometido a condiciones de crecimiento diferentes o variables, o incluso a condiciones ambientales diferentes o variables.
De esta manera, el usuario puede estimar el efecto que una condición de crecimiento (o ambiental) particular tiene - o es probable que tenga - en una planta o población de plantas. Por ejemplo, el usuario puede utilizar el modelo para estimar si es probable que una nueva condición de cultivo que se está evaluando tenga un efecto positivo o negativo en el rendimiento. La estimación o predicción puede usarse para elegir a favor o en contra de una planta, semilla o condición. Dicha selección puede incluir al menos una de (a) selección para mejora, (b) selección para avance genético, o (c) selección para producción de cantidades comerciales.
Se proveen métodos de predicción de un nivel de introgresión de genoma para un experimento de retrocruzamiento. Dichos métodos incluyen obtener datos espectroscópicos de una o más plantas de progenie de un experimento de retrocruzamiento con respecto a una línea parental deseada de plantas; correlacionar los datos espectroscópicos con la única o más plantas de progenie; analizar los datos espectroscópicos para medir, de manera cuantitativa, una o más características (p. ej., variables fenotípicas) de la única o más plantas de progenie; y evaluar la proximidad de la planta o plantas de progenie con respecto a la línea parental deseada mediante referencia a la medida cuantitativa de la única o más características.
En un aspecto, la presente invención provee métodos para predecir una característica de una planta, que, según se describe en otra parte en la presente memoria, incluye fenotipo, salud, fisiología, genotipo, introgresión y similares. Dichos métodos incluyen, de manera adecuada, construir un modelo predictivo mediante principios de modelado inverso según el análisis quimiométrico de conjuntos de datos espectroscópicos o de detección remota y conjuntos de datos de valores de constituyente, fenotipo, salud, o fisiología medidos correspondientes como variables de entrada. El usuario puede probar o de otra manera validar el modelo, y aplicar el modelo a un conjunto de datos espectroscópicos o de detección remota de interés. Dichos datos pueden recogerse de manera remota, según se describe en otra parte en la presente memoria.
Los datos incluyen, de manera adecuada, espectros de múltiples longitudes de onda de una o más de luz visible (VIS), infrarroja (IR), infrarroja cercana (NIR), o ultravioleta (UV). Por ejemplo, los datos pueden incluir espectros en dos, tres, diez o incluso más longitudes de onda discretas. Los datos pueden incluir múltiples en rangos predeterminados, p. ej., espectros de 300 a 500 nm, en 1 nm u otros incrementos. Los espectros pueden ser reflectancia o absorbancia; los espectros de absorbancia se consideran especialmente adecuados. En algunos ejemplos, los espectros son datos hiperespectrales, los cuales se describen en detalle en otra parte en la presente memoria y en las figuras anexas.
El modelado inverso se efectúa, de manera adecuada, por el análisis de regresión de mínimos cuadrados parciales. Los métodos también pueden incluir una o más validaciones adicionales para mejorar, estabilizar o refinar el modelo.
En algunos ejemplos, los métodos generan una predicción a partir del conjunto de datos de interés. Por ejemplo, los métodos pueden usarse para estimar un nivel futuro de una característica particular (p. ej., altura de la planta) mediante correlación de los espectros tomados de una planta de interés con espectros tomados de otras plantas de diferentes edades. La presente predicción puede usarse para seleccionar (o retirar) una planta para mayor investigación o producción comercial.
Los constituyentes de particular interés incluyen contenido de humedad en la hoja, concentración de clorofila, actividad de fotosíntesis, nivel de introgresión en un experimento de retrocruzamiento, estrés hídrico, y similares. Las plantas de maíz se consideran especialmente adecuadas para los métodos descritos; otras plantas (soja, trigo) también son adecuadas.
También se proveen aparatos para construir un modelo de predicción para el constituyente, fenotipo, salud o fisiología de la planta. Dichos aparatos incluyen (a) un ordenador adaptado para almacenar los datos espectroscópicos o de detección remota; (b) una base de datos o memoria en el ordenador adaptada para almacenar valores de constituyente, fenotipo, salud, o fisiología medidos correspondientes; (c) un algoritmo operado en el ordenador y adaptado para construir una predicción de modelo inverso del constituyente, fenotipo, salud o fisiología según los datos detectados y almacenados medidos; y (d) una entrada en el ordenador para ingresar un conjunto de datos espectroscópicos o detectados de forma remota de interés para la predicción.
Los constituyentes de interés se describen en otra parte en la presente memoria, y pueden incluir contenido de humedad en la hoja, concentración de clorofila, actividad de fotosíntesis, nivel de introgresión en retrocruzamiento, estrés hídrico, y similares. El algoritmo puede basarse en un análisis de mínimos cuadrados parciales.
La invención también provee sistemas para predecir el constituyente, fenotipo, salud o fisiología de la planta. Dichos sistemas incluyen, de manera adecuada, un sensor de detección remota o espectroscópico adaptado para detectar y/o registrar datos espectroscópicos o de detección remota; un ordenador adaptado para leer los datos espectroscópicos o de detección remota; una base de datos o memoria en el ordenador adaptada para almacenar valores de constituyente, fenotipo, salud, o fisiología medidos correspondientes; un algoritmo operado en el ordenador y adaptado para construir una predicción mediante modelo inverso del constituyente, fenotipo, salud o fisiología según los datos detectados y medidos; y una entrada en el ordenador para ingresar un conjunto de datos espectroscópicos o detectados de forma remota de interés para la predicción.
El sensor puede configurarse para transmitir datos espectroscópicos a un receptor o registrador. El sensor puede fijarse en la posición o puede ser móvil.
También se proveen métodos para predecir la concentración de clorofila de una planta. Dichos métodos incluyen, de manera adecuada, construir un modelo predictivo mediante principios de modelado inverso según el análisis quimiométrico de conjuntos de datos espectroscópicos o de detección remota y conjuntos de datos de concentración de clorofila medidos correspondientes como variables de entrada; de manera opcional, probar o validar el modelo; y aplicar el modelo a un conjunto de datos espectroscópicos o de detección remota de interés.
El conjunto de datos puede ser imágenes espectrales de reflectancia de la planta o plantas, o pueden ser datos de absorbancia de los sujetos. Las imágenes pueden ser al menos una de datos tomados en (a) longitud(es) de onda discreta(s), (b) datos multiespectrales, o (c) datos hiperespectrales. Los datos de concentración de clorofila y los conjuntos de datos espectroscópicos o de detección remota medidos pueden basarse en uno o en múltiples genotipos de una planta.
En algunos ejemplos, los datos de concentración de clorofila y los conjuntos de datos espectroscópicos o de detección remota medidos se basan en condiciones de crecimiento que difieren para una planta. En algunos ejemplos, los datos de concentración de clorofila y los conjuntos de datos espectroscópicos o de detección remota medidos se basan en condiciones de crecimiento que difieren para una planta.
Además, se proveen métodos para predecir el contenido de humedad en la hoja de una planta. Dichos métodos incluyen construir un modelo predictivo mediante principios de modelado inverso según el análisis quimiométrico de conjuntos de datos espectroscópicos o de detección remota y conjuntos de datos de contenido de humedad en la hoja medidos correspondientes como variables de entrada. El usuario puede, de manera opcional, probar o de otra manera validar el modelo; y aplicar el modelo a un conjunto de datos espectroscópicos o de detección remota de interés.
Los datos espectroscópicos o de detección remota comprenden imágenes hiperespectrales de luz infrarroja cercana y visible de reflectancia de la planta. Los datos pueden también incluir datos IR cercano y UV, y también pueden incluir datos de absorbancia. Los datos de contenido de humedad en la hoja medidos y los conjuntos de datos espectroscópicos o de detección remota pueden basarse en múltiples genotipos de una planta, en condiciones de crecimiento que difieren para una planta, o incluso en condiciones ambientales que difieren para una planta.
También se proveen métodos de nivel de introgresión de genoma para un experimento de retrocruzamiento. Dichos métodos incluyen, de manera adecuada, construir un modelo predictivo mediante principios de modelado inverso según el análisis quimiométrico de conjuntos de datos espectroscópicos o de detección remota y nivel medido correspondiente de conjuntos de datos de introgresión de genoma como variables de entrada - el usuario puede probar o validar el modelo. El usuario aplica, de manera adecuada, el modelo a un conjunto de datos espectroscópicos o de detección remota de interés. Según se describe en otra parte en la presente memoria, los datos espectroscópicos o de detección remota pueden incluir datos hiperespectrales de datos de reflectancia o absorbancia de una planta o plantas. Los datos pueden basarse en múltiples genotipos de una planta, en condiciones de crecimiento que difieren para una planta, o incluso en condiciones ambientales que difieren para una planta.
Las predicciones generadas por los métodos pueden usarse para la selección de una planta o su semilla. La selección puede incluir, de manera adecuada, al menos una de (a) selección para mejora, (b) selección para avance genético, o (c) selección para producción de cantidades comerciales.
Además, se proveen métodos de predicción de un nivel de introgresión de genoma para un experimento de retrocruzamiento. Dichos métodos incluyen obtener datos espectroscópicos relacionados con una o más plantas de progenie de un experimento de retrocruzamiento con respecto a una línea parental deseada de plantas; correlacionar los datos espectroscópicos con la única o más plantas de progenie; analizar los datos espectroscópicos para medir, de manera cuantitativa, una o más variables fenotípicas de la única o más plantas de progenie; evaluar la proximidad de la planta o plantas de progenie con respecto a la línea parental deseada mediante referencia a la medida cuantitativa de la única o más variables fenotípicas.
En algunos ejemplos, los métodos incluyen correlacionar los espectros de las plantas de progenie con uno o más espectros que corresponden a valores medidos - o estimados - para una o más características de la planta. En dichos métodos, el usuario construye un modelo inverso (descrito en mayor detalle en otra parte en la presente memoria) para relacionar la información espectral y el nivel de o la presencia de una característica y usa dicho modelo para estimar o predecir el nivel o la presencia de dicha característica en las plantas de progenie. Los datos pueden incluir datos multiespectrales o hiperespectrales que se obtienen mediante detección remota. El análisis quimiométrico puede usarse para construir un modelo predictivo por principios de modelado inverso, y los métodos pueden incluir la selección o no selección de una planta o plantas de progenie para mayor uso.
La presente invención también provee métodos de predicción de actividad de fotosíntesis de una planta. Dichos métodos incluyen construir un modelo predictivo mediante principios de modelado inverso según el análisis quimiométrico de conjuntos de datos espectroscópicos o de detección remota y conjuntos de datos de actividad de fotosíntesis medidos correspondientes como variables de entrada. El usuario puede probar o validar el modelo; el modelo se aplica, de manera adecuada, a datos espectroscópicos (p. ej., detectados de forma remota) de interés.
También se proveen métodos para predecir la tolerancia a la sequía de una planta. Dichos métodos implican construir un modelo predictivo mediante principios de modelado inverso según el análisis quimiométrico de conjuntos de datos espectroscópicos o de detección remota y conjuntos de datos de tolerancia a la sequía medidos correspondientes como variables de entrada. El usuario puede probar o validar el modelo, según se describe en otra parte en la presente memoria.
Además, se proveen métodos de desarrollo de calibración para predecir una concentración de un analito objetivo en espectros de muestra. Dichos métodos implican, de manera adecuada, el uso de técnicas multivariantes basadas en factores. En algunos ejemplos, los métodos incluyen proveer una matriz de espectros de calibración y valores de referencia asociados de una concentración de analitos de interés; modelar una función de predicción al menos en los espectros de calibración y valores de referencia asociados según un número óptimo de factores requerido para modelar al menos una porción de dicho espectro de muestra; y generar un vector de coeficiente de calibración donde el vector constituye la calibración. Un número de número de factores específico entonces modela al menos una región de un espectro.
También se proveen métodos para predecir la concentración de un analito objetivo a partir de un conjunto de datos de prueba según una calibración multivariante. Dichos métodos incluyen, de manera adecuada, proveer un conjunto de datos de calibración, que comprende una matriz de espectros de muestra y valores de referencia asociados de la concentración de analitos objetivo; generar una calibración mediante modelado del conjunto de datos de calibración según un algoritmo iterativo combinatorio, donde un número específico de factores modela al menos una región de un espectro independiente de posibles factores; y aplicar dicha calibración a un conjunto de datos de prueba de modo que se produzca una predicción de una concentración de analitos objetivo.
A. Realizaciones No Restrictivas
Con el fin de proveer una comprensión adicional de la invención, se describen en detalle varios ejemplos no restrictivos. Se hará referencia a los dibujos anexos. Los numerales de referencia se usan para indicar partes o ubicaciones en los dibujos. Dichos numerales de referencia iguales indicarán las mismas partes o ubicaciones a lo largo de los dibujos a menos que se indique lo contrario.
Algunos ejemplos de constituyentes son clorofila de la planta y contenido de humedad en la hoja. Algunos ejemplos de características son nivel de introgresión en el cruce, actividad de fotosíntesis, determinación de variedad, modificación de transgén y resistencia al estrés hídrico. Dichos ejemplos se describen en mayor detalle en otra parte en la presente memoria.
B. Método y Sistema Generales de Predicción de un Constituyente o Característica de Plantas de Maíz a partir de Imágenes Indirectas Detectadas de Forma Remota de Plantas de Muestra por el Modelado Inverso
1. Descripción General del Sistema y Método Generales a Modo de Ejemplo
El método incluye (1) seleccionar varias regiones discretas o multiespectrales o hiperespectrales del espectro electromagnético, (2) obtener una imagen digital de un objeto de interés, (3) seleccionar y medir la intensidad de radiación en una o más longitudes de onda en las regiones discretas multiespectrales o hiperespectrales, (4) medir directamente el analito o característica de interés, y (5) modelar dichas mediciones para obtener un valor indicativo de un analito o característica de interés en el objeto. El modelo puede usarse como un predictor.
Información especial obtenida del presente método está sujeta a al menos una transformación matemática para llegar a una concentración de analitos o valor de predicción de característica. Ejemplos de dichas transformaciones son los análisis de mínimos cuadrados parciales (PLS). Es preciso ver, p. ej., Martens y Naes 1989. La transformación matemática puede ordenar un modelo que se usa para la concentración de analitos o predicciones de características de objetos desconocidos. El modelo puede construirse por un conjunto de capacitación de imágenes espectrales y puede directa e independientemente derivar mediciones de características o concentración de analitos de los objetos o muestras de capacitación. Mediante el uso de técnicas que incluyen, pero sin limitación a, la validación cruzada y la detección de valores atípicos, el modelo puede ajustarse, si fuera necesario, a una forma más robusta.
Un sistema computarizado 90 (es preciso ver la Figura 3) produce una predicción de un constituyente o característica de interés de una planta de maíz o conjunto de plantas de maíz, de datos multiespectrales o hiperespectrales adquiridos por imágenes espectroscópicas detectadas de forma remota de la planta o plantas. La adquisición de las imágenes puede realizarse de manera relativamente eficiente para múltiples plantas o conjuntos de plantas. Las imágenes para diferentes plantas o conjuntos de plantas pueden estar espacial o temporalmente cerca o lejos. La predicción puede ser casi en tiempo real después de la adquisición de las imágenes, o puede ser en un momento posterior, conveniente, si se desea.
(a) Variables de Entrada (datos de calibración o capacitación X e Y)
Los dos conjuntos de datos de variables de entrada 43 (variables independientes X) y 44 (variables dependientes Y) se ingresan, cada uno, en el algoritmo de modelado inverso 42. Las variables X son un conjunto de datos de capacitación 43 que comprenden datos espectrales (ya sean datos multiespectrales o hiperespectrales) obtenidos mediante detección remota. Las variables Y son un conjunto de datos 44 de mediciones directas independientes de la característica de interés (p. ej., constituyente como, por ejemplo, contenido de clorofila de la hoja) asociadas a al menos un número sustancial de las mismas plantas o parcelas representadas en imágenes por detección remota para obtener el conjunto de datos 43. Los métodos para obtener tanto el conjunto de datos detectado de forma remota X como las mediciones reales directas Y son conocidos en la técnica o por las personas con experiencia en la técnica.
(b) Datos X
Un ejemplo de datos de detección remota es una imagen detectada de forma remota de la planta o plantas, que pueden convertirse por métodos conocidos en un espectrograma. El espectrograma puede muestrearse en un número de longitudes de onda para proveer una matriz de valores correlacionados con la longitud de onda. Dicha matriz está, por consiguiente, disponible para ingresarse en el algoritmo de construcción de modelo 42.
La detección remota se usa para recoger imágenes digitales de múltiples plantas que tienen un buen rango de variación con respecto al analito o característica de interés como un conjunto de capacitación. Es deseable tener una dispersión razonable en mediciones de referencia y datos espectrales de calidad. Las imágenes pueden ser de canopias de planta mediante detección remota. Si una resolución suficiente está disponible, los datos pueden extraerse planta por planta. De manera alternativa, la detección remota puede usarse para obtener imágenes según la planta. Las imágenes pueden obtenerse a una velocidad de meros varios segundos por muestra. El método puede usar imágenes de conjunto de calibración de solo unas pocas muestras o de millones (o más) de muestras.
En dichos ejemplos descritos, los datos adecuados incluyen datos multiespectrales o hiperespectrales que cubren al menos el rango visible e infrarrojo cercano; el rango ultravioleta puede también incluirse. Las variables X independientes pueden ser datos espectrales de las regiones IR, NIR, VIS y/o UV del espectro. Modelos a modo de ejemplo se han construido a partir de 520 longitudes de onda de 400 a 1000 nm. Otros modelos se construyen a partir de 13 longitudes de onda. La invención no se encuentra limitada a una longitud de onda o a un número de longitudes de onda particulares.
Cada imagen digital puede procesarse para producir espectros de absorción en el rango seleccionado. De manera más específica, una imagen se procesa para extraer los espectros para cada longitud de onda a lo largo del rango para cada plano de imagen de la imagen digital, como se ilustra en la Figura 2 por métodos conocidos en la técnica.
(c) Datos Y
La medición directa de la característica o analito de interés se obtiene y se asocia a la imagen digital de cada objeto de interés (cada muestra). Un ejemplo de mediciones de fenotipo reales es la concentración de clorofila en la hoja para plantas de maíz. En cualquier momento después de la aparición, la concentración de clorofila en la hoja de las plantas puede medirse por cualquiera de un número de métodos conocidos. Un ejemplo se describe en el documento US 7.112.806. La presente información puede, asimismo, ingresarse en una tabla de base de datos o matriz, la cual, a su vez, puede ingresarse en un algoritmo de construcción de modelo basado en software 42. Además de las variables continuas, también se pueden predecir características discretas. El estrés hídrico y los transgenes son perturbaciones del maíz que pueden predecirse como características.
(d) Métodos de Calibración
Martens y Naes 1989, Capítulo 3, describen varios métodos de calibración. La selección de componentes principales y propiedades de PCR en la predicción se describen en detalle en la sección 3.4.6. PLSR se describe en detalle a continuación. PLSR comprime X a sus factores más relevantes, y puede usarse para una variable Y, o para múltiples variables Y.
Martens y Naes 1989, Capítulos 4 y 5, describen el diseño del enfoque de modelado, incluidas la selección de datos, la función de transferencia matemática y las etapas pre y postratamiento. Se describe una variedad de posibles enfoques de calibración multivariante. Martens y Naes 1989, Capítulo 6, titulado "Data selection and experimental design" describen algunas de las consideraciones en la selección. Estas incluyen: (a) definir la población objetivo de una calibración, Sección 6.1.3; (b) evaluación preliminar de la complejidad del problema, sección 6.1.4; (c) elegir variables a medir, sección 6.2; (d) variables Y de referencia; (e) variables X de instrumento; (f) diseño experimental para la calibración, (g) principios básicos, sección 6.3.1, (g) selección del conjunto de calibración de objetos disponibles, sección 6.4. Una persona con experiencia en la técnica puede utilizar el presente material como un punto de partida para la selección de un diseño. Martens y Naes 1989, el Capítulo 7 se titula " Pretreatment and linearization". El presente capítulo describe cosas como: (a) ponderación de variables, (b) problemas de linealidad, y (c) suavizado. Martens y Naes 1989, el Capítulo 8 se titula "Multivariate calibration illustrated: quantifying litmus in dirty samples". Provee una descripción de un diseño experimental específico, que incluye (a) formación del problema, diseño y mediciones, (b) análisis de datos de exploración y pretratamientos de datos, (c) calibración, (d) calibraciones especializadas, (e) predicción, detección de valores atípicos y clasificación.
Existe una variedad de técnicas alternativas para modelos de regresión multivariante. Una característica principal es que dichos modelos manejan mediciones no selectivas multivariantes y permiten la utilización de toda o de la mayor parte de la información medida antes que tener que recurrir a la preselección de unos pocos canales de medición discretos.
Otro beneficio de dicho análisis multivariante es que el modelo de calibración no solo provee predicciones numéricas de la propiedad buscada, se obtiene un número de parámetros informativos más los residuales. Estos pueden usarse en una manera exploratoria para investigar la validez del modelo, mejorar el modelo, comprender porqué el modelo no funciona, o ver dónde una muestra difiere de otras muestras. Otros usos exploratorios son posibles.
Las cargas, por ejemplo, pueden mostrar que algunas variables medidas no se comportan según lo esperado. Las puntuaciones pueden proveer información esperada, así como no esperada, sobre las muestras. Por ejemplo, un valor de puntuación extremo indica una muestra extrema o, posiblemente, un valor atípico. La visualización de componentes principales permite una manera de comprender el modelo.
Con respecto a los valores atípicos, un análisis multivariante puede ser beneficioso. Los errores son la norma antes que la excepción debido, por ejemplo, a errores triviales, errores de instrumentos y errores de muestreo. Si son significativamente grandes en cantidad o calidad, dichos errores pueden destruir resultados o interpretación significativos. La detección de valores atípicos se mejora ampliamente por datos multivariantes.
Una ventaja de PCA, por ejemplo, es que hay maneras de identificar residuales (a saber, partes de un perfil espectral que no pueden describirse por las cargas) como ruido de medición o posiblemente variación no modelada. Una vez detectada, una variedad de maneras que incluyen el análisis estadístico robusto puede usarse para tomar decisiones independientemente de si los residuales representan o no información de modelo relevante y cómo deben manejarse.
Los modelos multivariantes pueden manejar situaciones donde los modelos univariantes no pueden. Por ejemplo, es posible incorporar interferentes y tener una detección automática de valores atípicos cuando se construye o utiliza un modelo. Los modelos multivariantes y los datos hacen posible complementar enfoques deductivos tradicionales con uno exploratorio.
Antes que usar experimentos para simplemente verificar las hipótesis, nuevas ideas, conocimiento e hipótesis pueden provenir de datos medidos directamente mediante visualización apropiada de mediciones que son descriptivas para un problema particular. Ello puede ahorrar tanto tiempo como dinero.
(e) PCA
Un método PCA puede usarse para reducir la dimensionalidad de un gran número de variables interrelacionadas (intensidades de absorción en diferentes longitudes de onda) mientras se retiene información que distingue un componente de otro. Como se conoce, la reducción de datos es un resultado de utilizar una transformación del eigenvector de un conjunto original de variables interrelacionadas (p. ej., el espectro de absorción) en un conjunto sustancialmente más pequeño de variables de componentes principales (PC, por sus siglas en inglés) ortogonales que representa la mayoría de la información en el conjunto original. El nuevo conjunto de variables se ordena de modo que los primeras pocas retienen la mayor parte de la variación presente en el conjunto original. Los vectores de componentes principales pueden transformarse por rotación ortogonal contra un valor promedio para la absorbancia para obtener tanto una longitud de onda conocida como el valor relativo de la absorbancia en la longitud de onda que es atribuible al analito (a saber, vectores versus puntuaciones).
Al llevar a cabo dicho análisis sobre la información obtenida del rango espectral seleccionado, la correlación cruzada de los vectores de componentes principales mediante un algoritmo lineal, y al usar, a veces, otros métodos para eliminar el ruido, se obtienen valores de puntuación que pueden usarse en un algoritmo de sistema o modelo para determinar la concentración del constituyente o característica de interés.
En PCA, el componente principal (también llamado, de forma más general, una variable latente) describe la variación principal en los datos totales, a veces complejos, del conjunto de predicción. El vector de carga es un nuevo elemento de base para representar los datos. Las puntuaciones ponderan la cantidad de dicho vector de carga en cada uno de los espectros. Las cargas y las puntuaciones se encuentran a partir de los perfiles medidos solos y en un sentido de mínimos cuadrados.
Otra parte del modelo de componentes principales se conoce como "residuales", que son la parte de los espectros que no se incluyen en la variación de la nueva base. Normalmente, los residuales son ruido de medición. PCA puede resultar en solo un componente. Si hay más de un tipo de fenómeno en los espectros medidos, pueden determinarse más componentes en una manera equivalente. En general, PCA reemplaza las muchas variables (las longitudes de onda individuales del rango de espectro multiespectral o hiperespectral) con nuevas variables.
Los modelos de calibración PCA pueden usarse para verificar interferencia, valores atípicos, o agrupamiento de muestras. Si la variación de interés es fuerte como, por ejemplo, sequía, el efecto puede ser obvio en la separación de las puntuaciones que representan la variación significativa en los datos. Las puntuaciones PCA del modelo pueden alertar a un usuario sobre algunos datos potenciales erróneos (p. ej., la muestra es incorrecta o los sensores no están funcionando correctamente). Las puntuaciones pueden también señalar interferencias en los espectros. Por consiguiente, es útil emplear un número de conjuntos de predicción estadísticamente significativo que tenga un buen rango de variación.
Las predicciones pueden también realizarse a partir de una regresión de las puntuaciones contra los rasgos de interés. Los modelos de calibración basados en puntuaciones se llaman modelo de regresión sobre componentes principales. Para predecir la concentración de un analito o característica de interés en una nueva muestra, se mide un perfil de mezcla de muestras. A partir de los vectores de carga ya conocidos descubiertos durante la etapa de calibración, los valores de puntuación de la nueva muestra pueden calcularse y dichas puntuaciones se insertan en el modelo de regresión. Ello produce una predicción de la concentración de analitos o característica.
(f) PLS
PLS (mínimos cuadrados parciales) es otro ejemplo de un método de calibración. El objetivo de PLS es definir un conjunto de variables latentes a través de la proyección del proceso y espacios de calidad en nuevos subespacios ortogonales mediante la maximización de la covarianza entre los dos espacios. En el proceso de modelado espectrográfico, los componentes de la matriz de características espectrales se extraen para maximizar la covarianza con la absorbancia medida en el conjunto de muestras de calibración. Las relaciones se desarrollan a partir del conjunto de capacitación y luego se aplican al conjunto de desconocidos. PLS funciona bien no solo para analizar las concentraciones de químicos específicos, sino también para analizar propiedades o características de muestras que producen una respuesta espectral.
La regresión PLS generaliza y combina características del análisis de componentes principales y la regresión múltiple. Un uso es la predicción de un conjunto de variables dependientes de un conjunto, en general, muy grande, de variables independientes (a saber, predictores). PLS puede ser un método de análisis poderoso debido a sus mínimas demandas de escalas de medición, tamaño de muestra y distribuciones residuales. PLS puede usarse para la confirmación de la teoría, pero también para descubrir relaciones que pueden o pueden no ser conocidas y también para sugerir proposiciones para pruebas posteriores.
PLS evita dos problemas, a saber, soluciones inadmisibles e indeterminación de factores. Se supone que toda la varianza medida es varianza útil que se explicará. El enfoque estima las variables latentes como combinaciones lineales exactas de las medidas observadas.
PLS, por lo tanto, evita el problema de la indeterminación y provee una definición exacta de las puntuaciones de componentes. Mediante el uso de técnicas de estimación iterativas, PLS provee un modelo general que abarca un número de técnicas de transformación. Dado que el algoritmo iterativo consiste, en general, en una serie de análisis de mínimos cuadrados ordinario, la identificación no es un problema para los modelos recursivos, ni supone una forma distribucional para las variables medidas.
PLS es apropiado para explicar relaciones complejas. En PLS de espectroscopia las variables X son espectros y las variables Y son constituyentes. Los datos X se proyectan en un pequeño número de variables latentes subyacentes llamadas componentes PLS. Los datos Y se usan, de forma activa, en la estimación de las variables latentes para asegurar que los primeros componentes sean aquellos que son más relevantes para predecir las variables Y. La interpretación de la relación entre datos X y datos Y se simplifica entonces dado que la relación se concentra en el número más pequeño de componentes.
El trazado de los primeros componentes PLS permite la visualización de asociaciones principales entre variables X e Y y también interrelaciones con datos X e Y. El software PLS también permite la clasificación para asignar, de manera fiable, nuevas muestras a clases existentes en una población dada. El presente tipo de análisis se conoce como análisis discriminante PLS (PLS-DA, por sus siglas en inglés). A veces, es deseable tener una predicción continua con respecto al nivel de un constituyente en la planta (p. ej., humedad o clorofila). Otras veces, las relaciones Booleanas son deseables (p. ej., en qué clase, 0 o 1, cae una planta como, por ejemplo, entre con estrés hídrico o sin estrés; es un no continuo). PLS-DA puede usarse para esto.
(g) Prueba y Validación del Modelo
Parte del desarrollo del modelo 45 es el procesamiento exitoso de un conjunto de capacitación o prueba 46 de datos espectrales. Una vez que el modelo 45 se haya creado, el conjunto de capacitación 46 se ingresa en el modelo 45 y una predicción 50 se emite desde el modelo 45. La predicción 50 se verifica con la medición de referencia directa e independiente correspondiente al conjunto de capacitación 46 (es preciso ver la etapa 46 de la Figura 7). Si la comparación se encuentra dentro de un margen de error aceptable, la validación del modelo 45 puede suponerse y la predicción 50 puede usarse. Sin embargo, si la predicción 50 se encuentra fuera del margen de error, el modelo 45 puede revisarse o verificarse. Ello puede llevarse a cabo en una manera iterativa hasta que la predicción 50 se encuentre dentro de un margen de error aceptable y se considere validada.
Como puede apreciarse, el proceso de validación puede adoptar muchas formas. En un ejemplo, un análisis estadístico puede llevarse a cabo entre la predicción según un conjunto de validación y según mediciones de referencia correspondientes. Dicho análisis es una validación cruzada con una cuantificación de coeficiente de determinación o suma de cuadrados (R2) como, por ejemplo, se conoce.
Martens y Naes 1989, el Capítulo 4, titulado "ASSESSEMENT, VALIDATION and CHOICE OF CALIBRATION METHOD", describe una variedad de métodos. Los ejemplos son: (a) evaluación de validación de MSE; (b) externa, (c) interna, y (d) validación cruzada, sección 4.3.2.2. Se describen la selección de modelo y la verificación, es preciso ver, en particular, la sección 4.5 y la sección 4.6. La detección de valores atípicos, la clasificación de resultados y la recalibración se describen en el Capítulo 5. El capítulo incluye una descripción de métodos para decidir si cualquiera debe incluirse en la formación del modelo, o si deben incluirse en el modelo de predicción.
La Figura 8 ilustra una opción de validación. Etapas de validación adicionales 60/62 pueden usarse. En el presente ejemplo, los datos RS 62 de la misma población de plantas que los datos de conjunto de capacitación RS se ingresan en el modelo 45. Mediante el uso de los datos de validación 62 como una entrada, se genera otra predicción 50 con dichos datos de entrada diferentes (pero de la misma población de plantas). Si la predicción 50 generada a partir de los datos de validación 62 se encuentra dentro de un margen de error aceptable, el modelo 45 se valida y está listo para datos de prueba RS 72.
Las Figuras 9A y B ilustran una segunda validación adicional que puede usarse. Aquí, el conjunto de datos RS de capacitación de una población de plantas se usa para crear el modelo 45. Luego, según se describe con respecto a la Figura 8, un primer conjunto de validación de datos RS 62 tomados de la misma población de plantas como conjunto de capacitación 46 se usa como la entrada al modelo 45 para otra ronda de validación. Las Figuras 9A y B ilustran que un segundo conjunto de validación de datos de validación RS 66, aquí de una población diferente con respecto al conjunto de capacitación 46 (y al primer conjunto de validación 62) puede usarse como la entrada al modelo 45.
Según se muestra en las etapas 60 y 64, solo si ambas etapas de validación se encuentran dentro de un margen de error aceptable el modelo 45 se valida como listo para operar en datos 72 reales para la predicción. Si no, el modelo 45 puede revisarse hasta que se valide (es preciso ver la etapa 48).
El modelo de calibración 45 se ha desarrollado y evaluado mediante el uso de la validación cruzada total (Martens y Naes, 1989). El número óptimo de variables/términos latentes en el modelo de calibración PLS se ha determinado mediante validación cruzada. Las ecuaciones de calibración resultantes entre los datos Y de análisis químico y los datos X VIS y NIR se han evaluado según el coeficiente de determinación en calibración (R2) y la media cuadrática del error estándar en la validación cruzada (RMSECV, por sus siglas en inglés).
Gráficos dispersos de los valores de referencia y estimados de las propiedades fisicoquímicas o constituyente de interés indican exactitud del modelo. Estos también pueden permitir la clasificación en grupos cualitativos. El software identificado permite al usuario seleccionar diferentes gráficos, visualizaciones y técnicas de clasificación.
2. Comparación con el Enfoque Clásico
Un método generalizado para predecir un constituyente o característica de una planta a partir de un modelo creado por técnicas de modelado inverso, según un aspecto de la presente invención, se comprende mejor mediante comparación con el método inverso o clásico de la técnica anterior de la Figura 6.
El enfoque de la técnica anterior (ilustrado en el diagrama de flujo 10 de la Figura 6) construye un modelo 14 para predecir un constituyente a partir de datos de detección remota por un algoritmo 12 de modelado clásico o inverso. El algoritmo 12 se basa en un conocimiento a priori y métodos científicos que intentan crear hipótesis sobre los factores principales que influyen en el constituyente. Los datos reales para la predicción 16 se introducen entonces en el modelo 14. El modelo 20 puede probarse (etapa 20).
Si las pruebas validan el modelo 14 (según cualquiera de un número de métodos de validación convencionales), se usa la predicción 30. Por otro lado, si la prueba 20 no valida el modelo 14, el diseñador puede revisar el modelo 14 o algoritmo 12. El presente enfoque es conocido en la técnica. Dichos enfoques clásicos basados en lo causal tienen ciertas deficiencias que no se tratan de manera adecuada en la tecnología de vanguardia de mejora vegetal, avance y producción comercial. Por ejemplo, uno se arriesga a tener una comprensión incompleta de qué afecta al constituyente (o características relacionadas) y cómo ponderarlo de manera acorde.
Un ejemplo de aplicación del método convencional de la Figura 6 aplicado a la predicción de un constituyente en plantas de maíz es el siguiente. Un modelo inverso se desarrolla según suposiciones como, por ejemplo, reflectancia detectada de una longitud de onda discreta de energía visible, IR o UV de la planta. Las imágenes digitales detectadas de forma remota de un conjunto de parcelas experimentales de plantas de maíz de diferente genotipo (p. ej., seis híbridos diferentes en seis parcelas A1-C3 en una ubicación de crecimiento 1 como se ilustra, de forma de diagramática, en la Figura 1) se obtienen por un sensor de detección remota apropiado filtrado para la longitud de onda discreta.
El modelo 12 se construye para tomar valores relacionados con la longitud de onda discreta medida para cada parcela y registrarlos en una fórmula matemática predeterminada como la variable para generar una solución para cada parcela, que es un contenido de constituyente pronosticado 30 para cada valor de longitud de onda discreta predeterminado para relacionarse con el contenido de constituyente de una planta de maíz. Como puede apreciarse, el presente método 10 filtra el espectro solo a la longitud de onda discreta. En este sentido, reduce ampliamente la cantidad de datos espectrales a analizar. Pero se cierra, depende de, y está limitado por la suposición anterior de que solo dicha longitud de onda informa una predicción exacta del constituyente.
Por consiguiente, el método inverso general es un enfoque diferente de los enfoques de modelado clásico o inverso, con beneficios prominentes y sutiles, algunos de los cuales se encuentran interrelacionados. El uso del análisis multivariante provee una herramienta para derivar información útil de lo que puede ser una gran cantidad de datos. El análisis no solo permite construir un modelo de calibración, sino que la predicción a partir de dicho modelo con validación evita un ajuste estrecho demasiado precavido y un sobreajuste ambicioso. Puede identificar valores típicos extremos o errores en los datos para permitir el abordaje de dichos datos.
El modelo de calibración puede optimizarse a través de pruebas y validación, así como técnicas de pretratamiento y linealización. El análisis multivariante provee una predicción fiable de información que se necesita en el momento justo por un coste aceptable a partir de mediciones de observación indirecta incluso a pesar de los problemas de selectividad, interferencia y errores.
3. Detalles Sobre un Enfoque Inverso a Modo de Ejemplo
(a) Hardware
La Figura 3 ilustra un ejemplo no restrictivo de un sistema de hardware en el cual se practica, de manera adecuada, cualquiera de los métodos de las Figuras 7-9. Un procesador de ordenador 92 se conecta, de manera utilizable, a un terminal 94 (teclado y visualización) mediante Ethernet 98. El procesador está, de manera utilizable, en comunicación con una base de datos RS db1 (datos del bloque X) y una base de datos de constituyentes medidos db2 (datos del bloque Y). Una impresora 96 (u otro dispositivo periférico como, por ejemplo, un módem, concentrador inalámbrico, conexión de Internet, etc.) permite la impresión o comunicación de los resultados de un programa de software utilizable con el procesador 92 que practica el modelo de predicción 45. Un monitor de ordenador permite la visualización de información al usuario.
Por supuesto, es posible una variedad de configuraciones e implementaciones de hardware y software. En la Figura 3, un ordenador central se indica para el procesador 92 dado que el algoritmo de modelado inverso que usa PLS puede requerir un uso muy intensivo de datos. Los PC estándares pueden configurarse con suficiente energía computacional para alojar el método 40.
(b) Software
Una variedad de paquetes de software comercialmente disponibles se encuentra disponible para implementar el método de modelado inverso 40. Una aplicación de software comercial de dicho tipo usa el entorno informático técnico Matlab (p. ej., Ver. 7.4.0, Mathworks, Inc., Natick, MA, Estados Unidos). PLS Toolbox (Figenvector Research, Wenatchee, WA Estados Unidos) tiene una cantidad de herramientas para construir, validar e implementar modelos para predicciones de rasgos y clases. Unscrambler® (Camo Software AS, Oslo, NORUEGA) es otra plataforma que se ha utilizado. Ambas pueden llevar a cabo PCA, PLS, PLS-R, PCR, y otras calibraciones multivariantes según Martens y Naes 1989. Martens y Naes 1989 describen varios pretratamientos de datos útiles en la construcción del modelo. El software identificado permite una variedad de pretratamientos. La normalización o estandarización de señales, así como los tratamientos matemáticos como, por ejemplo, suavizado o derivados, están disponibles en los paquetes de software para el pretratamiento de los datos. La teoría e implementación se describen en Martens y Naes 1989, quienes describen varios pretratamientos de datos que pueden usarse en la construcción del modelo. Estos y otros se encuentran normalmente disponibles en el software comercial.
Los paquetes de software proveen una variedad de funciones para el usuario. Ellas incluyen trazado, asistencias de análisis y funciones de entrada/salida. Otras son edición de datos, escalamiento y preprocesamiento. Una variedad de análisis estadístico y opciones de diseño experimental están disponibles. Ejemplos incluyen, pero sin limitación a, (a) exploración de datos y reconocimiento de patrones (p. ej., PCA, Análisis de Factor Paralelo, MCR, etc.); (b) clasificación (p. ej., SIMCA, k vecinos más cercanos, Análisis Discriminante PLS, Análisis de Conglomerados, etc.), (c) regresión lineal y no lineal (p. ej., PLS, PCR, etc.), y (d) resolución de curva de automodelado, métodos de variable puros (p. ej., CODA_DW, Purity (es preciso comparar con SIMPLSMA), etc.), y otros.
En la Figura 4A, por ejemplo, el software PLS Toolbox provee al usuario en la visualización 102 una barra de herramientas 103 convencional de la cual pueden seleccionarse opciones (es preciso ver, p. ej., la Figura 4A). El Panel de Estado 104 provee un esquema del tipo de modelo seleccionado. Un área de Tabla SSQ 105 muestra la estadística, así como permite cambios a, por ejemplo, el número de factores o componentes que se están modelando. Controles del Diagrama de Flujo 106 proveen un resumen de las etapas que se necesitan para un modelo de análisis de datos seleccionado. Caché de Modelo 107 sigue y muestra el modelo, datos y predicciones (en texto y/o gráficos y/o diagramas).
La Figura 4B ilustra ejemplos de algunos de dichos tipos de GUI (110) cuando un modelo inicial se está construyendo o se ha construido. El software genera representaciones visuales que pueden verse por el usuario durante los procesos, y que pueden ayudar al usuario a comprender el modelo y sus predicciones. Las variables y cargas 112 pueden mostrarse para la visualización por el usuario.
Controles de parcela 113 permiten al usuario seleccionar el tipo de parcela. Existen opciones de preprocesamiento 114 para el usuario. Las puntuaciones 116 y diagramas del modelo y resultados pueden mostrarse. Las parcelas de correlación cruzada de valores pronosticados con respecto a valores medidos pueden verse, y compararse a medida que el modelo se está construyendo, opcionalmente probarse y validarse, y utilizarse. Las GUI pueden también ayudar al usuario a diseñar, estabilizar y cambiar el modelo.
La Figura 5 ilustra GUI similares para un software diferente (Camo Unscrambler™). Espectros de conjuntos de capacitación 102 originales pueden mostrarse y visualizarse. Los coeficientes de regresión 124 y las puntuaciones 126 también pueden. Un gráfico de correlación cruzada de valores pronosticados versus medidos, con resultados de análisis estadísticos numéricos 128, puede mostrar al usuario cuán exactamente se está desempeñando el modelo. En el ejemplo hipotético de la Figura 5, el gráfico de correlación cruzada indica que el modelo se está desempeñando bien, dado que los datos señalan una alineación a lo largo de la línea de equivalencia.
Libros y artículos
■ Bro, R., Multivariate calibration -- What is in chemometrics for the analytical chemist?, Analytica Chimica Acta 500 (2003) 185-194 (compara la calibración univariante con la multivariante; describe "reducción de ruido", variables latentes, cargas y puntuaciones, selectividad; describe detección y manejo de valores atípicos)
■ Haaland, D. and Thomas, E., Partial Least-Squares Methods for Spectral Analyses. 1. Relation to Other Quantitative Calibration Methods and the Extraction of Qualitative Information 2. Application to Simulated and Glass Spectral Data, Anal. Chem. 1998, 60, 1202-1208 (antecedente de PLS y comparación con otros métodos de calibración; describe la selección del número óptimo de factores de un modelo PLS mediante validación cruzada, etc.; describe que puede obtenerse la información cualitativa)
■ Slaughter, D., Barret, D. and Boersig, M., Nondestructive Determination of Soluble Solids in Tomatoes using Near infrared Spectroscopy, vol. 61, no. 4 1996 Journal of Food Science 695-697 (ejemplo de datos espectrales y datos medidos modelados con PLS según Martens y Naes 1989 mediante el uso del paquete de software NSAS (versión 3.18) (el número correcto de factores de regresión para el modelo PLS se ha determinado por el error de la media cuadrática mínima de validación cruzada (según Martens y Naes 1989)).
Patentes
US435309 Thomas y otros Systematic Wavelength Selection for Improved Multivariate Spectral Analysis (provee antecedentes sobre MVC y Pc A y PLS)
■ US4944589 Nordquist Method of Reducing the Susceptibility to Interference of a
US5252829 Nygaard y otros Method of Determining Urea in Milk, (provee ejemplos de PLS de Martens y Naes 1989 con espectros y validación cruzada)
■ US6040578 Malin y otros Method and Apparatus for Multi-spectral Analysis of Organic Block Analytes in Noninvasive Infrared Spectroscopy (antecedentes y ejemplos de modelado por MVC con conjunto de predicción y conjunto de referencia)
■ US6528809 Thomas y otros Methods and Apparatus of Tailoring Spectroscopic Calibration Models (describe la personalización del modelo)
■ US6845326 Panigrahi y otros Optical Sensor for analyzing a Stream of an Agricultural Product to Determine its Constituents (ejemplo de un sensor óptico)
■ US6876931 Lorenz y otros Automatic Process for Sample Selection During Multivariate Calibration (mejora de MVC a través de la optimización de un conjunto de datos de calibración)
■ US6871169 Hazen y otros Combinative Multivariate Calibration that Enhances Prediction Ability Through Removal of Over-modeled Regions (describe cómo seleccionar factores y el ajuste de datos)
■ WO/1996/032631 Calibration Transfer Standards and Methods (describe la selección de factores o componentes principales para incluir en el modelo por RMSEP, SIMCA)
■ WO/1999/067722 Method and Arrangement for Calibration of Input Data (describe métodos de pretratamiento).
C. Método Específico a Modo de Ejemplo 1 -- Modelado Inverso de Concentración de Clorofila en el Maíz
1. Constituyente y Método
Un enfoque de modelado inverso como el descrito con respecto a las Figuras 1-5 y 6-9A/B se ha utilizado para desarrollar un modelo para predecir la concentración de clorofila en maíz como el constituyente de interés. El modelo se ha desarrollado a partir de técnicas de calibración multivariante descritas en Martens y Naes 1989. La Figura 10A es un gráfico que muestra la correlación entre concentraciones pronosticadas y concentraciones medidas reales.
2. Plantas
Los consanguíneos/híbridos de maíz se han plantado y han crecido en condiciones normales en múltiples parcelas hasta la madurez sustancial (hasta el desarrollo sustancial de la hoja). Las parcelas han experimentado una variedad relativamente amplia de condiciones de crecimiento.
Dichas diferencias entre parcelas proveen un grado de variación entre dichas muestras de calibración diferentes. El número de parcelas y varianzas entre plantas y parcelas puede variar según necesidad o diseño. Normalmente, es deseable tener un rango sustancial de variación entre muestras de calibración. El número de muestras usadas para la calibración es, preferiblemente, tan grande como sea prácticamente viable. Las muestras contienen, de manera adecuada, una variación útil de los contenidos del constituyente de interés.
3. Recolección de Información Espectral Reflejada
Los espectros de las canopias de planta se han recogido en forma digitalizada y se han almacenado para un análisis numérico posterior por el método de calibración multivariante. Los datos de calibración del bloque X son datos espectrales de las múltiples parcelas. Los datos hiperespectrales se han recogido mediante detección remota a partir de la reflectancia de la canopia de cada parcela de maíz creciente. Los datos se han recogido en varios días u ocasiones diferentes, nuevamente para la variación entre muestras de calibración.
Los datos se recogen en cualquier cantidad de maneras desde una altura elevada sobre la parcela. Ejemplos incluyen, pero no se limitan a, de unos pocos metros sobre el suelo sobre un andamio, a varias decenas de metros sobre el suelo sobre una grúa pluma o grúa, a cien o más metros mediante un avión, helicóptero o incluso un satélite, mediante el uso de un sistema de creación de imágenes digitales hiperespectrales u otros dispositivos de recolección de espectros.
Los datos de reflectancia hiperespectrales se toman de las regiones visibles (VIS) (aprox. 760-380 nm) e infrarrojo cercano (NIR) (aprox. 1100-750 nm) del espectro electromagnético (aproximadamente un rango de 1000 nm). En un ejemplo, los datos se encontraban entre bandas espectrales de 100 y 1000 bandas espectrales (en un ejemplo específico, 520 bandas) de ancho de banda relativamente estrecho (p. ej., 1 -10 nm) (en un ejemplo específico 1,2 nm de ancho). El número de bandas o canales, y su ancho, pueden variar según necesidad o diseño. Los espectros desde fuera del presente rango (p. ej., NIR, IR y UV adicionales) también son posibles.
Dichas lecturas de reflectancia en incrementos de 1,2 nm recogidas en un rango de longitud de onda visible e infrarrojo cercano para cada imagen de cada canopia de muestra pueden, cada una, almacenarse. De manera opcional, las lecturas de reflectancia para cada longitud de onda para todas las imágenes de muestra pueden promediarse en una parcela hiperespectral. De manera opcional, múltiples (p. ej., cinco) reproducciones para cada parcela de muestra se llevan a cabo y promedian de forma adecuada para el análisis quimiométrico.
La adquisición por detección remota de dichos datos es relativamente eficiente. Los datos pueden adquirirse para un número de parcelas de manera no invasiva y no destructiva. Los datos pueden adquirirse para un gran número de plantas (o parcelas) de forma simultánea o casi simultánea. De manera alternativa, imágenes de diferentes muestras pueden obtenerse con diferentes sistemas de creación de imágenes y/o en diferentes momentos. Los datos son información digital adecuada que puede almacenarse, a la que puede accederse, y que puede transferirse de manera relativamente rápida y económica. No se requiere pretratamiento o preprocesamiento de muestras alguno.
La Figura 1 ilustra múltiples parcelas de forma diagramática. Estas pueden estar espacialmente cerca o dispersas. La Figura 2 ilustra el tipo de información espectral y espacial que se encuentra disponible a partir de dichas imágenes detectadas de forma remota. Las imágenes recogidas se almacenan por métodos conocidos en una base de datos, como se ilustra en las Figuras 2 y 5.
4. Medición Directa de Concentración de Clorofila (Datos Y)
Los datos del bloque Y han incluido mediciones reales de la concentración de constituyente de clorofila para al menos una planta de cada parcela representada en imagen. Las concentraciones de clorofila de plantas de las parcelas que se han representado en imágenes se miden usando una de un número de técnicas conocidas en la técnica. Ejemplos de métodos de medición directa de contenido de clorofila en la hoja se describen más abajo.
■ Gitelson, A., Buschmann, C., and Lichtenthaler, H., "The Chlorophyll Fluorescence Rotation F735/F700 as an Accurate Measure of the Chlorophyll Content in Plants", REMOTE SENS. ENVIRON. 69:296-302 (1999);
■ Markwell, J., Osterman, J., and Mitchell, J.; "Calibration of the Minolta SPAD-502 Leaf Chlorophyll Meter’, PHOTOSYNTHESIS RESEARCH 46/3:467-472 (1995);
■ Moulin, S.; Baret, R; Brugier, N; Bataile, C., Assessing the Vertical Distribution of Leaf Chlorophyll Content in a Maize Crop, GEOSCIENCES AND REMOTE SENSING SYMPOSIUM, 2003, ABARSS apos;03. Proceedings. 2003 IEEE International Volumen 5, Edición, 2003 Páginas: 3284-3286 vol. 5;
■ Patente de Estados Unidos 7.112.806, Lussier, titulada "Bio-Imaging and Information System for Scanning, Detecting, Diagnosing and Optimizing Plant Health”.
5. Formación de Modelo de Calibración
La calibración multivariante se ha llevado a cabo según muestras de calibración de plantas/parcelas de maíz (datos del bloque X) que contienen concentraciones conocidas de contenido de clorofila en la hoja (datos del bloque Y). La validación mediante un gráfico de correlación cruzada que usa concentraciones de constituyente derivadas de datos espectrales ha formado el modelo inverso (una curva de calibración).
El software PLS Toolbox/Matlab™ descrito anteriormente se ha utilizado en el sistema de ordenador 90. La regresión de mínimos cuadrados parciales (PLS-R) de la concentración de clorofila medida (bloque Y) asociada a los espectros IR seleccionados adquiridos (bloque X) se ha llevado a cabo para el modelo de predicción de concentración de clorofila. Los conjuntos de espectros se han clasificado por su error de predicción de concentración de clorofila PLS. El número de variables latentes en la regresión PLS se ha determinado de forma automática por el software. Los espectros IR seleccionados de dicho algoritmo han pronosticado la concentración de clorofila con el error de la media cuadrática mínima en la validación cruzada dejando uno fuera, y un modelo de regresión se ha construido con los espectros. Según se indica en la Figura 10A, el modelo de regresión PLS ha seleccionado tres variables latentes.
El método crea un espectro sintético que representa la parte más grande de la varianza dentro del conjunto espectral que produce el primer vector de carga o componente principal (PC). El factor de escala que representa la cantidad del vector de carga en cada uno de los espectros en el conjunto de datos es la puntuación. La multiplicación del vector de carga por la puntuación para cada espectro y la resta de ello del espectro original produce un nuevo conjunto espectral. Ello, a su vez, permite la investigación de los espectros para patrones relevantes en el conjunto de análisis de muestra.
Las Figuras 4A/B y 5 ilustran ejemplos no restrictivos de representaciones visuales que son posibles con dicho software. Ello incluye no solo los gráficos de correlación cruzada, sino también gráficos de puntuación (p. ej., de componentes principales). También pueden mostrarse vectores de carga. En la práctica, dichas visualizaciones pueden complementar el análisis del software y permitir al usuario evaluar y reconocer información adicional que puede ser importante para comprender el modelo y/o cambiar el modelo.
Por ejemplo, los tipos de visualizaciones de las Figuras 4A/B y 5 pueden proveer información útil. El usuario puede aprender de las observaciones de la presente información. La capacidad de ver cómo el efecto de las diferentes variables de entrada cambia con diferentes tipos de análisis de datos puede ser una herramienta poderosa al desenmarañar factores entrelazados que separan plantas para una amplia variedad de cuestiones, incluidas aquellas que afectan la salud, el vigor y el rendimiento de la planta.
La Figura 10B muestra una visualización de dos gráficos de absorción versus longitud de onda a lo largo del rango de aproximadamente 1100 a 400 nm de rango. El perfil que comienza en la parte superior a la izquierda de los gráficos, pero cambia en la parte inferior en alrededor de 700 nm ilustra alto contenido de clorofila del modelo de predicción. El otro perfil indica bajo contenido de clorofila. Ello permite tanto la visualización del perfil espectral para dichas dos cuantificaciones, pero puede usarse como una herramienta de análisis o clasificación con respecto a un perfil espectral de muestras de prueba. El hecho de que haya un perfil por encima del otro para las longitudes de onda más altas, pero que se encuentre por debajo del otro para longitudes de onda más bajas puede proveer información útil.
6. Validación del Modelo
Una variedad de maneras para probar y validar el modelo se encuentra disponible. Es preciso ver, p. ej., Martens y Naes 1989, Capítulo 4.
La validación cruzada se ha llevado a cabo en las muestras de calibración según la exclusión de una observación del modelo de calibración, que es una validación cruzada dejando uno fuera. Dado que las muestras de validación en el procedimiento de validación cruzada provienen del conjunto de muestra de calibración, puede esperarse un tipo comparable de variabilidad espectral.
La validación externa también se lleva a cabo de forma adecuada en el conjunto de muestra de predicción. De esta manera, se evalúa la capacidad del modelo de calibración de soportar variabilidad desconocida. Además de la PLS-R lineal, otros métodos PLSR (p. ej., PLSR no lineal y PLSR ponderada) están disponibles para ver si el rendimiento del modelado puede mejorarse. La exactitud del modelo se ha definido como coeficientes de correlación.
El usuario puede decidir qué tipo y cuánta validación se requiere. La Figura 10 ilustra un modelo de regresión PLS inicial para predecir la concentración de clorofila mediante el uso de los datos espectrales recogidos para las mismas parcelas, en comparación con las mediciones de concentración de clorofila reales de las mismas parcelas que han resultado en los siguientes valores:
1. Coeficiente de Determinación en validación cruzada (R2) de 0,956.
2. Error de media cuadrática de calibración (RMSEC, por sus siglas en inglés) de 3,0432.
3. Un error estándar de predicción o error de media cuadrática de validación cruzada (RMSECV) de 3,3802.
La Figura 10A en 102 muestra el ajuste de datos lineales y buenos resultados. Las diferencias entre RMSEC y RMSECV indican que el modelo ha sido robusto no solo para las observaciones en el conjunto de datos de calibración sino también para muestras externas. La variabilidad del modelo según se ha expresado por variación porcentual capturada por el modelo de regresión puede revisarse para ver convergencias.
Los conjuntos de calibración y validación encajan en la línea de equivalencia. Los coeficientes de correlación (R2) para la calibración y validación han sido muy altos en >0,95 mediante el uso de solo tres PC. PCA puede llevarse a cabo para observar el agrupamiento o la demarcación. Los datos se agrupan a lo largo de dos secciones de la línea. Las muestras se separan en orden de potencia de la solución. Ello permite la identificación y clasificación de varios niveles del constituyente presente.
7. Uso de Modelo Validado para Predecir la Clorofila en el Conjunto de Datos de Prueba de Interés
Una vez validado, el modelo 45 puede usarse para procesar el conjunto de datos de detección remota (RS) (de espectros iguales o similares) para el mismo tipo de plantas, independientemente del área de crecimiento, condiciones, factores ambientales, etc. y predecir un constituyente de interés como, por ejemplo, contenido de clorofila. Que el modelo puede validarse no debe interpretarse que significa que el modelo debe validarse, dado que la presente invención contempla que el usuario puede emplear un modelo validado o no validado.
El modelo 45 puede usarse para predecir la clorofila según datos detectados de forma remota de otras plantas de maíz. Dichas variables desconocidas pueden introducirse en el modelo. El modelo proveerá una predicción de clorofila.
La ecuación de regresión para la clorofila consiste en un conjunto de términos que comprende un coeficiente de regresión según lo encontrado por PLS-R, y valor de absorbancia correspondiente en cada uno de los puntos espectrales. Según se indica en la Figura 10A, los coeficientes de regresión se han encontrado usando 3 factores de calibración. La Figura 10A muestra que es posible llevar a cabo la calibración para concentraciones de contenido de clorofila en hoja en presencia de otros constituyentes que interfieren con este. El método usa todas las longitudes de onda X, y puede identificar y abordar valores atípicos. Componentes PLS óptimos se eligen de forma automática, y se clasifican según importancia, los cuales pueden usarse para producir aquello que se considera el mejor modelo. El método permite cierta interpretación. Pueden realizarse observaciones y correlaciones positivas y negativas. Y puede modelarse a partir de X.
Los resultados muestran una correlación muy fuerte entre lo real y lo pronosticado según se muestra por los coeficientes de regresión en la Figura 10A. Ello puede permitir que el modelo se use para cosas como, por ejemplo, monitorear plantas o poblaciones de plantas. Puede usarse también para predecir otras cosas. Por ejemplo, el contenido de clorofila puede ser indicativo de otras cosas como, por ejemplo, fenotipo, salud, vitalidad, rendimiento, etc. Modelos adicionales pueden desarrollarse para relacionar el constituyente individual (p. ej., clorofila) con otras cosas.
Como puede verse, el presente ejemplo provee una herramienta analítica rápida y relativamente de bajo coste. Permite no solo el análisis cuantitativo, sino la capacidad de algunos análisis cualitativos que son menos demandantes y más sencillos de desarrollar y mantener que tomando mediciones directas. Además, puede permitir la clasificación preliminar rápida. Puede ser una herramienta objetiva para ayudar en la selección en la mejora. Además, el modelo se usa, de forma adecuada, en relación con otros conjuntos de datos, o con otros modelos para predecir cosas sobre las plantas.
D. Método Específico a Modo de Ejemplo 2 -- Modelado Inverso de Humedad de Hoja en el Maíz
1. Constituyente y Método
La Figura 11 provee información sobre un segundo ejemplo específico a modo de ejemplo, para predecir, como el constituyente, la humedad en la hoja del maíz.
2. Plantas y Condiciones de Crecimiento
Un enfoque de modelado inverso como el Método Específico a Modo de Ejemplo 1, de más arriba, se ha usado para desarrollar un modelo para predecir la humedad en la hoja del maíz. La variabilidad razonable entre plantas de muestra, condiciones de crecimiento y otras condiciones para las plantas se ha seleccionado.
3. Recolección de Información Espectral Reflejada
Los datos hiperespectrales se han recogido para cada una de las muestras mediante detección remota y se han exportado a un formato que es útil con el software de calibración multivariante comercialmente disponible.
4. Medición Directa de Humedad en la Hoja
La humedad en la hoja se ha medido usando cualquiera de un número de técnicas convencionales. El contenido de agua en la hoja por unidad de área de hoja puede calcularse determinando el peso fresco de las hojas, el peso seco de las hojas y el área de muestra. Las muestras de hoja se han recogido durante el día de las plantas.
Una superficie total predeterminada se ha recogido para cada parcela de maíz. Las muestras se han ponderado de forma inmediata para proveer el peso fresco (FW, por sus siglas en inglés) de la muestra y las muestras se han luego almacenado. Las muestras se han llevado al laboratorio y se han secado en un horno, después de cuyo tiempo se han retirado del horno y se han pesado para proveer el peso seco (DW, por sus siglas en inglés) para la muestra. El contenido de agua por unidad de área de hoja se ha calculado entonces para cada parcela mediante el uso de, por ejemplo, la ecuación:
Figure imgf000024_0001
Otro ejemplo de un método de medición directa de humedad en la hoja se describe en el documento de Afzal, A., y Mousavi, S., Estimation of Moisture in Maize Leaf by Measuring Leaf Dielectric Constant, Int. J. Agri. Biol., 10:66-68.
5. Formación del Modelo
Los datos espectrales exportados se han importado y alineado para la parcela en el software (es preciso ver los ejemplos de más arriba). En análisis de regresión de mínimos cuadrados parciales se ha llevado a cabo usando PLS Toolbox 4.0 (Figenvector Research, Wenatchee, WA) en el espacio de trabajo Matlab.
La regresión de mínimos cuadrados parciales (PLS) de la humedad de la hoja a los espectros seleccionados se ha llevado a cabo para la predicción de la humedad en la hoja. Los conjuntos de espectros se han clasificado por su error de predicción de humedad en la hoja PLS. El número de variables latentes en la regresión PLS se ha seleccionado de forma automática por el software (11 variables latentes, es preciso ver la Figura 11). Los espectros seleccionados de dicho método han pronosticado la humedad de la hoja con el menor error de media cuadrática en la validación cruzada dejando uno fuera entre los conjuntos de espectros probados por el algoritmo y un modelo de regresión se ha construido con todos los espectros. Un modelo de regresión PLS se ha construido usando los espectros seleccionados del algoritmo y las 11 variables latentes.
De manera similar al ejemplo 1 para la concentración de clorofila en la hoja, la Figura 11 muestra la humedad de la hoja como una variable continua cuantitativa, con el modelo PLS construido a partir de la validación cruzada. Como se ve en la Figura 11, la correlación cruzada es favorable.
6. Validación del Modelo
Dicho modelo de regresión PLS se ha usado para predecir la humedad de la hoja usando los datos espectrales recogidos más adelante para las mismas parcelas. Las predicciones se muestran en la Figura 11 para las predicciones de humedad en la hoja derivadas de datos recogidos más adelante. Las comparaciones de humedad en la hoja pronosticada y humedad en la hoja medida para los datos recogidos más adelante se indican:
R2 =0,939
RMSEC =0,61179.
RMSECV = 0,64766.
Como se muestra en la figura, los puntos de correlación se distribuyen de manera bastante pareja a lo largo de la línea.
7. Uso del Modelo Validado para Predecir la Humedad en la Hoja en un Conjunto de Datos de Prueba de Interés El modelo 45 puede usarse para predecir la humedad en la hoja según datos detectados de forma remota de otras plantas de maíz. Una vez validado, el modelo 45 puede usarse para procesar el conjunto de datos de detección remota (RS) (de espectros iguales o similares) para el mismo tipo de plantas, independientemente del área de crecimiento, condiciones, factores ambientales, etc. y predecir la humedad de la hoja.
E. Realización Específica a Modo de Ejemplo 3 -- Predicción de Nivel de Introgresión de Genoma para un Experimento de Retrocruzamiento mediante Modelado Inverso
1. Constituyente de Interés y Método
La Figura 12 provee información sobre un tercer ejemplo a modo de ejemplo, para predecir el nivel de introgresión de genoma para un experimento de retrocruzamiento en el maíz.
El retrocruzamiento puede usarse para mejorar líneas consanguíneas y un híbrido que se realiza usando dichos consanguíneos. El retrocruzamiento puede usarse para transferir un rasgo deseable específico de una línea, el progenitor donante, a un consanguíneo llamado el progenitor recurrente que tiene características agronómicas generales buenas, pero no tiene el rasgo deseable. Dicha transferencia del rasgo deseable en un consanguíneo con buenas características agronómicas generales se logra por el primer cruce de un progenitor recurrente con un progenitor donante (progenitor no recurrente). La progenie de dicho cruce se combina entonces otra vez con el progenitor recurrente seguido de la selección en la progenie resultante del rasgo deseado que se transferirá desde el progenitor no recurrente.
Normalmente, después de alrededor de cuatro o más generaciones de retrocruzamiento con selección del rasgo deseado, la progenie contendrá esencialmente todos los genes del progenitor recurrente excepto por los genes que controlan el rasgo deseado. Pero el número de generaciones de retrocruzamiento puede ser más pequeño si se usan marcadores moleculares durante la selección o se usa germoplasma de élite como el progenitor donante. La última generación de retrocruzamiento entonces se autofecunda para proveer progenie de mejora pura para el(los) gen(es) que se está(n) transfiriendo.
El retrocruzamiento puede también usarse en conjunto con mejora de pedigrí para desarrollar nuevas líneas consanguíneas. Por ejemplo, puede crearse un F1 que se retrocruza con una de sus líneas parentales para crear un BC1. La progenie se autofecunda y selecciona de modo que los consanguíneos recientemente desarrollados tienen muchos de los atributos del progenitor recurrente y sin embargo varios de los atributos deseados del progenitor no recurrente.
Como se conoce en la técnica, el nivel de introgresión del gen de interés puede variar para cada generación de retrocruzamiento. Normalmente, el éxito de la introgresión es del 50% entre dos progenies de una primera generación de retrocruzamiento; del 75% para la segunda generación de retrocruzamiento; y luego converge hacia el 100% para generaciones de retrocruzamiento subsiguientes (p. ej., 87,5%, 93,75%, 96,875%, 98,375%, ..., 99,99%), suponiendo que uno selecciona la progenie con la mayoría de genes de interés. El éxito de la introgresión, sin embargo, no es continuo (p. ej., 0%-100%) sino más bien un modelo "cubo" de múltiples niveles, p. ej., 50%, 75%, 87,5%, etc.
Más abajo hay una breve descripción de la naturaleza general del retrocruzamiento. La presente realización a modo de ejemplo provee una prueba para predecir el nivel de introgresión en una planta.
Una conversión de retrocruzamiento puede producir una planta con una conversión de rasgo o locus en al menos uno o más retrocruzamientos, incluidos al menos 2 cruces, al menos 3 cruces, al menos 4 cruces, al menos 5 cruces y similares.
La complejidad del método de conversión de retrocruzamiento depende del tipo de rasgo que se esté transfiriendo (genes solos o genes vinculados cercanamente vs. genes no vinculados), el nivel de expresión del rasgo, el tipo de herencia (citoplasmática o nuclear) y los tipos de progenitores incluidos en el cruce.
Las personas con experiencia ordinaria en la técnica comprenden que, para rasgos de un solo gen que son relativamente fáciles de clasificar, el método de retrocruzamiento es efectivo y relativamente fácil de gestionar. (Es preciso ver, p. ej., Hallauer y otros en Corn and Corn Improvement, Sprague and Dudley, 3era ed. 1998). Los rasgos deseados que pueden transferirse a través de la conversión por retrocruzamiento incluyen, pero sin limitación a, almidón ceroso, esterilidad (nuclear y citoplásmica), restauración de fertilidad, color de grano (blanco), mejoras nutricionales, resistencia a la sequía, eficiencia de utilización del nitrógeno mejorada, capacidad de respuesta del nitrógeno alterado, perfil de ácidos grasos alterados, digestibilidad aumentada, fitato bajo, mejoras industriales, resistencia a las enfermedades (bacterianas, fúngicas o virales), resistencia a los insectos, resistencia a los herbicidas y mejoras en el rendimiento. Además, un sitio de introgresión como, por ejemplo, un sitio FRT, sitio Lox u otro sitio de integración específico al sitio, puede insertarse mediante retrocruzamiento y utilizarse para la inserción directa de uno o más genes de interés en una variedad de planta específica.
La conversión del locus puede resultar de la transferencia de un alelo dominante o un alelo recesivo. La selección de la progenie que contiene el rasgo de interés se logra mediante selección directa para un rasgo asociado a un alelo dominante. Los transgenes transferidos mediante retrocruzamiento normalmente funcionan como un rasgo de gen individual dominante y son relativamente fáciles de clasificar.
La selección de la progenie para un rasgo que se transfiere mediante un alelo recesivo como, por ejemplo, la característica de almidón ceroso, requiere crecimiento y autofecundación de la primera generación de retrocruzamiento para determinar qué plantas llevan los alelos recesivos. Los rasgos recesivos pueden requerir pruebas de progenie adicionales en generaciones de retrocruce sucesivas para determinar la presencia del locus de interés. La última generación de retrocruce se autofecunda, de manera adecuada, para proveer una progenie de mejora pura para el(los) gen(es) que se está(n) transfiriendo, aunque una conversión de retrocruce con un rasgo introgresado de manera estable puede también mantenerse mediante retrocruzamiento adicional al progenitor recurrente con la selección del rasgo convertido. Junto con la selección del rasgo de interés, la progenie puede seleccionarse para el fenotipo y/o genotipo del progenitor recurrente.
2. Plantas y Condiciones de Crecimiento
Un experimento de retrocruzamiento se lleva a cabo usando métodos tradicionales. El progenitor recurrente (p. ej., un consanguíneo) se conoce y registra, así como la línea donante (que lleva el gen de interés).
3. Recolección de Información Espectral Reflejada
Al igual que con los ejemplos anteriores, la creación de imágenes espectrales por detección remota se obtiene del presente conjunto de calibración de plantas de experimento de retrocruzamiento. De manera específica, datos multiespectrales o hiperespectrales sobre las plantas de calibración se obtienen de muestras de calibración en cada generación de retrocruzamiento. Ello está disponible para datos del bloque X para un programa de software de modelado inverso.
4. Medición directa del constituyente de interés
Mediante métodos conocidos en la técnica (p. ej., análisis de marcador genético y pruebas), cada una de las plantas de calibración se prueba para confirmar el nivel de introgresión del(de los) gen(es) de interés. El presente bloque Y o datos de referencia también se encuentran, por consiguiente, disponibles para el software de modelado. El software tendrá como entradas los datos espectrales de cada planta de muestra, así como una medición de referencia del nivel de introgresión para dicha planta. El software no sabrá con antelación qué espectros de los datos multiespectrales o hiperespectrales se correlacionan con el nivel de introgresión.
5. Construir el Modelo Predictivo
El modelo 45 se construye usando la calibración del bloque X o datos de capacitación con métodos PLS. A diferencia de ejemplos previos que predicen la concentración de clorofila de la planta o el contenido de humedad en la hoja, en el presente ejemplo, el modelo 45 se construye para predecir el nivel de introgresión del genoma para un experimento de retrocruzamiento. El software identifica el número de variables latentes.
La Figura 12 muestra la curva de correlación cruzada para un modelo creado bajo el método. El gráfico de la Figura 12 muestra una predicción bastante buena del nivel de introgresión para varias plantas de muestra en puntos esperados (p. ej., 50% y 75%). En el presente ejemplo, los datos de calibración eran solo para la primera y segunda generaciones de retrocruzamiento. Los resultados son buenos para dichas generaciones.
Los resultados muestran buena capacidad de predicción de éxito de introgresión para dichas generaciones. Si los datos de calibración del bloque X espectrales y los datos de referencia del bloque Y se han obtenido de sucesivas generaciones de retrocruzamiento, el modelo se construye y valida para ellas también.
El método puede ser relativamente rápido con energía computacional del ordenador razonable. Puede ser esencialmente en tiempo real. Después de que el modelo de calibración se haya construido y validado, ninguna medición directa, como el análisis de marcador, es necesaria.
6. Validar y Usar un Modelo Predictivo Propuesto
Mediante el uso de métodos de validación convencionales, el modelo construido por los datos de calibración y referencia puede probarse, y el modelo 45 puede luego usarse para proveer estimaciones según datos detectados de forma remota de otras plantas de maíz.
Como puede apreciarse, el método es adecuado para su uso durante el proceso de mejora para la selección (o no selección) de plantas para su uso en un programa de mejora de retrocruzamiento. El método puede también usarse para seleccionar el genoma del progenitor recurrente y contra los marcadores del progenitor donante. Mediante el uso del presente procedimiento, uno puede identificar la cantidad de genoma del progenitor donante que permanece en las plantas seleccionadas. El procedimiento puede también usarse para reducir el número de retrocruces al progenitor recurrente que se necesitan en un programa de retrocruzamiento.
F. Realización Específica a Modo de Ejemplo 4 - Predicción de Fotosíntesis en el Maíz mediante el Modelado Inverso
1. Constituyente y Métodos
Mediante el uso de los métodos previamente descritos, la espectroscopia de imágenes puede usarse para modelar la actividad de fotosíntesis con el tiempo en plantas de maíz, y predecir aquella en muestras de prueba.
2. Plantas y Condiciones de Crecimiento
Las plantas de maíz de calibración crecen en un invernadero en condiciones controladas.
3. Recolección de Información Espectral Reflejada
Los datos multiespectrales o hiperespectrales se han recogido de las plantas de calibración de las cuales derivan los datos del bloque X en momentos predeterminados en un período total. En el presente ejemplo, los datos del bloque X pueden obtenerse cada media hora en un período continuo de diez horas (p. ej., a los 30 minutos del tiempo inicial, a 1 hora del inicio, a 1 hora y 30 minutos del inicio, ..., a 9 horas y 30 minutos del inicio, a 10 horas del inicio (es preciso ver la escala temporal en el eje horizontal del gráfico de la Figura 13)).
4. Medición Directa de Fotosíntesis
Las mediciones de referencia de la actividad de fotosíntesis en las plantas de muestra de calibración pueden medirse directamente y registrarse para cada uno de los puntos de medición de media hora de los datos del bloque X para crear los datos del bloque Y o datos de referencia.
La Figura 13 muestra un gráfico temporal de datos de fotosíntesis de plantas de maíz que crecen en un invernadero medidos por un instrumento Li-COR 6400 (intercambio de gases integrados/instrumento tipo fluorescencia), comercializado por LI-COR Biotechnology, 4647 Superior Street, Lincoln, Nebraska Estados Unidos 68504-0425. La actividad de fotosíntesis varía a lo largo de dicho período de medición.
Los datos X e Y tienen, de manera adecuada, datos espectrales y mediciones de referencia correspondientes a cada uno de dichos puntos de media hora durante el período.
5. Formación del Modelo
Un programa de software comercialmente disponible produce un modelo de predicción a partir de la metodología del modelado inverso y del análisis de datos. Al igual que con ejemplos anteriores, el programa puede construir un modelo inverso de nivel de actividad de fotosíntesis mediante el uso de la calibración multivariante según los datos X e Y y la regresión de mínimos cuadrados parciales (PLS-R). El número de variables latentes en la regresión PLS puede determinarse de forma automática por el software. El error de media cuadrática mínima en la validación cruzada dejando uno fuera o en otras técnicas puede usarse para construir el modelo con todos los espectros.
6. Validación del Modelo
El diseñador selecciona el tipo de validación para un nivel deseado de estabilidad y robustez.
7. Uso del Modelo
Mediante el uso de los métodos previamente descritos, la espectroscopia de imágenes puede usarse para modelar la actividad de fotosíntesis con el tiempo en plantas de maíz, y predecir aquella en muestras de prueba.
G. Realización Específica a Modo de Ejemplo 5 - Predicción de plantas de maíz con estrés hídrico o sin estrés hídrico a través del modelado inverso
1. Constituyente de Interés y Métodos
Se crea un modelo para predecir si una planta de maíz tiene estrés hídrico o no tiene estrés hídrico. El constituyente, aquí también considerado una característica, que se modelará y pronosticará es si una planta de maíz es o no tolerante a la sequía.
2. Plantas y Condiciones de Crecimiento
Para el experimento, consanguíneos e híbridos de maíz se han plantado y han crecido en al menos dos condiciones de riego diferentes.
3. Recolección de Información Espectral Reflejada
Los datos multiespectrales o hiperespectrales se han recogido para los gráficos mediante creación de imágenes de detección remota de las cuales pueden extraerse datos de calibración del bloque X.
4. Medición Directa de Humedad en la Hoja
Técnicas conocidas en la técnica se han usado para evaluar directamente las diferentes plantas y clasificarlas como con estrés hídrico o sin estrés hídrico, para proveer valores de referencia del bloque Y para un rango razonable de plantas con estrés hídrico a plantas sin estrés hídrico.
5. Formación del Modelo
Un enfoque de modelado inverso se ha usado para desarrollar un modelo mediante el uso del software comercialmente disponible.
En el presente ejemplo, PLS se ha usado, pero con la adición del Análisis Discriminante (PLS-DA). Este puede usarse para clasificar predicciones del modelo. Otros tipos de métodos de clasificación son conocidos. Ejemplos incluyen, pero sin limitación a, SIMCA y knn (k vecino más cercano).
El método produce un modelo de calibración basado en PLS, pero crea diferentes clases usando clases de muestra en los datos de calibración del bloque X. Existe una variedad de opciones de clasificación. El diseñador puede, mediante el software, elegir entre diferentes métodos.
La Figura 14 muestra un gráfico de análisis discriminante que muestra un gráfico de muestra/puntuación para múltiples muestras. En el presente caso, a las plantas con estrés hídrico se les ha asignado un valor de referencia del bloque Y de 1, mientras que a las plantas bien regadas se les ha asignado un valor de referencia del bloque Y de 0. El modelo minimiza el error de mínimos cuadrados entre las clases pronosticadas y la referencia asignada. El umbral definido por el modelo ha sido aproximadamente de 0,5. Los valores pronosticados por encima de la presente línea se esperaban en el nivel de confidencia del 95% que fueran con estrés hídrico. Por debajo de dicho umbral, las muestras se han pronosticado como bien regadas (sin estrés). Los triángulos muestran buena separación de puntuaciones de un conjunto de muestras que indican estrés hídrico como una clase 1. El gráfico muestra otras muestras (símbolos de estrella) que no caen dentro de la clase 1 y, por consiguiente, son sin estrés o tienen menos estrés hídrico, dependiendo de los criterios del usuario.
La carga de una variable de entrada específica puede depender del estrés experimentado por la planta, y de cuándo en el ciclo de vida de la planta se aplica el estrés. La capacidad de ver cómo el efecto de las diferentes variables de entrada cambia con diferentes tipos de estrés y tiempo de estrés puede proveer una herramienta útil al desenmarañar factores mezclados que separan plantas "susceptibles" de "tolerantes".
PLS-DA permite la separación de una clase de todas las otras, o la separación en un número preseleccionado de clases.
6. Validación del Modelo
El diseñador puede seleccionar el tipo de validación, si lo desea.
7. Modelo de Uso
El presente modelo se ha usado para predecir si es probable que una planta sea o no tolerante a la sequía. El modelado puede potencialmente clasificar las plantas en más clases. Un ejemplo es usar una escala de tolerancia a la sequía (p. ej., con puntuaciones de 1 a 9). Dichas escalas son conocidas en la técnica. Esta puede ser una manera eficiente de comprobar la tolerancia a la sequía de las plantas.
H. Realización Específica a Modo de Ejemplo 6 - Predicción de genotipo de la soja
I. Constituyente de Interés y Métodos
Se crea un modelo para predecir el genotipo de una planta de soja. El constituyente, aquí también considerado una característica, que se modelará y pronosticará es la respuesta del genotipo a un entorno controlado.
2. Plantas y Condiciones de Crecimiento
Para el experimento, dos variedades de soja han crecido en condiciones controladas similares.
3. Recolección de Información Espectral Reflejada
Los datos multiespectrales o hiperespectrales se han recogido para los gráficos mediante creación de imágenes de detección remota de las cuales pueden extraerse datos de calibración del bloque X.
4. Medición Directa de Humedad en la Hoja
Datos de referencia se han provisto por la fuente genética de las semillas. La referencia del bloque Y ha sido las representaciones numéricas de las clases de genotipo.
5. Formación del Modelo
Un enfoque de modelado inverso se ha usado para desarrollar un modelo mediante el uso del software comercialmente disponible.
En el presente ejemplo, PLS se ha usado, pero con la adición del Análisis Discriminante (PLS-DA). Este puede usarse para clasificar predicciones del modelo. Otros tipos de métodos de clasificación son conocidos. Ejemplos incluyen, pero sin limitación a, SIMCA y knn (k vecino más cercano).
El método produce un modelo de calibración basado en PLS, pero crea diferentes clases usando clases de muestra en los datos de calibración del bloque X. Existe una variedad de opciones de clasificación. El diseñador puede, mediante el software, elegir entre diferentes métodos.
La Figura 16 muestra un gráfico de análisis discriminante que muestra un gráfico de muestra/puntuación para múltiples muestras. En el presente caso, a las plantas de variedad uno se les ha asignado un valor de referencia del bloque Y de 1, mientras que a la otra variedad (variedad dos) se les ha asignado un valor de referencia del bloque Y de 0. El modelo minimiza el error de mínimos cuadrados entre las clases pronosticadas y la referencia asignada. El umbral definido por el modelo ha sido aproximadamente de 0,5. Los valores pronosticados por encima de la presente línea se esperaban en el nivel de confidencia del 95% para la variedad uno. Por debajo de dicho umbral, las muestras se han pronosticado para la variedad dos. Los triángulos muestran buena separación de puntuaciones de un conjunto de muestras, que indican variedad dos. El gráfico muestra otras muestras (símbolos de estrella) que no caen dentro de la clase 0 y, por consiguiente, constituyen la otra variedad (variedad uno).
6. Validación del Modelo
El modelo se ha validado a través de la validación cruzada.
7. Modelo de Uso
El presente modelo se ha usado para predecir la variedad de soja según su respuesta a un entorno controlado. El modelado clasifica las plantas en más clases.
I. Realización Específica a Modo de Ejemplo 7 - Predicción de perturbación de plantas con diferentes constructos y eventos de transgén en un solo genotipo
1. Constituyente de Interés y Métodos
Se crea un modelo para predecir si una planta de maíz está alterada por constructos o eventos transgénicos. El constituyente (también considerado una característica) que se modelará y pronosticará es si una perturbación de la planta de maíz resulta del transgén.
2. Plantas y Condiciones de Crecimiento
Para el experimento, híbridos de maíz que comprenden una inserción de un transgén se han plantado y han crecido junto con un genotipo de control tipo salvaje.
3. Recolección de Información Espectral Reflejada
Los datos multiespectrales o hiperespectrales se han recogido para los gráficos mediante creación de imágenes de detección remota de las cuales pueden extraerse datos de calibración del bloque X.
4. Medición Directa de Humedad en la Hoja
Las técnicas existentes se han usado para evaluar directamente los genotipos de las plantas y clasificarlas como transgénicas o de tipo salvaje. El bloque Y ha sido, nuevamente, las clases de tipo salvaje y transgénica.
5. Formación del Modelo
Un enfoque de modelado inverso se ha usado para desarrollar un modelo mediante el uso del software comercialmente disponible.
En el presente ejemplo, PLS se ha usado, pero con la adición del Análisis Discriminante (PLS-DA). Este puede usarse para clasificar predicciones del modelo. Otros tipos de métodos de clasificación son conocidos. Ejemplos incluyen, pero sin limitación a, SIMCA y knn (k vecino más cercano).
El método produce un modelo de calibración basado en PLS, pero crea diferentes clases usando clases de muestra en los datos de calibración del bloque X. Existe una variedad de opciones de clasificación. El diseñador puede, mediante el software, elegir entre diferentes métodos.
La Figura 17 muestra un gráfico de análisis discriminante según las predicciones de validación cruzada que muestran un gráfico de muestra/puntuación para múltiples muestras. En el presente caso, a las plantas tipo salvajes se les ha asignado un valor de referencia del bloque Y de 1, mientras que a las plantas transgénicas se les ha asignado un valor de referencia del bloque Y de 0. El modelo minimiza el error de mínimos cuadrados entre las clases pronosticadas y la referencia asignada. El umbral definido por el modelo ha sido aproximadamente de 0,5. Los valores pronosticados por encima de la presente línea se esperaban en el nivel de confidencia del 95% que fueran el tipo salvaje. Por debajo de dicho umbral, las muestras se han pronosticado como transgénicas. Los diamantes negros muestran buena separación de puntuaciones de un conjunto de muestras que indican la perturbación del transgén.
Dicha perturbación puede, en algunos ejemplos, incluir un efecto (negativo) de la inserción del transgén en la agronomía de los antecedentes de la planta. La perturbación puede también significar que el propio transgén está perturbado, corrompido o alterado en el evento de inserción. La perturbación puede también incluir la situación donde el transgén resulta en un resultado de planta más efectivo o deseable. La perturbación puede también ocurrir en la etapa de pretranscripción o postranscripción.
El gráfico muestra otras muestras (símbolos de estrella) que no caen dentro de la presente clase de diamante y son las plantas de control. La Figura 18 es para un constructo diferente donde solo unos pocos eventos, resaltados en la elipse discontinua, se encuentran separados de los controles en las predicciones de validación cruzada del modelo PLSDA. Cada barra es la diferencia en las predicciones de clases promedio de los tipos salvajes y transgénicos. La mayor separación según se expresa por la diferencia se asocia a una perturbación más fuerte modelada a partir de las imágenes hiperespectrales.
6. Validación del Modelo
El diseñador puede seleccionar el tipo de validación.
7. Modelo de Uso
El presente modelo se ha usado para predecir hasta qué grado el genotipo común se ha perturbado por diferentes eventos transgénicos y constructos. El modelado clasifica las plantas en más clases.
J. Realización Específica a Modo de Ejemplo 8 - Predicción de perturbación de plantas a partir de múltiples genotipos con el mismo transgén
1. Constituyente de Interés y Métodos
Se crea un modelo para predecir si una planta de maíz está alterada por un transgén que afecta su imagen hiperespectral. El constituyente, aquí también considerado una característica, que se modelará y pronosticará es si una planta de maíz se ve perturbada por un transgén. El grado y la dirección de la perturbación pueden usarse para seleccionar constructos y eventos en el análisis del transgén.
2. Plantas y Condiciones de Crecimiento
Para el experimento, consanguíneos de maíz con y sin un transgén de rasgo han crecido en un entorno controlado.
3. Recolección de Información Espectral Reflejada
Los datos multiespectrales o hiperespectrales se han recogido para los gráficos mediante creación de imágenes de detección remota de las cuales pueden extraerse datos de calibración del bloque X.
4. Medición Directa de Humedad en la Hoja
Técnicas conocidas en la técnica se han usado para asignar directamente el genotipo. Los valores de referencia del bloque Y han sido, nuevamente, el tipo salvaje y transgénico.
5. Formación del Modelo
Un enfoque de modelado inverso se ha usado para desarrollar un modelo mediante el uso del software comercialmente disponible.
En el presente ejemplo, PLS se ha usado, pero con la adición del Análisis Discriminante (PLS-DA). Este puede usarse para clasificar predicciones del modelo. Otros tipos de métodos de clasificación son conocidos. Ejemplos incluyen, pero sin limitación a, SIMCA y knn (k vecino más cercano).
El método produce un modelo de calibración basado en PLS, pero crea diferentes clases usando clases de muestra en los datos de calibración del bloque X. Existe una variedad de opciones de clasificación. El diseñador puede, mediante el software, elegir entre diferentes métodos.
La Figura 19 muestra un gráfico de análisis discriminante según las predicciones de validación cruzada que muestran un gráfico de muestra/puntuación para múltiples muestras. En el presente caso, a las plantas transgénicas se les ha asignado un valor de referencia del bloque Y de 1, mientras que a las plantas tipo salvajes se les ha asignado un valor de referencia del bloque Y de 0. El modelo minimiza el error de mínimos cuadrados entre las clases pronosticadas y la referencia asignada. El umbral definido por el modelo ha sido aproximadamente de 0,5. Los valores pronosticados por encima de la presente línea se esperaba en el nivel de confidencia del 95% que fueran transgénicos. Por debajo de dicho umbral, las muestras se han pronosticado como de tipo salvaje. Las estrellas muestran buena separación de puntuaciones de un conjunto de muestras que indican la perturbación del transgén en un genotipo. El gráfico muestra otras muestras, triángulos que no caen dentro de la presente clase de diamante y son las plantas de control. La Figura 20 es para un genotipo diferente donde la perturbación de la imagen hiperespectral no es suficiente para el modelado de análisis discriminante.
6. Validación del Modelo
El diseñador puede seleccionar el tipo de validación.
7. Modelo de Uso
Los modelos construidos en el presente ejemplo se usan, de manera adecuada, para predecir la respuesta de los genotipos a un transgén. Las perturbaciones en la imagen hiperespectral coherentes con un fenotipo transgénico deseado se usan para seleccionar genotipos para la transformación.
Realizaciones Alternativas
Se apreciará que las realizaciones a modo de ejemplo descritas más arriba son solo algunas formas que puede adoptar la invención. Variaciones obvias para las personas con experiencia en la técnica se incluirán en la invención. Variaciones o alternativas como, por ejemplo, las obvias para las personas con experiencia en la técnica se encuentran dentro del alcance de la presente invención.
Unos pocos ejemplos de opciones y alternativas para la invención se describen más abajo.
K. Muestras (Calibración y Prueba)
Los ejemplos de más abajo se refieren específicamente al maíz, pero cualquier otra planta es también adecuada. Según su uso en la presente memoria, el término "planta" incluye referencia a toda una planta madura o no madura, incluida una planta que se ha despanojado o de la cual se ha retirado la semilla o el grano. La semilla o embrión que producirá la planta también se considera planta.
Las muestras pueden ser parcelas de plantas o plantas individuales. Las imágenes espectroscópicas pueden ser de un conjunto o parcela de plantas o plantas individuales. Si hay una capacidad de resolución suficiente, una imagen de una parcela de plantas se resuelve en plantas individuales.
L. Recogida y Tipo de Datos
Existe una variedad de maneras de recoger los datos espectrales y de referencia. El diseñador puede seleccionar la longitud de onda completa o conjuntos de datos hiperespectrales, multiespectrales u otros datos espectrales. Puede ser posible usar los métodos con otros que no sean los datos multiespectrales o hiperespectrales. Los modelos con tamaños de muestra relativamente grandes y con imágenes hiperespectrales son especialmente adecuados. La detección remota hiperespectral, también conocida como espectroscopia de imágenes, es una tecnología relativamente nueva. Esta combina imágenes y espectroscopia en un solo sistema que, con frecuencia, incluye grandes conjuntos de datos. Sin embargo, el usuario puede descubrir o decidir que ciertos espectros son irrelevantes o no se necesitan, y excluirlos del modelado. Además, el usuario puede utilizar los métodos con datos multiespectrales.
La invención no se encuentra limitada a un tipo de detección remota o detección espectroscópica. Algunos ejemplos se describen en los Antecedentes de la Invención. Los datos pueden consistir en resoluciones espaciales, espectrales, radiométricas y/o temporales. Todos y cada uno de ellos pueden variar según los sensores y sus portadoras, así como las condiciones de detección. Puede haber corrección o ajuste de las imágenes. Un ejemplo es el uso del análisis de imágenes, que consiste en aplicaciones automatizadas asistidas por ordenador. Los datos pueden almacenarse o archivarse en un número de medios de almacenamiento digitales.
M. Métodos de Validación
Una cantidad de técnicas de validación son posibles. Tipos comunes incluyen, pero no se encuentran limitados a: (a) validación de retención, (b) validación cruzada K-fold, (c) validación cruzada dejando uno fuera, y (d) subconjuntos aleatorios. Es preciso ver Martens y Naes 1989 para ejemplos de otros.
Según se explica en Martens y Naes 1989, algunas técnicas de validación y/o construcción del modelo pueden incluir algunas muestras de calibración en muestras de prueba.
El análisis de variabilidad en algunos de los ejemplos incluye el método del coeficiente de la determinación ("R2"). Otros son posibles (es preciso ver Martens y Naes 1989).
N. Aparato
Los componentes específicos, sus funciones y características, y otros aspectos de los sensores remotos, el sistema de ordenador y el sistema de medición directa pueden variar según necesidad o deseo. Muchos de los componentes pueden ser portátiles para su uso en el campo. Por otro lado, los métodos permiten la recolección de datos y luego el transporte a una ubicación fuera del sitio o laboratorio para el análisis de los datos.
O. Métodos Matemáticos de Transferencia
Martens y Naes 1989 describen diferentes técnicas de análisis de datos. PLS es una técnica de descomposición espectral cuantitativa que se relaciona cercanamente con la Regresión sobre Componentes Principales (PCR). Sin embargo, la descomposición se lleva a cabo de manera ligeramente diferente. En lugar de primer descomponer la matriz espectral en un conjunto de eigenvectores y puntuaciones, y regresarlos contra las concentraciones como una etapa separada, PLS en realidad usa la información de concentración durante el proceso de descomposición. Ello hace que los espectros que contienen concentraciones más altas de constituyente se ponderen más pesadamente que aquellos con bajas concentraciones. Por consiguiente, los eigenvectores (vectores de carga) y las puntuaciones calculadas usando PLS son bastante diferentes de aquellos de PCR. La idea principal de PLS es obtener tanta información de concentración como sea posible en los primeros pocos vectores de carga.
El Análisis de Función Discriminante se usa para determinar qué variable discrimina entre dos o más grupos que ocurren naturalmente. Computacionalmente, es muy similar al análisis de varianza (ANOVA, por sus siglas en inglés).
Otros, por supuesto, son posibles. Martens y Naes 1989 describen el diseño de experimentos mediante el uso de una variedad de métodos de análisis multivariante. El diseñador puede seleccionar un método basado en la necesidad o deseo. Según se ha descrito, algunos ejemplos son PCA, Análisis de Regresión, MLR, PLS-R, y PLS-R de tres vías, PCR con o sin clasificación, PLS-DA, ANOVA, clasificación SIMCA, agrupación de K-medias, y Análisis Discriminante.
Otra posibilidad es el aprendizaje de redes neuronales artificiales (es preciso ver el documento US 5.252.829). Este usa redes neuronales para identificar correlaciones, y puede usarse para construir un modelo inverso.
P. Ajuste de Datos
Los métodos pueden usarse para derivar correlaciones más fuertes y proveer mayor peso a ciertas cosas, incluso a aquello que se piensa actualmente que es relevante o correcto. Existen varios métodos de pretratamiento, postratamiento y ponderación o ajuste de datos y suavizado (es preciso ver Martens y Naes 1989).
Q. Combinación con Otros Métodos
Pueden usarse combinaciones de predicciones para diferentes constituyentes. A partir de dichas correlaciones, puede desarrollarse otro conocimiento útil.
Además, los modelos creados por la presente invención pueden compararse con espectros identificados basados en otros modelos. Como un ejemplo, la invención puede incorporar datos espectroscópicos (según se describe más arriba) así como datos de ELISA u otros ensayos adecuados. De esta manera, el modelo del usuario puede incluir múltiples tipos de datos, los cuales pueden realizarse para la validación o para crear incluso mejores técnicas predictivas. Por ejemplo, un usuario que clasifica plantas basadas solo en marcadores genéticos y luego selecciona plantas según dichos marcadores puede no necesariamente seleccionar plantas que tengan el fenotipo óptimo para las necesidades del usuario. Por consiguiente, la combinación de las técnicas de modelado descritas junto con la clasificación de las plantas por uno o más fenotipos permitirá al usuario seleccionar plantas que son óptimas en marcadores y fenotipos.
R. Constituyentes o Características
Las personas con experiencia en la técnica reconocerán que modificaciones, alternativas y variaciones son posibles para lograr los resultados de los ejemplos. Y, además, las personas con experiencia en la técnica apreciarán que los ejemplos, y sus variaciones, pueden aplicarse de maneras análogas para predecir otros constituyentes o características en las plantas.
S. Aplicaciones
Los métodos descritos en la presente memoria se indican como aplicables a una variedad de constituyentes y características de plantas. Pueden usarse como una herramienta de discriminación. Las predicciones y los modelos pueden aplicarse a los rasgos de toda la planta.
Un ejemplo específico es la predicción de clorofila para todo un campo. Esto puede usarse para predecir qué campos probablemente produzcan el rendimiento más alto de forma temprana para el avance de plantas.
Otro ejemplo se refiere a la fisiología de la planta. El método puede predecir condiciones fisiológicas o características en plantas vivas.
1. Mejora/Selección
Otro ejemplo es usar uno o más de los modelos de predicción en la selección de plantas, y/o semilla de las plantas, para un uso adicional. Los métodos de predicción descritos anteriormente pueden usarse para la selección de plantas para mejora, pruebas genéticas o producción comercial. Pueden usarse para excluir o predecir de forma rápida, temprana y sin investigación.
La selección en el presente contexto incluye, pero no se limita a, aquello ilustrado en la Figura 15. Una planta puede seleccionarse para su uso adicional en un programa de mejora basado en el constituyente pronosticado de uno o más de los modelos. Puede seleccionarse para su uso adicional en un experimento de avance de planta como, por ejemplo, un experimento de avance genético. Puede seleccionarse para su uso en la producción de cantidades comerciales de la variedad de planta.
Una vez que el modelo 45 se haya validado para un constituyente o característica de la planta, un conjunto de prueba de imágenes espectroscópicas 46 detectadas de forma remota se introduce en el modelo 45. Los resultados para un conjunto de prueba 46 pueden ingresarse en un modelo 45 y una predicción de un constituyente o característica 50 (ya sea contenido de clorofila, contenido de humedad en la hoja, nivel de introgresión de retrocruzamiento, etc.) puede usarse en decisiones sobre, p. ej., si continuar usando la variedad de planta en una mejora 202 adicional. Ello incluye, de manera adecuada, la selección de un programa de mejora 202, selección para un experimento de avance genético 204, o compromiso de producir una cantidad dada de la planta para la gestión de inventario de cantidades comerciales de semilla de la variedad 206. Otros de dichos tipos de decisiones de "selección" son posibles con solo una predicción, o con combinaciones de predicciones, que pueden derivar de la misma imagen o de una diferente detectada de forma remota del conjunto de prueba.
Una o más de las predicciones se usan, de forma adecuada, en conjunto con un índice de selección. Dicho índice de selección provee una única medida del valor de un híbrido según información con respecto a una o más de las características pronosticadas. Un fitogenetista de maíz puede utilizar su propia característica o conjunto de características seleccionado para el índice de selección.
Aplicaciones a modo de ejemplo de las pruebas incluyen, pero sin limitación a, aplicaciones como:
a. Procesos de mejora de plantas para rasgos o características;
b. Identificación de semilla con rasgos o características deseadas para la posterior germinación hasta la madurez en un campo o invernadero;
c. Selección basada en la presencia o ausencia del rasgo deseado.
El objetivo de la mejora de plantas es combinar, en una sola variedad o híbrido, varios rasgos deseables. Para cultivos de campo, dichos rasgos pueden incluir resistencia a enfermedades y/o insectos, resistencia al calor y/o sequía, reducción del tiempo de madurez del cultivo, mayor rendimiento, y/o mejor calidad agronómica. Con una cosecha mecánica de muchos cultivos, la uniformidad de las características de las plantas como, por ejemplo, germinación, establecimiento del rodal, velocidad de crecimiento, madurez, y altura de la planta y/o espiga es importante. La mejora vegetal tradicional es una herramienta importante en el desarrollo de cultivos comerciales nuevos y mejorados.
El desarrollo de híbridos de maíz en un programa de mejora de plantas de maíz requiere, en general, el desarrollo de líneas consanguíneas homocigóticas, el cruce de dichas líneas, y la evaluación de los cruces. El desarrollo de otras plantas (además del maíz) normalmente implica consideraciones similares. Programas de mejora de plantas de maíz combinan los antecedentes genéticos de dos o más líneas consanguíneas o varias otras fuentes de germoplasma en poblaciones de mejora a partir de las cuales se desarrollan nuevas líneas consanguíneas mediante autofecundación y selección de fenotipos deseados. Los híbridos también pueden usarse como una fuente de material de mejora de plantas o como poblaciones de origen a partir de las cuales desarrollar o derivar nuevas líneas de maíz. Las técnicas de mejora de plantas conocidas en la técnica y usadas en un programa de mejora de plantas de maíz incluyen, pero sin limitación a, selección recurrente, selección en masa, selección a granel, retrocruzamiento, dobles haploides, mejora de pedigrí, mejora de polinización abierta, selección mejorada de polimorfismos de longitud de fragmentos de restricción, selección mejorada de marcadores genéticos, y transformación. Con frecuencia, se utilizan combinaciones de dichas técnicas. Las líneas consanguíneas derivadas de híbridos pueden desarrollarse mediante el uso de técnicas de mejora de la planta según se describe más arriba. Nuevos consanguíneos se cruzan con otras líneas consanguíneas y los híbridos de dichos cruces se evalúan para determinar cuáles de ellos tienen potencial comercial.
Muchos factores se consideran en la técnica de mejora de las plantas como, por ejemplo, la capacidad de reconocer características morfológicas y fisiológicas importantes, la capacidad de diseñar técnicas de evaluación para rasgos genotípicos y fenotípicos de interés, y la capacidad de buscar y explotar los genes para los rasgos deseados en combinaciones nuevas o mejoradas. El método más antiguo y más tradicional de análisis es la observación de rasgos fenotípicos, pero también puede usare el análisis genotípico. La presente invención provee una nueva herramienta que información útil para una selección de plantas temprana y eficiente.

Claims (15)

REIVINDICACIONESI. Un método para estimar una característica de una planta, que comprende:a. construir un modelo predictivo utilizando el modelado inverso que utiliza:
1. un primer conjunto de datos espectroscópicos de una primera población de plantas, y
ii. conjuntos de datos de características medidos correspondientes de la primera población de plantas; y b. aplicar el modelo a un segundo conjunto de datos espectroscópicos de una segunda planta, una segunda población de plantas, o ambas, para estimar la característica en la segunda planta.
2. El método de la reivindicación 1, en donde:
a) el primer conjunto de datos espectroscópicos, el segundo conjunto de datos espectroscópicos, o ambos, comprenden espectros de una o más longitudes de onda del espectro de luz visible, del espectro infrarrojo, del espectro infrarrojo cercano, del espectro ultravioleta, o cualquier combinación de ellos; y/o
b) el primer conjunto de datos espectroscópicos, el segundo conjunto de datos espectroscópicos, o ambos, comprenden múltiples espectros.
3. El método de la reivindicación 1, en donde el primer conjunto, el segundo conjunto, o ambos conjuntos de datos espectroscópicos son de un rango de longitud de onda predeterminado.
4. El método de cualquiera de las reivindicaciones 1-3, en donde:
b) el primer conjunto de datos espectroscópicos, el segundo conjunto de datos espectroscópicos, o ambos, comprenden datos hiperespectrales; y/o
b) el modelado inverso comprende un análisis de regresión de mínimos cuadrados parciales, un análisis discriminante de mínimos cuadrados parciales, un análisis de componentes principales, o cualquier combinación de ellos; y/o c) la característica comprende un rasgo agronómico, contenido de humedad, concentración de clorofila, actividad de fotosíntesis, introgresión, estrés hídrico, tolerancia a la sequía, resistencia a los herbicidas, respuesta a un químico, rendimiento, tolerancia al estrés, utilización de nitrógeno, resistencia a los insectos, resistencia a las enfermedades, un locus de rasgo cuantitativo, un transgén, un rasgo transgénico, o cualquier combinación de ellos; y/o d) la primera población de plantas comprende al menos una planta de maíz.
5. El método de cualquiera de las reivindicaciones 1-4, en donde al menos una porción del primer conjunto de datos espectroscópicos comprende espectros de una o más plantas que no tienen un rasgo transgénico, y/o al menos una porción del primer conjunto de datos espectroscópicos comprende espectros de una o más plantas que poseen un rasgo transgénico.
6. E método de la reivindicación 5, en donde el rasgo transgénico comprende resistencia a insectos, resistencia al gusano de la raíz del maíz, resistencia a herbicidas, tolerancia a la sequía, utilización de nitrógeno, tolerancia al estrés, resistencia a enfermedades, rendimiento, o cualquier combinación de ellos.
7. El método de cualquiera de las reivindicaciones 1-6, que además comprende
a. asignar, según el modelo predictivo, una primera puntuación relativa a al menos una planta en la primera población; b. asignar, según el modelo predictivo, una segunda puntuación relativa a la segunda planta, a al menos una planta en la segunda población, o ambas; y
c. calcular la diferencia entre la primera puntuación relativa y la segunda puntuación relativa.
8. El método de la reivindicación 6, que además comprende ajustar el modelo para reducir la diferencia entre la estimación de la característica en la segunda planta y una medición correspondiente de la característica en la segunda planta.
9. El método de cualquiera de las reivindicaciones 1 -8, en donde el método estima la característica en un punto futuro en el tiempo.
10. El método de la reivindicación 1, en donde al menos un procesador de ordenador se usa para construir mediante modelado inverso el modelo predictivo de la reivindicación 1.
I I . El método de la reivindicación 1 para predecir un nivel de introgresión del genoma para un experimento de retrocruzamiento, en donde un nivel medido de datos de introgresión del genoma se usa como variables de entrada, opcionalmente en donde, los datos espectroscópicos comprenden imágenes hiperespectrales de reflectancia, y/o en donde los datos medidos y los conjuntos de datos espectroscópicos se basan en (i) múltiples genotipos, o (ii) condiciones de crecimiento que difieren, o (iii) condiciones ambientales que difieren.
12. El método de cualquiera de las reivindicaciones 1-11, que además comprende usar la predicción para la selección de una planta o su semilla, opcionalmente en donde la selección comprende al menos una de (a) selección para mejora, (b) selección para avance genético, o (c) selección para producción de cantidades comerciales.
13. El método de cualquiera de las reivindicaciones 1 -12, que además comprende una etapa de validación del modelo, o en donde la construcción del modelo predictivo comprende
(a) obtener datos espectroscópicos de una o más plantas de progenie de un experimento de retrocruzamiento con respecto a una línea parental deseada de plantas; y
(b) correlacionar los datos espectroscópicos con la única o más plantas de progenie.
14. Un sistema (90) para estimar una característica de una planta, que comprende:
a. un dispositivo que puede recoger datos de absorbancia espectroscópicos de una o más plantas físicamente distantes del dispositivo;
b. una unidad de memoria que puede almacenar los datos de absorbancia espectroscópicos recogidos, valores medidos de una característica de planta correspondientes a los datos de absorbancia espectroscópicos; y
c. un dispositivo informático (92) que puede construir un modelo predictivo mediante el uso del modelado inverso que usa un primer conjunto de datos espectroscópicos de una primera población de plantas, y conjuntos de datos de características medidos correspondientes de la primera población de plantas; y aplicar el modelo a un segundo conjunto de datos espectroscópicos de una segunda planta, una segunda población de plantas, o ambas, para estimar la característica en la segunda planta.
15. El sistema de la reivindicación 14, en donde el dispositivo que puede recoger datos de absorbancia espectroscópicos puede comunicar los datos a la unidad de memoria, al dispositivo informático (92), o a ambos.
ES10725542T 2009-05-14 2010-05-14 Modelado inverso para predicción de características de conjuntos de datos multiespectrales e hiperespectrales detectados de manera remota Active ES2885873T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US17825109P 2009-05-14 2009-05-14
PCT/US2010/034833 WO2010132731A1 (en) 2009-05-14 2010-05-14 Inverse modeling for characteristic prediction from multi-spectral and hyper-spectral remote sensed datasets

Publications (1)

Publication Number Publication Date
ES2885873T3 true ES2885873T3 (es) 2021-12-15

Family

ID=42755004

Family Applications (1)

Application Number Title Priority Date Filing Date
ES10725542T Active ES2885873T3 (es) 2009-05-14 2010-05-14 Modelado inverso para predicción de características de conjuntos de datos multiespectrales e hiperespectrales detectados de manera remota

Country Status (8)

Country Link
US (2) US20110125477A1 (es)
EP (1) EP2430500B1 (es)
AR (1) AR076873A1 (es)
BR (1) BRPI1012177A2 (es)
CA (1) CA2760817C (es)
CL (1) CL2011002844A1 (es)
ES (1) ES2885873T3 (es)
WO (1) WO2010132731A1 (es)

Families Citing this family (75)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8108168B2 (en) * 2009-03-12 2012-01-31 Etegent Technologies, Ltd. Managing non-destructive evaluation data
US8144319B2 (en) 2009-05-07 2012-03-27 Solum, Inc. Automated soil measurement device
GB201003939D0 (en) * 2010-03-09 2010-04-21 Isis Innovation Multi-spectral scanning system
US20110299085A1 (en) * 2010-06-04 2011-12-08 Solum, Inc. Rapid Tissue Analysis Technique
BR112013012068B1 (pt) * 2010-11-17 2020-12-01 Pioneer Hi-Bred International, Inc. método imparcial para prever o fenótipo ou traço de pelo menos uma planta independente
CN102200576B (zh) * 2011-03-10 2013-01-09 王桥 叶绿素a浓度反演方法及系统
CN102305792B (zh) * 2011-07-22 2014-03-26 浙江农林大学 基于非线性偏最小二乘优化模型的森林碳汇遥感估算方法
CN103959292A (zh) * 2011-09-23 2014-07-30 陶氏益农公司 用于近红外光谱分析的化学计量
WO2013055657A1 (en) * 2011-10-13 2013-04-18 Pioneer Hi-Bred International, Inc. Automatic detection of object pixels for hyperspectral analysis
CN102507504B (zh) * 2011-10-25 2013-09-18 南京林业大学 一种马尾松松材线虫病的高光谱监测方法
US20130142381A1 (en) * 2011-12-02 2013-06-06 Field Tested Software Llc Real time spectroscopy processing and analysis system
US9335313B2 (en) 2011-12-30 2016-05-10 Pioneer Hi Bred International Inc. Immature ear photometry in maize
WO2013181558A1 (en) * 2012-06-01 2013-12-05 Agerpoint, Inc. Systems and methods for monitoring agricultural products
US9146223B1 (en) 2012-08-03 2015-09-29 Monsanto Technology Llc Automated soil measurement device
US9291545B1 (en) 2012-09-06 2016-03-22 Monsanto Technology Llc Self-filling soil processing chamber with dynamic extractant volume
US9996745B2 (en) 2012-11-19 2018-06-12 Altria Client Services Llc Blending of agricultural products via hyperspectral imaging and analysis
US11543811B2 (en) 2013-03-15 2023-01-03 Etegent Technologies Ltd. Manufacture modeling and monitoring
US9528914B2 (en) * 2013-09-27 2016-12-27 Rosemount, Inc. Non-intrusive sensor system
SG11201605146VA (en) 2013-12-30 2016-07-28 Baxalta GmbH A method of predicting a performance characteristic of a plant or yeast hydrolysate and its use
CN103760114B (zh) * 2014-01-27 2016-06-08 林兴志 一种基于高光谱遥感的甘蔗糖分预测方法
CN103760113B (zh) * 2014-01-27 2016-06-29 林兴志 高光谱遥感甘蔗糖分分析装置
US10186029B2 (en) 2014-09-26 2019-01-22 Wisconsin Alumni Research Foundation Object characterization
CN104568780A (zh) * 2015-01-17 2015-04-29 华东交通大学 田间玉米植株叶片叶绿素含量检测装置和方法
CN104483274A (zh) * 2015-01-17 2015-04-01 华东交通大学 田间玉米植株叶片氮素含量检测装置和方法
CN104535505A (zh) * 2015-01-17 2015-04-22 华东交通大学 田间玉米植株叶片天冬氨酸含量检测装置和方法
CN104502287A (zh) * 2015-01-17 2015-04-08 华东交通大学 田间玉米植株叶片苏氨酸含量检测装置和方法
CN104535504A (zh) * 2015-01-17 2015-04-22 华东交通大学 田间玉米植株叶片蛋白质含量检测装置和方法
CN104483273A (zh) * 2015-01-17 2015-04-01 华东交通大学 田间玉米植株叶片木质素含量检测装置和方法
CN104568779A (zh) * 2015-01-17 2015-04-29 华东交通大学 田间玉米植株叶片丙二醛含量检测装置和方法
US10241097B2 (en) 2015-07-30 2019-03-26 Ecoation Innovative Solutions Inc. Multi-sensor platform for crop health monitoring
CN106525729A (zh) * 2015-09-12 2017-03-22 南京理工大学 一种基于光谱分析技术的物质元素含量信息检测方法
CN105445214B (zh) * 2015-11-27 2018-02-13 安徽科技学院 一种农业工程遥感监测方法
US9576031B1 (en) * 2016-02-08 2017-02-21 International Business Machines Corporation Automated outlier detection
CN106092969A (zh) * 2016-05-23 2016-11-09 塔里木大学 一种枣树冠层叶绿素a含量的检测方法
AT518681A1 (de) * 2016-05-24 2017-12-15 Siemens Ag Verfahren zur Visualisierung und Validierung von Prozessereignissen und System zur Durchführung des Verfahrens
US10274440B2 (en) * 2016-06-22 2019-04-30 International Business Machines Corporation Method to facilitate investigation of chemical constituents in chemical analysis data
US10197504B2 (en) 2016-10-10 2019-02-05 Altria Client Services Llc Method and system of detecting foreign materials within an agricultural product stream
US10869627B2 (en) * 2017-07-05 2020-12-22 Osr Enterprises Ag System and method for fusing information related to a driver of a vehicle
CN107316116B (zh) * 2017-08-23 2020-11-10 吉林大学 一种叶类蔬菜产量预测方法
US10492374B2 (en) 2017-12-28 2019-12-03 X Development Llc Capture of ground truthed labels of plant traits method and system
CN108345215B (zh) * 2018-01-12 2021-10-26 中国科学院理化技术研究所 一种基于多目标遗传算法的磁悬浮轴承鲁棒控制器构造方法
US10679056B2 (en) 2018-04-06 2020-06-09 Cnh Industrial America Llc Augmented reality for plant stand management
US10719709B2 (en) 2018-04-06 2020-07-21 Cnh Industrial America Llc Augmented reality for plant stand management
CA3102640A1 (en) * 2018-06-06 2019-12-12 Monsanto Technology Llc Systems and methods for distinguishing fertile plant specimens from sterile plant specimens
JP2020034545A (ja) * 2018-08-28 2020-03-05 パナソニックIpマネジメント株式会社 成分分析装置及び成分分析方法
CN110147525B (zh) * 2019-05-21 2023-02-14 内蒙古蒙树生态环境有限公司 苗木生长状态预测方法、装置、设备和存储介质
CN110490081B (zh) * 2019-07-22 2022-04-01 武汉理工大学 一种基于聚焦权重矩阵与变尺度语义分割神经网络的遥感对象解译方法
CN110596048A (zh) * 2019-09-17 2019-12-20 云南农业大学 一种光谱速测烟草叶片中钾含量的方法
CN110596049A (zh) * 2019-09-17 2019-12-20 云南农业大学 一种光谱速测烟草叶片中磷含量的方法
CN110609011A (zh) * 2019-09-18 2019-12-24 北京农业智能装备技术研究中心 单籽粒玉米种子淀粉含量近红外高光谱检测方法及系统
CA3157203A1 (en) * 2019-10-07 2021-04-15 Innopix, Inc. Spectral imaging and analysis for remote and noninvasive detection of plant responses to herbicide treatments
CN110837823A (zh) * 2019-12-17 2020-02-25 华南农业大学 种子品种鉴定模型的生成方法、鉴定方法及装置
US11409275B2 (en) 2019-12-19 2022-08-09 Talal Ali Ahmad Systems and methods for predicting environmental conditions
CN111257240B (zh) * 2020-01-17 2021-03-02 华中农业大学 基于近地高光谱数据和集成模型的油菜氮磷钾养分诊断方法
CN111398178B (zh) * 2020-04-07 2023-05-16 中国科学院空天信息创新研究院 叶片叶绿素含量反演方法、装置、电子设备及存储介质
CN111523587B (zh) * 2020-04-17 2024-02-20 中国科学院植物研究所 一种基于机器学习的木本植物物种光谱识别方法
CN112116566B (zh) * 2020-09-04 2022-06-21 西安交通大学 一种基于高光谱遥感技术的陆上油气管道缺陷诊断方法
US11666004B2 (en) 2020-10-02 2023-06-06 Ecoation Innovative Solutions Inc. System and method for testing plant genotype and phenotype expressions under varying growing and environmental conditions
US20220107297A1 (en) * 2020-10-02 2022-04-07 Ecoation Innovative Solutions Inc. Platform for real-time identification and resolution of spatial production anomalies in agriculture
CN114913406A (zh) * 2021-01-29 2022-08-16 南京农业大学 一种基于光学特性参数反演的叶绿素含量估测方法
CN113065095B (zh) * 2021-03-31 2023-09-19 三峡大学 一种基于紫外光谱的水中氮含量检测算法
EP4329474A1 (en) * 2021-04-27 2024-03-06 Zordi, Inc. Autonomous greenhouse control system
CN113607734B (zh) * 2021-08-11 2023-05-26 南京林业大学 无损式估测植物叶绿素含量及分布的可视化方法
CN113643409B (zh) * 2021-08-24 2022-03-18 中国农业大学 植被生产速率的表征方法、装置以及存储介质
CN114140422B (zh) * 2021-11-26 2024-08-20 合肥工业大学 一种荧光与多光谱成像融合的黄曲霉毒素检测建模方法
WO2023172633A1 (en) * 2022-03-08 2023-09-14 Avalo, Inc. System and method for genomic association
CN114692991B (zh) * 2022-04-18 2024-08-06 浙江大学 一种基于深度学习的枸杞产量预测方法及系统
CN115187860B (zh) * 2022-07-11 2023-07-18 浙江甲骨文超级码科技股份有限公司 一种植物病虫害评估方法及系统
CN115343249A (zh) * 2022-07-11 2022-11-15 中国水利水电科学研究院 一种夏玉米全生命周期叶片尺度氮素营养高光谱诊断方法
WO2024019697A1 (en) * 2022-07-19 2024-01-25 Marguerite Johnson Decision tree algorithms in machine learning to learn and to predict innovations
WO2024030921A2 (en) * 2022-08-02 2024-02-08 Thermo Electron Scientific Instruments Llc Systems and methods for spectroscopic instrument calibration
CN115018394B (zh) * 2022-08-08 2022-10-25 成都数联云算科技有限公司 旱情评估方法、装置、存储介质及设备
CN115830442B (zh) * 2022-11-11 2023-08-04 中国科学院空天信息创新研究院 一种基于机器学习的小麦茎蘖密度遥感估算方法和系统
CN115736317A (zh) * 2022-11-22 2023-03-07 中国烟草总公司四川省公司 一种雪茄烟晾制阶段含水率预测模型构建方法及系统
CN117765297B (zh) * 2023-11-20 2024-06-07 中国地质大学(武汉) 高光谱图像分类方法、装置、设备及存储介质

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE459767B (sv) * 1987-12-08 1989-07-31 Tecator Ab Saett att minska stoerkaensligheten hos maetvaerdet fraan ett maetinstrument
US5764819A (en) * 1991-10-18 1998-06-09 Dekalb Genetics Corporation Methods for classifying plants for evaluation and breeding programs by use of remote sensing and image analysis technology
DK39792D0 (da) * 1992-03-25 1992-03-25 Foss Electric As Fremgangsmaade til bestemmelse af en komponent
EP0687369A1 (en) * 1993-03-02 1995-12-20 Pavilion Technologies Inc. Method and apparatus for analyzing a neural network within desired operating parameter constraints
US5435309A (en) * 1993-08-10 1995-07-25 Thomas; Edward V. Systematic wavelength selection for improved multivariate spectral analysis
US6184980B1 (en) * 1995-02-27 2001-02-06 The Board Of Governors For Higher Education, State Of Rhode Island And Providence Plantations Fiber optic sensor for petroleum
US6040578A (en) * 1996-02-02 2000-03-21 Instrumentation Metrics, Inc. Method and apparatus for multi-spectral analysis of organic blood analytes in noninvasive infrared spectroscopy
JP3703117B2 (ja) * 1996-07-10 2005-10-05 ヤマハ発動機株式会社 モデルベース制御方法および装置
JPH10122017A (ja) * 1996-10-14 1998-05-12 Yamaha Motor Co Ltd エンジン制御方式
US6871169B1 (en) * 1997-08-14 2005-03-22 Sensys Medical, Inc. Combinative multivariate calibration that enhances prediction ability through removal of over-modeled regions
US6157041A (en) * 1998-10-13 2000-12-05 Rio Grande Medical Technologies, Inc. Methods and apparatus for tailoring spectroscopic calibration models
EP1125111B1 (en) * 1998-10-28 2002-06-05 Deutsches Zentrum für Luft- und Raumfahrt e.V. Fluorescence detection assembly for determination of significant vegetation parameters
US6845326B1 (en) * 1999-11-08 2005-01-18 Ndsu Research Foundation Optical sensor for analyzing a stream of an agricultural product to determine its constituents
AU2002344238A1 (en) * 2001-04-09 2002-12-09 Myomatrix Molecular Technologies Iterative promoter affinity chromatography to identify trans-regulatory networks of gene expression
US6687620B1 (en) * 2001-08-01 2004-02-03 Sandia Corporation Augmented classical least squares multivariate spectral analysis
US6876931B2 (en) * 2001-08-03 2005-04-05 Sensys Medical Inc. Automatic process for sample selection during multivariate calibration
US7112806B2 (en) * 2001-09-27 2006-09-26 Robert Lussier Bio-imaging and information system for scanning, detecting, diagnosing and optimizing plant health
US6697155B2 (en) * 2002-04-09 2004-02-24 Itt Manufacturing Enterprises, Inc. Multispectral active remote sensing without narrowband optical filters
US7068817B2 (en) * 2002-11-07 2006-06-27 Mcmaster University Method for on-line machine vision measurement, monitoring and control of product features during on-line manufacturing processes
US7620674B2 (en) * 2003-03-07 2009-11-17 Sensys Medical, Inc. Method and apparatus for enhanced estimation of an analyte property through multiple region transformation
US7038191B2 (en) * 2003-03-13 2006-05-02 The Boeing Company Remote sensing apparatus and method
CA2535356A1 (en) * 2003-08-13 2005-03-03 Cargill, Incorporated Computer-aided modeling and manufacture of products
WO2005045391A2 (en) * 2003-11-06 2005-05-19 Elan Group Ltd System and process for detecting substances
US20060190137A1 (en) * 2005-02-18 2006-08-24 Steven W. Free Chemometric modeling software
US7314990B2 (en) * 2006-01-31 2008-01-01 Pioneer Hi-Bred International, Inc. Inbred corn line PHEHR
US8088970B2 (en) * 2007-02-06 2012-01-03 Board Of Trustees Of Michigan State University Introgression of festuca mairei drought tolerant genome into lolium perenne plants
WO2009059176A2 (en) * 2007-11-02 2009-05-07 Ceres, Inc. Materials and methods for use in biomass processing
CN100590417C (zh) * 2008-11-20 2010-02-17 北京航空航天大学 一种植物叶片生理指标无损检测方法

Also Published As

Publication number Publication date
CL2011002844A1 (es) 2012-04-20
BRPI1012177A2 (pt) 2016-04-05
CA2760817A1 (en) 2010-11-18
WO2010132731A9 (en) 2011-10-20
EP2430500A1 (en) 2012-03-21
CA2760817C (en) 2016-02-09
US20110125477A1 (en) 2011-05-26
EP2430500B1 (en) 2021-07-14
WO2010132731A1 (en) 2010-11-18
US20230367272A1 (en) 2023-11-16
AR076873A1 (es) 2011-07-13

Similar Documents

Publication Publication Date Title
ES2885873T3 (es) Modelado inverso para predicción de características de conjuntos de datos multiespectrales e hiperespectrales detectados de manera remota
Fu et al. An overview of crop nitrogen status assessment using hyperspectral remote sensing: Current status and perspectives
Watt et al. Phenotyping: new windows into the plant for breeders
Thorp et al. Proximal hyperspectral sensing and data analysis approaches for field-based plant phenomics
Ali et al. Evaluating the potential of red edge position (REP) of hyperspectral remote sensing data for real time estimation of LAI & chlorophyll content of kinnow mandarin (Citrus reticulata) fruit orchards
Al-Tamimi et al. Capturing crop adaptation to abiotic stress using image-based technologies
Adeluyi et al. Estimating the phenological dynamics of irrigated rice leaf area index using the combination of PROSAIL and Gaussian Process Regression
Feng et al. Non-destructive determination of shikimic acid concentration in transgenic maize exhibiting glyphosate tolerance using chlorophyll fluorescence and hyperspectral imaging
Tosin et al. Canopy VIS-NIR spectroscopy and self-learning artificial intelligence for a generalised model of predawn leaf water potential in Vitis vinifera
Li et al. Deciphering the contributions of spectral and structural data to wheat yield estimation from proximal sensing
EP4055536A1 (en) Remote measurement of crop stress
Cozzolino The role of near-infrared sensors to measure water relationships in crops and plants
de Oliveira et al. Eucalyptus growth recognition using machine learning methods and spectral variables
Bai et al. Estimation of soybean yield parameters under lodging conditions using RGB information from unmanned aerial vehicles
Mangalraj et al. Recent trends and advances in hyperspectral imaging techniques to estimate solar induced fluorescence for plant phenotyping
Gao et al. Combined use of spectral resampling and machine learning algorithms to estimate soybean leaf chlorophyll
Tunca et al. Accurate estimation of sorghum crop water content under different water stress levels using machine learning and hyperspectral data
Kapari et al. Comparing Machine Learning Algorithms for Estimating the Maize Crop Water Stress Index (CWSI) Using UAV-Acquired Remotely Sensed Data in Smallholder Croplands
Centorame et al. A systematic review on precision agriculture applied to sunflowers, the role of hyperspectral imaging
Lu et al. Estimation of plant water content in cut chrysanthemum using leaf-based hyperspectral reflectance
Carpenter Sort by
Wan et al. Estimating leaf photosynthetic capacity using hyperspectral reflectance: Model variability and transferability
İrik et al. Using spectral vegetation indices and machine learning models for predicting the yield of sugar beet (Beta vulgaris L.) under different irrigation treatments
Ting et al. Quantifying physiological trait variation with automated hyperspectral imaging in rice
Brook et al. Canopy volume as a tool for early detection of plant drought and fertilization stress: banana plant fine-phenotype