ES2933727T3

ES2933727T3 - Método para la predicción de un pienso y/o una materia prima para piensos

Info

Publication number: ES2933727T3
Application number: ES20733462T
Authority: ES
Inventors: Ingolf Reimann; Joachim Reising; CHRISTOPH MüLLER
Original assignee: Evonik Operations GmbH
Current assignee: Evonik Operations GmbH
Priority date: 2019-06-24
Filing date: 2020-06-23
Publication date: 2023-02-13
Anticipated expiration: 2040-06-23
Also published as: HUE060303T2; FI3948876T3; CN114041189B; PL3948876T3; CN114041189A; WO2020260240A1; BR112021026105A2; MX2021015729A; EP3948876B1; US20220261399A1; PT3948876T; RS63707B1; DK3948876T3; EP3948876A1; AR119230A1

Abstract

La presente invención se refiere a un método implementado por computadora para predecir un alimento y/o materia prima de alimento que comprende los pasos de a) proporcionar un espectro infrarrojo cercano de una muestra de una materia prima de alimento y/o alimento desconocido, b) transformar las intensidades de absorción de longitudes de onda o números de onda en el espectro del paso a) para dar un vector de consulta, c) proporcionar un conjunto de vectores de base de datos de una población de espectros de materias primas y/o alimentos para piensos conocidos, donde se elimina un valor atípico del conjunto de base de datos vectores, en el que el paso c) comprende además una o más de las opciones c1) a c4) c1) eliminar un par de vectores de base de datos que sean los más diferentes entre sí en un conjunto de vectores de base de datos de dicho conjunto de vectores de base de datos,c2) eliminar un vector de base de datos que sea el más diferente en promedio a los otros vectores de base de datos en un conjunto de vectores de base de datos de dicho conjunto de vectores de base de datos, c3) eliminar un vector de base de datos que sea el más diferente a todos los demás vectores de base de datos en un conjunto de base de datos vectores de dicho conjunto de vectores de base de datos, c4) eliminar un vector de base de datos que sea el más diferente al centroide de un conjunto de vectores de base de datos de dicho conjunto de vectores de base de datos, d) calcular una medida de similitud y/o una medida de distancia entre la consulta vector del paso b) y cada vector de base de datos del paso c) para dar un valor de similitud para cada vector de base de datos con el vector de consulta, e) clasificar los valores de similitud obtenidos en el paso d) en orden descendente, cuando se calcula una medida de similitud en el paso d) o en orden ascendente, cuando se calcula una medida de distancia en el paso d),en donde, en cualquier caso, el vector de base de datos mejor clasificado tiene la similitud más alta con el vector de consulta, y f) asignar la materia prima del alimento para animales y/o el alimento para animales del vector de la base de datos con la similitud más alta en el paso e) a la muestra del paso a) . (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN

Método para la predicción de un pienso y/o una materia prima para piensos

La presente invención se refiere a un método para la predicción de una materia prima para piensos y/o un pienso desconocidos por medio de espectroscopía del infrarrojo cercano y análisis de similitud usando una base de datos depurada con espectros de materias primas para piensos y/o piensos conocidos.

Las dietas de los animales contienen típicamente una diversidad de piensos y/o materias primas para piensos distintos. Por lo tanto, resulta necesario conocer la identidad y el tipo de un pienso y/o de una materia prima para piensos con la mayor precisión y rapidez posibles. Esto resulta especialmente relevante cuando se mezclen distintos piensos y/o materias primas para piensos para obtener una dieta con una composición específica para una especie concreta. Los métodos de análisis cualitativo de piensos y materias primas para piensos permiten, en principio, una identificación precisa de piensos y/o materias primas para piensos de tipo desconocido, es decir, de identidad y origen desconocidos, etc. Sin embargo, estos métodos requieren equipos de laboratorio de alto coste y mantenimiento. Las desventajas adicionales de estos métodos son su elevado nivel de exigencia en cuanto al tiempo requerido y la pericia y experiencia del personal operativo. En principio, la espectroscopía del infrarrojo cercano sería un medio adecuado para la identificación y determinación de los piensos y/o las materias primas para piensos. De acuerdo con el documento EP 3361248 A1, el uso de la espectroscopía del infrarrojo cercano también permite predecir la influencia del procesamiento en el valor nutricional de los piensos y/o piensos. El presente documento divulga un método para la evaluación de las influencias del procesamiento en el valor nutricional de las materias primas para piensos y/o los piensos. Este método comprende las etapas de i) someter una muestra de una materia prima para piensos y/o de un pienso a una espectroscopía del infrarrojo cercano, ii) cotejar las intensidades de absorción en las respectivas longitudes de onda o números de onda del espectro del infrarrojo cercano con los parámetros correspondientes y sus valores obtenidos a partir del análisis químico de la misma muestra y generar un gráfico de calibración y/o una ecuación de calibración, iii) someter otra muestra de una materia prima para piensos y/o de un pienso a una espectroscopía del infrarrojo cercano y iv) obtener los valores de los parámetros específicos de esta muestra a partir del gráfico de calibración y/o la ecuación de calibración.

Sin embargo, cuando se usa como método rutinario, la espectroscopía del infrarrojo cercano requiere el conocimiento de la identidad y el tipo de piensos y/o materias primas para piensos. Sin embargo, los errores humanos en la selección de los piensos y/o las materias primas para piensos pueden conducir ya a una clasificación incorrecta de un pienso y/o una materia prima para piensos en lo que respecta a su identidad y forma actual. Basándose en una clasificación incorrecta, se elegiría un método de calibración erróneo para el análisis por infrarrojo cercano de los ingredientes y sus cantidades específicas en el pienso y/o la materia prima para piensos. Por tanto, los datos obtenidos a partir del espectrómetro del NIR calibrado de forma incorrecta serían erróneos. En consecuencia, estos datos serían engañosos para cualquier etapa operativa adicional en la que intervenga la respectiva materia prima para piensos y/o pienso.

Una opción para superar este problema es el registro de un espectro del infrarrojo cercano de una muestra del pienso y/o la materia prima para piensos desconocidos y la realización de una búsqueda de similitud del espectro registrado. Este enfoque se describe en la solicitud internacional publicada WO 2016/141198 A1 y en el artículo "Algorithms, Strategies and Application Progress of Spectral Searching Methods" (Chu X.-L., Li J.-Y., Chen P., Xu Y.-P., Chinese Journal of Analytical Chemistry, 2014, 42(9), 1379-1386). Con detalle, la búsqueda de similitud comprende la etapa de analizar la similitud del espectro registrado de una materia prima para piensos y/o un pienso desconocidos con los espectros del infrarrojo cercano de una población de materias primas para piensos y/o piensos conocidos. La base del análisis de similitud es la transformación de la información relevante de un espectro, es decir, las intensidades de absorción en sus longitudes de onda o números de onda, en el vector correspondiente, tanto del espectro de la materia prima para piensos y/o el pienso desconocidos como de cada espectro de la población de espectros de la materia prima para piensos y/o el pienso conocidos. En la siguiente etapa, el vector así obtenido del espectro de una materia prima para piensos y/o un pienso desconocidos, que en lo sucesivo en el presente documento también se denomina vector de consulta, y los vectores de una población de espectros de materias primas para piensos y/o piensos conocidos, en lo sucesivo en el presente documento también denominados vectores de la base de datos, se someten a un análisis de similitud. La multitud de vectores de la base de datos también se denomina en lo sucesivo en el presente documento conjunto de vectores de la base de datos. El análisis de similitud comprende el cálculo de la medida de similitud y/o de la medida de distancia entre el vector de consulta del espectro registrado de la materia prima para piensos y/o el pienso conocidos y cada vector de la base de datos de la población de espectros de materias primas para piensos y/o piensos conocidos. Un análisis de similitud que implique una medida de similitud es, en principio, una búsqueda del vecino más cercano al sistema de consulta, en este caso, el vector de consulta. En este caso, un valor de similitud alto para un vector de la base de datos indica una alta similitud de un vector de la base de datos con el vector de consulta. Por lo tanto, los valores de similitud de todos los vectores de la base de datos se clasifican en orden descendente, con los valores más altos en la parte superior. En comparación, cuando el análisis de similitud implica una medida de distancia, un valor de similitud bajo para un vector de la base de datos indica una alta similitud de un vector de la base de datos con el vector de consulta. En este punto, los valores de similitud de todos los vectores de la base de datos se clasifican en orden ascendente, con los valores más bajos en la parte superior. En cualquier caso, el vector de la base de datos mejor clasificado tiene la mayor similitud con el vector de consulta, independientemente de si el análisis de similitud implica una medida de similitud o una medida de distancia.

En principio, una búsqueda de similitud general siempre se basa en la suposición de que los vectores de la base de datos que se encuentran en la parte superior de la clasificación son, con toda probabilidad, los vectores que serán relevantes para el vector de consulta. Sin embargo, los métodos de la técnica anterior no pueden resolver los problemas que surgen cuando hay falsos positivos en la parte superior de la clasificación de los vectores de la base de datos. En el peor caso, incluso el vector mejor clasificado podría ser un falso positivo. Las razones de las entradas de falsos positivos en la clasificación de los vectores de la base de datos pueden ser la asignación errónea de un vector de la base de datos o de un espectro del NIR correspondiente a una clase no coincidente de materias primas para piensos y/o piensos, la heterogeneidad o el desorden de la clase de materias primas para piensos y/o piensos, cuyos espectros del NIR se registraron, o la similitud de algunas clases de materias primas para piensos y/o piensos entre sí. Cualquiera de estos casos complica la asignación precisa y fiable de un vector de la base de datos al vector de consulta.

Se divulga un método alternativo en el documento US 2011/0153226 A1. El presente documento divulga un método para la búsqueda espectral de una mezcla desconocida, que comprende: obtener una o más combinaciones de mezcla candidatas mediante la comparación del espectro de la mezcla desconocida con el espectro de cada uno de una primera pluralidad de compuestos de la biblioteca; generar un modelo para cada una de las combinaciones de mezcla candidatas basándose, al menos en parte, en una métrica de modelización; computar un espectro residual correspondiente a cada una de las combinaciones de mezcla candidatas mediante la eliminación del espectro de cada uno de los compuestos de la combinación de mezcla candidata del espectro de la mezcla desconocida; identificar uno o más compuestos potenciales mediante la comparación de cada espectro residual con el espectro de cada uno de una segunda pluralidad de compuestos de la biblioteca; añadir los compuestos potenciales a las combinaciones de mezcla candidatas para generar una lista actualizada de las combinaciones de mezcla candidatas; y repetir la generación del modelo, el cómputo del espectro residual, la identificación de los compuestos potenciales y la adición de los compuestos potenciales, hasta que se cumple una primera condición de terminación.

El documento EP 0807809 A2 divulga otro método para el cotejo de un producto desconocido con uno de una biblioteca de productos conocidos, que comprende las etapas: 1) medir un espectro de absorbencia en el infrarrojo cercano para cada uno de dichos productos conocidos, 2) generar vectores de productos conocidos que se extienden en el hiperespacio y que representan los espectros de absorbencia determinados para cada uno de dichos productos conocidos, 3) dividir dichos vectores de productos conocidos en grupos de vectores que se extienden en el hiperespacio, en donde los vectores dentro de cada grupo están más cerca unos de otros en el hiperespacio que los vectores fuera de tal grupo, 4) dividir al menos algunos de dichos grupos de vectores en subgrupos de vectores que se extienden en el hiperespacio, 5) repetir dicha etapa 4) en al menos algunos de dichos subgrupos hasta que la totalidad de dichos subgrupos tiene menos de un número predeterminado de vectores, 6) rodear a cada uno de dichos grupos y subgrupos con una envolvente definida en el hiperespacio correspondiente, 7) medir el espectro de absorción de dicho producto desconocido, 8) determinar en cuál de dichas envolventes que rodean a dichos grupos divididos en la etapa 3) desciende un vector, que representa dicho producto desconocido y que se extiende en el hiperespacio de dichos grupos, 9) si el vector que representa dicho producto desconocido desciende en una envolvente que rodea a un grupo que se divide en subgrupos, determinar, a continuación, en qué envolvente que rodea a un subgrupo desciende un vector que representa dicho producto desconocido y que se extiende en el hiperespacio de tal subgrupo, 10) repetir la etapa 9) en subgrupos divididos adicionales hasta que se determina que un vector que representa dicho producto desconocido desciende en una envolvente que rodea a un subgrupo que no se define adicionalmente y 11) determinar, a continuación, con qué producto conocido representado mediante un vector dentro de dicha última envolvente coincide dicho producto desconocido.

El documento CN 109459409 A divulga un método de reconocimiento espectral anómalo en el infrarrojo cercano. En este método, el espacio muestral se linealiza generalmente mediante la curva de llenado del espacio de Hilbert. A continuación, se debe seleccionar un hiperparámetro. En el estudio de la identificación de valores atípicos, la determinación del valor de dicho hiperparámetro se debe determinar de acuerdo con la experiencia. Sin embargo, esto requiere un personal experimentado y formado. Específicamente, el presente documento divulga la identificación del espectro anómalo que implica la métrica de distancia espacial de componentes principales. Sin embargo, cualquier método que implique un análisis de componentes principales plantea grandes exigencias de potencia de cálculo y tiempo. Por lo tanto, este no resulta adecuado para grandes volúmenes de datos, tal como es el caso de la población de espectros.

El artículo "Evaluation of Local Approaches to Obtain Accurate Near-Infrared (NIR) Equations for Prediction of Ingredient Composition of Compound Feeds" (Fernandez-Ahumada E. et a l, Applied Spectroscopy, vol. 67, n.° 8, 2013, páginas 924-929) se refiere a un método para la mejora de la precisión de las calibraciones de piensos intactos para la predicción del infrarrojo cercano (NIR, por sus siglas en inglés) de la composición de los ingredientes. Este artículo divulga que, antes del desarrollo de la calibración, una rutina de eliminación de valores atípicos sirvió para la detección de muestras con espectros atípicos identificados mediante valores extremos de T2 y Q residuales de Hotelling. Aproximadamente el 10 % de la base de datos global se consideró valores atípicos espectrales y se eliminó, dejando 20.320 muestras. Específicamente, en el presente documento, se enseña el método CARNAC (análisis de comparación usando datos reestructurados del infrarrojo cercano y de los constituyentes) usando factores de PLS (mínimos cuadrados parciales) como variables de entrada. Este enfoque, sin embargo, no resulta adecuado para pequeños volúmenes de datos, debido a que, en este caso, resulta difícil dividir los datos en un conjunto de entrenamiento y un conjunto de ensayo.

Por consiguiente, existe la necesidad de un método que permita una predicción menos complicada y, al mismo tiempo, muy precisa de piensos y/o materias primas para piensos desconocidos.

Se ha hallado que este problema se resuelve en el sentido de que los valores atípicos se eliminan de cada conjunto de vectores de la base de datos antes del uso del conjunto de vectores de la base de datos en el análisis de similitud con el vector de consulta de una materia prima para pienso y/o un pienso desconocidos. Un valor atípico puede ser el resultado de un error humano y/o instrumental. Un error humano es, por ejemplo, la asignación errónea de un vector de un espectro del infrarrojo cercano de una clase específica de materias primas para piensos y/o piensos a un conjunto de vectores (de la base de datos) de una clase diferente de materias primas para piensos y/o piensos. Un ejemplo de un error instrumental es la medición de una muestra de una materia prima para piensos y/o un pienso con un espectrómetro de infrarrojos que no está calibrado correctamente o no está calibrado en absoluto. Típicamente, un valor atípico es un valor (observado), es decir, el vector de la base de datos, que es inusual y no es plausible en el contexto de los otros valores, es decir, el conjunto de vectores de la base de datos. La eliminación de los valores atípicos conduce, por lo tanto, a una homogeneización de un conjunto de vectores de la base de datos. En consecuencia, se reduce considerablemente la probabilidad de una asignación errónea. Esto aumenta la precisión en la predicción de una materia prima para piensos y/o un pienso.

El objeto de la presente invención es, por lo tanto, un método implementado por ordenador para la predicción de un pienso y/o una materia prima para piensos, que comprenda las etapas de

a) proporcionar un espectro del infrarrojo cercano de una muestra de una materia prima para piensos y/o un pienso desconocidos,

b) transformar las intensidades de absorción de las longitudes de onda o los números de onda en el espectro de la etapa a) para obtener un vector de consulta,

c) proporcionar un conjunto de vectores de la base de datos de una población de espectros de materias primas para piensos y/o piensos conocidos, en donde se elimina un valor atípico del conjunto de vectores de la base de datos, en donde la etapa c) comprende, además, una o varias de las opciones c1) a c3)

c1) eliminar de dicho conjunto de vectores de la base de datos un par de vectores de la base de datos que son los más disímiles entre sí en un conjunto de vectores de la base de datos, que comprende las etapas de c1a) calcular una medida de similitud y/o una medida de distancia de cada vector de la base de datos en un conjunto de vectores de la base de datos respecto a los otros vectores de la base de datos en dicho conjunto de vectores de la base de datos para obtener los valores de similitud de los pares de vectores de la base de datos,

c1 b) clasificar los valores de similitud obtenidos en la etapa c1 a) en orden descendente, cuando se calcula una medida de similitud en la etapa c1a), o en orden ascendente, cuando se calcula una medida de distancia en la etapa c1 a), en donde, en cualquier caso, el valor de similitud más bajo se refiere a los dos vectores de la base de datos que son los más disímiles entre sí, y

c1c) eliminar del conjunto de vectores de la base de datos al menos los dos vectores de la base de datos con la clasificación más baja en la etapa c1 b),

c2) eliminar de dicho conjunto de vectores de la base de datos un vector de la base de datos que es el más disímil en promedio respecto a los otros vectores de la base de datos en un conjunto de vectores de la base de datos, que comprende las etapas de

c2a) calcular una medida de similitud y/o una medida de distancia de cada vector de la base de datos en un conjunto de vectores de la base de datos respecto a los otros vectores de la base de datos en dicho conjunto de vectores de la base de datos para obtener los valores de similitud de un vector de la base de datos respecto a los otros vectores de la base de datos,

c2b) formar la suma de los valores de similitud obtenidos para cada vector de la base de datos en la etapa c2a) y calcular el valor de similitud promedio para cada vector de la base de datos, c2c) clasificar los valores de similitud promedio obtenidos en la etapa c2b) en orden descendente, cuando se calcula una medida de similitud en la etapa c2b), o en orden ascendente, cuando se calcula una medida de distancia en la etapa c2b), en donde, en cualquier caso, el valor de similitud promedio más bajo se refiere al vector de la base de datos que es el más disímil en promedio respecto a todos los demás vectores de la base de datos, y

c2d) eliminar del conjunto de vectores de la base de datos el vector de la base de datos con la clasificación más baja en la etapa c2c),

c3) eliminar de dicho conjunto de vectores de la base de datos un vector de la base de datos que es el más disímil respecto al centroide de un conjunto de vectores de la base de datos, que comprende las etapas de c3a) determinar el centroide de todos los vectores de la base de datos en un conjunto de vectores de la base de datos,

c3b) calcular una medida de similitud y/o una medida de distancia de cada vector de la base de datos respecto al centroide de la etapa c3a) para obtener un valor de similitud de cada vector de la base de datos respecto al centroide,

c3c) clasificar los valores de similitud obtenidos en la etapa c3b) en orden descendente, cuando se calcula una medida de similitud en la etapa c3b), o en orden ascendente, cuando se calcula una medida de distancia en la etapa c3b), en donde, en cualquier caso, el valor de similitud más bajo se refiere al vector de la base de datos que es el más disímil respecto al centroide, y

c3d) eliminar del conjunto de vectores de la base de datos al menos el vector de la base de datos con la clasificación más baja en la etapa c3c),

d) calcular una medida de similitud y/o una medida de distancia entre el vector de consulta de la etapa b) y cada vector de la base de datos de la etapa c) para obtener un valor de similitud para cada vector de la base de datos con el vector de consulta,

e) clasificar los valores de similitud obtenidos en la etapa d) en orden descendente, cuando se calcula una medida de similitud en la etapa d), o en orden ascendente, cuando se calcula una medida de distancia en la etapa d), en donde, en cualquier caso, el vector de la base de datos mejor clasificado tiene la mayor similitud con el vector de la consulta, y

f) asignar a la muestra de la etapa a) la materia prima para piensos y/o el pienso del vector de la base de datos con la mayor similitud en la etapa e).

En el contexto de la presente invención, la expresión materia prima para piensos y/o pienso desconocidos se refiere a cualquier tipo de pienso y/o materia prima para piensos cuya identidad, composición, origen y/o forma, es decir, si se tritura o no, no se conoce. En comparación, en el contexto de la presente invención, la expresión materia prima para piensos y/o pienso conocidos se refiere a cualquier tipo de pienso y/o materia prima para piensos cuya identidad, composición, origen y/o forma, es decir, si se tritura o no, se conoce. Por consiguiente, una población de espectros de materias primas para piensos y/o piensos conocidos es un número o una multitud de espectros, que se sabe que pertenecen a un pienso y/o a una materia prima para piensos específicos de identidad, composición, origen y/o forma conocidos.

De acuerdo con la presente invención, en la etapa a), se proporciona un espectro del infrarrojo cercano de una muestra de una materia prima para piensos y/o un pienso desconocidos. En el contexto de la presente invención, esto significa que el lugar donde se registra el espectro que se va a proporcionar y el lugar donde se realiza el método implementado por ordenador de acuerdo con la presente invención pueden ser diferentes o idénticos. Por ejemplo, resulta posible que se registre en un lugar un espectro del infrarrojo cercano de una muestra de una materia prima para piensos y/o un pienso desconocidos y que se envíe de cualquier manera a un lugar remoto, donde se realice el método implementado por ordenador de acuerdo con la presente invención. Como alternativa, tanto el registro del espectro como la predicción de la materia prima para piensos y/o del pienso basándose en dicho espectro se pueden realizar en el mismo lugar.

En una realización, la etapa a) del método implementado por ordenador comprende el registro de un espectro del infrarrojo cercano de una muestra de una materia prima para piensos y/o un pienso desconocidos.

La opción c1) para la eliminación de los valores atípicos implica una correlación de pares de valores atípicos. Específicamente, esta opción implica la identificación del par de vectores de la base de datos, que, en términos de similitud, son los vecinos más distantes o, como sinónimo, los más disímiles entre sí en un conjunto de vectores de la base de datos. A continuación, el par de vectores de la base de datos así identificado se elimina del conjunto de vectores de la base de datos. Esta opción se ilustra en la Figura 1.

La opción c2) para la eliminación de los valores atípicos implica la identificación del vector de la base de datos, que, en términos de similitud, es el vecino más distante en promedio o, como sinónimo, el más disímil en promedio respecto a todos los demás vectores de la base de datos en un conjunto de vectores de la base de datos. A continuación, el vector de la base de datos así identificado se elimina del conjunto de vectores de la base de datos. Esta opción se ilustra en la Figura 2.

La opción c3) para la eliminación de los valores atípicos implica la identificación del vector de la base de datos, que, en términos de similitud, es el vecino más distante o, como sinónimo, el más disímil respecto al centroide de un conjunto de vectores de la base de datos. A continuación, el vector de la base de datos así identificado se elimina del conjunto de vectores de la base de datos. En matemáticas y física, el término centroide, cuando se usa en el contexto de una figura plana, indica la posición media aritmética de todos los puntos de la figura; y, por lo tanto, también se denomina centro geométrico de dicha figura. Por tanto, este también es el punto en el que un recorte de la forma podría estar perfectamente equilibrado en la punta de un alfiler. Cuando la figura se extiende a un objeto en un espacio multidimensional, el término centroide indica la posición media de todos los puntos del dicho en todas las direcciones de coordenadas.

En el contexto de la presente invención, el término centroide de un conjunto de vectores de la base de datos indica, por lo tanto, la posición media aritmética de todos los puntos de los vectores de la base de datos en todas las direcciones de las coordenadas. Esta opción se ilustra en la Figura 4. En otras palabras, el centro geométrico así obtenido, es decir, el centroide, es la base de la búsqueda de disimilitud. En cambio, la opción c2) requiere que cada vector se compare con todos los demás vectores del conjunto de vectores de la base de datos en términos de disimilitud. Esta rutina se repite con todos los vectores del conjunto de vectores de la base de datos. A continuación, se elimina el vector que es, en promedio, el más disímil en la opción c2).

A fin de garantizar la mayor precisión posible en la predicción, resulta obligatorio aplicar al menos una, y preferentemente más, de las opciones c1) a c3) a cada conjunto de vectores de la base de datos. Esto tiene la ventaja de que se homogeneiza la totalidad de los conjuntos de vectores de la base de datos y no únicamente un conjunto de vectores de la base de datos.

Las tres opciones se pueden usar por separado o en combinación. Cuando se usan dos o más opciones, resulta posible someter un conjunto de vectores de la base de datos de forma secuencial o paralela a dos o más opciones. En el primer caso, un conjunto de vectores de la base de datos se somete a una primera opción y el conjunto de vectores de la base de datos así obtenido, libre del vector de la base de datos eliminado, se somete a una segunda opción o más. Como alternativa, también resulta posible someter un conjunto de vectores de la base de datos a dos o más opciones en paralelo y comparar los resultados de los conjuntos de vectores de la base de datos así obtenidos, que están libres de los vectores de la base de datos eliminados, y continuar con el conjunto de vectores de la base de datos, que se considera el más adecuado para el método de acuerdo con la presente invención, por ejemplo, debido a que se eliminaron los valores más atípicos de dicho conjunto de vectores de la base de datos. Se prefiere usar las tres opciones en paralelo, a fin de comparar los resultados de las tres opciones, y eliminar un vector de la base de datos únicamente cuando al menos 2 opciones, en particular, 3 opciones, lo indiquen como el más disímil.

La etapa c1) comprende las etapas de

c1 a) calcular una medida de similitud y/o una medida de distancia de cada vector de la base de datos en un conjunto de vectores de la base de datos respecto a los otros vectores de la base de datos en dicho conjunto de vectores de la base de datos para obtener los valores de similitud de los pares de vectores de la base de datos, c lb ) clasificar los valores de similitud obtenidos en la etapa c1a) en orden descendente, cuando se calcula una medida de similitud en la etapa c1 a), o en orden ascendente, cuando se calcula una medida de distancia en la etapa c1 a), en donde, en cualquier caso, el valor de similitud más bajo se refiere a los dos vectores de la base de datos que son los más disímiles entre sí, y

c lc ) eliminar del conjunto de vectores de la base de datos al menos los dos vectores de la base de datos con la clasificación más baja en la etapa c1 b).

La etapa c2) comprende las etapas de

c2b) formar la suma de los valores de similitud obtenidos para cada vector de la base de datos en la etapa c2a) y calcular el valor de similitud promedio para cada vector de la base de datos,

c2c) clasificar los valores de similitud promedio obtenidos en la etapa c2b) en orden descendente, cuando se calcula una medida de similitud en la etapa c2b), o en orden ascendente, cuando se calcula una medida de distancia en la etapa c2b), en donde, en cualquier caso, el valor de similitud promedio más bajo se refiere al vector de la base de datos que es el más disímil en promedio respecto a todos los demás vectores de la base de datos, y c2d) eliminar del conjunto de vectores de la base de datos el vector de la base de datos con la clasificación más baja en la etapa c2c).

La etapa c3) comprende las etapas de

c3a) determinar el centroide de todos los vectores de la base de datos en un conjunto de vectores de la base de datos,

c3d) eliminar del conjunto de vectores de la base de datos al menos el vector de la base de datos con la clasificación más baja en la etapa c3c).

El centroide se puede calcular de acuerdo con cualquier procedimiento adecuado conocido en la técnica. Por ejemplo, el centroide se puede calcular tomando todos los vectores de la base de datos en un conjunto de base de datos con n vectores, sumando todas las posiciones de 1-n sobre todos los vectores y dividiendo cada posición por el número de los vectores.

En el contexto de la presente invención, la expresión depurar un conjunto de vectores de la base de datos o depurar un conjunto de datos se usa de forma equivalente a la expresión eliminar un valor atípico espectral de un conjunto de vectores de la base de datos o de un conjunto de datos o eliminar un vector de la base de datos que cumpla cualquiera de los requisitos de la etapa c1), c2) y/o c3).

El método de acuerdo con la presente invención no está limitado en lo que respecta a una distancia o medida de similitud específica para el análisis de la similitud entre el vector de consulta de la etapa b) y los vectores de la base de datos de la etapa c) y para el análisis de la similitud dentro de un conjunto de vectores de la base de datos en las etapas c1a), c2a) y/o c3b). Por lo tanto, cualquier medida de distancia o similitud, que sea adecuada para determinar la similitud de los vectores de la etapa b) con los vectores de la etapa c), se puede usar en el método de acuerdo con la presente invención. En principio, un análisis de similitud se basa en la búsqueda del vecino más cercano. Se halló que el coeficiente del coseno es una medida de similitud particularmente adecuada para la búsqueda del vecino más cercano en el método de acuerdo con la presente invención. Por ejemplo, el coeficiente del coseno, que permite el cálculo de la similitud entre dos vectores de forma extremadamente rápida y con una gran precisión, resulta particularmente adecuado en el método de acuerdo con la presente invención. El coeficiente del coseno de dos vectores A y B se representa mediante la siguiente Fórmula

donde xjA y xjB son componentes de los vectores A y B, respectivamente, y n es el número de espacios, en este caso, el número de intensidades de absorción a longitudes de onda o números de onda específicos. Los valores de la similitud varían de -1, que significa exactamente lo contrario, a 1, que significa exactamente lo mismo, indicando 0 la ortogonalidad (descorrelación) e indicando los valores intermedios una similitud o disimilitud intermedia.

Como alternativa, la similitud entre los vectores también se puede calcular por medio de una medida de distancia. Por ejemplo, la distancia euclidiana, que permite calcular la similitud entre dos vectores de forma extremadamente rápida y precisa, resulta particularmente adecuado en el método de acuerdo con la presente invención. La distancia euclidiana de dos vectores A y B se representa mediante la siguiente Fórmula

donde xjA y xjB son componentes de los vectores A y B, respectivamente, y n es el número de espacios, en este caso, el número de intensidades de absorción a longitudes de onda o números de onda específicos.

Ventajosamente, cualquier vector de la base de datos con un valor de similitud de 0 se elimina directamente del conjunto de vectores de la base de datos, lo que permite una eliminación más eficaz de los valores atípicos y, por tanto, una predicción incluso más precisa de las materias primas para piensos y/o los piensos.

En una realización preferida del método implementado por ordenador de acuerdo con la presente invención, un vector de la base de datos con un valor de similitud de 0 se elimina del conjunto de vectores de la base de datos en la etapa c1b), c2c) y/o c3c).

Se prefiere que, en la etapa c) del método implementado por ordenador de acuerdo con la presente invención, la medida de similitud sea el coeficiente del coseno y la medida de distancia sea la distancia euclidiana.

En su significado más amplio, un vector es un objeto geométrico que tiene magnitud (o longitud) y dirección. En un sistema de coordenadas cartesianas, un vector se puede representar mediante la identificación de las coordenadas de su punto inicial y terminal. Por lo tanto, un vector es adecuado para representar una intensidad de absorción a una determinada longitud de onda o número de onda en un espectro del infrarrojo cercano bidimensional. Además, un vector no se limita a la descripción de un sistema bidimensional. Más bien, un vector puede describir espacios multidimensionales, tales como un espectro del infrarrojo cercano con una multitud de intensidades de absorción a una multitud de longitudes de onda o números de onda distintos. En este caso, cada dimensión del dicho vector corresponde a una única intensidad de absorción a una longitud de onda o un número de onda específico.

En una realización del método implementado por ordenador de acuerdo con la presente invención, el vector en las etapas b) y c) es un vector multidimensional, correspondiendo cada dimensión a una intensidad de absorción de una longitud de onda o un número de onda específico.

La identificación de los valores atípicos se facilita tomando una derivada, preferentemente la primera derivada, de los espectros. Antes de tomar la primera derivada, el espectro en cuestión se somete típicamente a un procedimiento de normalización, tal como la variante normal estándar (SNV, por sus siglas en inglés), la reducción de la tendencia, la corrección multiplicativa de la dispersión (MSC, por sus siglas en inglés) o la corrección multiplicativa ampliada de la señal (EMSC, por sus siglas en inglés). La reducción de la tendencia (corrección de la línea de base) se realiza a través de la sustracción de un ajuste lineal o polinómico de la línea de base del espectro original para eliminar la variación de la línea de base inclinada, que se encuentra normalmente en los espectros de reflectancia de NIR de las muestras en polvo. La variante normal estándar es otro método de tratamiento previo usado con frecuencia debido a su sencillo algoritmo y a su eficacia en la corrección de la dispersión. La SNV se usa a menudo en los espectros donde los cambios en la línea de base y en la longitud de la trayectoria provocan diferencias entre espectros que, por lo demás, son idénticos. La corrección multiplicativa de la dispersión se logra mediante la regresión de un espectro medido con respecto a un espectro de referencia y, a continuación, la corrección del espectro medido usando la pendiente y la interceptación de este ajuste lineal. Este método de tratamiento previo ha demostrado ser eficaz para minimizar los desplazamientos de la línea de base y el efecto multiplicador. El resultado de la MSC, en muchos casos, es muy similar a la SNV. No obstante, muchos espectroscopistas prefieren la SNV a la MSC, dado que la SNV corrige cada espectro individualmente y no necesita todo el conjunto de datos. El método de procesamiento previo de corrección multiplicativa ampliada de la señal permite la separación de los efectos físicos de la dispersión de la luz de los efectos químicos de la absorbencia en los espectros de polvos o soluciones turbias, por ejemplo. El método basado en el modelo resulta especialmente útil para minimizar la variación de la dispersión de la luz en función de la longitud de onda. Después del tratamiento previo, los espectros corregidos se vuelven insensibles a las variaciones de dispersión de la luz y responden linealmente a la concentración del analito. A continuación, se proporciona la descripción matemática de la EMSC.

Un espectro de medición se puede aproximar por la suma de los desplazamientos de la línea de base, la absorbancia química ideal según la ley de la cerveza y las variaciones en función de la longitud de onda y escribirse como

xⁱ~ aⁱ+ bⁱx^i,química+ d ⁱA eⁱA²

donde a: desplazamiento de la línea de base; b: longitud de la trayectoria; d y e: variación en función de la longitud de onda

x^{i, corregido}= (xⁱ- dⁱA - e ⁱA²/b ⁱ

A través de la estimación de los parámetros de la EMSC, se puede obtener un espectro corregido por EMSC, con la única parte de absorbancia química que queda después de la eliminación del desplazamiento de la línea de base y las variaciones en función de la longitud de onda.

Pueden surgir casos donde la posición de un pico de señal en un espectro, ya sea en la etapa b) y/o en la etapa c) del método de acuerdo con la presente invención, no se pueda localizar debido a que los máximos y mínimos de los picos individuales no se puedan identificar con claridad en tal espectro. Resulta posible localizar más fácilmente los picos individuales en el espectro, cuando los mínimos y máximos de los picos son más fáciles de identificar. El hecho de tomar la primera derivada de un espectro facilita la identificación de los picos en el espectro porque ofrece un paso por el punto cero de los máximos de los picos y los mínimos de los picos. El hecho de tomar la segunda derivada proporciona un pico mínimo exactamente en esa posición, donde había un pico máximo en el espectro original y viceversa. Tomar la primera o la segunda derivada de un espectro también facilita la identificación de un valor atípico en la población de espectros de materias primas para piensos y/o piensos conocidos.

En otra realización del método de acuerdo con la presente invención, se forma una derivada del espectro de la materia prima para piensos y/o del pienso desconocidos de la etapa a) y/o de los espectros de las materias primas para piensos y/o de los piensos conocidos antes de su transformación en un vector para la etapa c).

Preferentemente, la primera derivada se forma a partir del espectro de un pienso y/o una materia prima para piensos de tipo desconocido de la etapa a) y/o de los espectros de materias primas para piensos y/o piensos conocidos antes de su transformación en un vector para la etapa c).

De acuerdo con la etapa b) de la presente invención, las intensidades de absorción de las longitudes de onda o los números de onda en un espectro se transforman para obtener un vector de consulta. En principio, se podrían seleccionar las intensidades de absorción más fuertes y, por lo tanto, más significativas de un espectro y transferir únicamente dichas intensidades de absorción para obtener un vector. Sin embargo, esto requeriría un análisis exhaustivo de cada espectro individual de una sustancia de muestra, lo que no solo requiere mucho tiempo, sino también un buen conocimiento de los espectros del infrarrojo cercano. Por tanto, este enfoque no resulta adecuado para un análisis de rutina. Además, este enfoque tiene la desventaja de que se pueden ignorar las intensidades de absorción significativas pero relativamente débiles en un espectro, por lo que se perdería información. Esto podría conducir a una asignación errónea de la materia prima para piensos y/o del pienso desconocidos al final. Por lo tanto, resulta favorable considerar la mayor cantidad de información posible en el espectro sin un análisis previo en profundidad del espectro. Por lo tanto, se prefiere transformar las intensidades de absorción de longitudes de onda o números de onda equidistantes en un espectro, es decir, en la etapa b) y/o c), para obtener un vector de dicho espectro. Con el fin de permitir el mejor análisis de similitud posible entre el vector de consulta y los vectores de la base de datos, se prefiere transformar las intensidades de absorción de longitudes de onda o números de onda equidistantes en un espectro de la etapa b) y de la etapa c) del método de acuerdo con la presente invención para obtener un vector de dicho espectro o espectros. Preferentemente, las distancias de las intensidades de absorción que se transforman en vectores en la etapa b) son idénticas a las distancias de las intensidades de absorción transformadas en vectores en la etapa c). Esto permite una mayor precisión en la predicción del método implementado por ordenador de acuerdo con la presente invención, incluso sin tener ningún conocimiento específico de la sustancia de muestra y sus espectros en absoluto.

En una realización de la invención, en la etapa b) y/o c) del método implementado por ordenador de acuerdo con la presente invención, las intensidades de absorción de longitudes de onda o números de onda equidistantes en un espectro se transforman para obtener un vector de espectro en la etapa b) y/o c).

En otra realización del método implementado por ordenador de acuerdo con la presente invención, las distancias de las intensidades de absorción que se transforman en vectores en la etapa b) son idénticas a las distancias de las intensidades de absorción transformadas en vectores en la etapa c).

Preferentemente, las intensidades de absorción de las longitudes de onda o números de onda de un espectro, que se transforman para obtener un vector de dicho espectro, tienen pequeñas distancias entre sí. Esto tiene la ventaja de que la mayoría de las intensidades de absorción, si no todas, son relevantes, es decir, la información, de un espectro se transforma en un vector de dicho espectro. Se cree que esto permite una transformación muy precisa de toda la información relevante de un espectro en vectores, incluso sin tener conocimiento del pienso y/o de la materia prima para piensos cuyo espectro se registró, en particular, de su identidad, composición, origen y/o forma. Preferentemente, la distancia entre las longitudes de onda en la etapa b) del método de acuerdo con la presente invención es de 0,1 /-10 % a 10 /- 10 % nm, de 0,1 /- 10 % a 5 /-10 % nm o de 0,1 /- 10 % a 2 /- 10 % nm. Por consiguiente, la distancia entre los números de onda en la etapa b) del método de acuerdo con la presente invención es de 108 /-10 % a 106 /- 10 %, de 108 /- 10 a 5 * 106 /-10 % nm o de 108 /- 10 % a 2 * 106 /- 10 % nm. En el contexto de la presente invención, la expresión /- 10 % se usa con respecto a los valores explícitamente mencionados para indicar que las desviaciones de dichos valores explícitamente mencionados se siguen encontrando dentro del ámbito de la presente invención, siempre que conduzcan esencialmente a los efectos de la presente invención. Las distancias entre las longitudes de onda o números de onda en la etapa c) del método de acuerdo con la presente invención son preferentemente las mismas que las de la etapa b), con el fin de proporcionar la mejor comparación posible entre el espectro registrado de un pienso y/o una materia prima para piensos desconocidos y los espectros de piensos y/o materias primas para piensos conocidos.

En una realización del método implementado por ordenador de acuerdo con la presente invención, la distancia entre las longitudes de onda o los números de onda en la etapa b) y/o en la etapa c) es de 0,1 nm /- 10 % a 10 nm /- 10 % o de 108 cm-1 /- 10 % a 106 cm-1 /- 10 %.

En principio, el método implementado por ordenador de acuerdo con la presente invención no está sujeto a ninguna limitación en cuanto al número de intensidades de absorción que se van a transformar para obtener un vector. Más bien, el número de informaciones relevantes en un espectro de una materia prima para piensos y/o un pienso depende en gran medida de cada materia prima para piensos y/o pienso y, en particular, de su composición y componentes. Cuanto más complejo sea un pienso y/o una materia prima para piensos, es decir, cuantos más componentes contenga un pienso y/o una materia prima para piensos, más información se requerirá de un espectro del infrarrojo cercano para la predicción de un pienso y/o una materia prima para piensos desconocidos. De nuevo, no resultaría práctico realizar un análisis en profundidad con el fin de averiguar las intensidades de absorción que necesariamente se deben transferir para obtener un vector. Una opción adecuada para determinar el número de intensidades de absorción que se van a transformar para obtener un vector consiste en correlacionarlas con la distancia entre las correspondientes longitudes de onda o números de onda, por ejemplo, de 0,1 nm /- 10 % a 10 nm /- 10 % o de 0,1 /- 10 % a 2 /-10 % nm, y el intervalo de registro del espectro, por ejemplo, de 1.100 a 2.500 nm. Preferentemente, el número de intensidades de absorción que se van a transformar en un vector es de al menos 100, en particular, dicho número varía de 150 /- 10 % a 15.000 /- 10 % o de 700 /- 10 % a 15.000 /- 10 %.

En otra realización del método de acuerdo con la presente invención, el número de intensidades de absorción en cada espectro que se transforma en un vector es de 100 /- 10 % o más.

En algunos casos, se prefiere realizar, en primer lugar, un análisis de similitud, seguido del recuento de las apariciones de una materia prima para piensos y/o un pienso en la clasificación de los valores de similitud. A continuación, el número así determinado de valores de similitud de la materia prima para piensos y/o del pienso se pondera de acuerdo con su posición de la clasificación para obtener la posición de la clasificación ponderada, la suma se forma a partir de las posiciones de la clasificación ponderadas para obtener las puntuaciones de las materias primas para piensos y/o los piensos y la puntuación más alta indica la materia prima para piensos y/o el pienso con mayor similitud a la sustancia de muestra.

En una realización, la etapa e) del método de acuerdo con la presente invención comprende las etapas de

e1) contar el número de apariciones de cada uno de las materias primas para piensos y/o los piensos entre los vectores de la base de datos mejor clasificados en la clasificación de la etapa e), en donde dicho número de apariciones se indica mediante la variable N,

e2) ponderar los primeros N valores de similitud de cada uno de las materias primas para piensos y/o los piensos de acuerdo con su posición en la clasificación de la etapa e1) para obtener las posiciones de la clasificación ponderadas de cada uno de las materias primas para piensos y/o los piensos, y

e3) formar la suma de las posiciones de la clasificación ponderadas de la etapa e2) para cada uno de las materias primas para piensos y/o los piensos para obtener las puntuaciones de cada uno de las materias primas para piensos y/o los piensos, en donde la mayor puntuación indica la mayor similitud.

En este caso, la materia prima para piensos y/o el pienso del vector de la base de datos con la mayor similitud en la etapa e3) se asigna a la muestra de la etapa a).

La población de espectros de materias primas para piensos y/o piensos conocidos usados en el método de acuerdo con la presente invención no se limita a materias primas para piensos y/o piensos específicos. Más bien, esta comprende preferentemente los espectros de todas las materias primas para piensos y/o los piensos usados en la alimentación animal, preferentemente en la alimentación de las aves de corral, los cerdos, los cerdos y/o animales mantenidos en acuicultura, tales como los peces y/o los crustáceos. Los espectros de las materias primas para piensos y/o de los piensos pueden diferir significativamente según su forma o aspecto, por ejemplo, cuando están presentes en forma triturada o no triturada. Por lo tanto, la población de espectros preferentemente también comprende espectros que se registraron a partir de las materias primas para piensos y/o los piensos mencionados anteriormente en forma triturada o no triturada.

En otra realización del método de acuerdo con la presente invención, la población de espectros de piensos y/o materias primas para piensos conocidos en la etapa c) de dicho método comprende espectros de todos los piensos y/o las materias primas para piensos en forma triturada y/o no triturada usados en la alimentación animal.

En principio, el método de acuerdo con la presente invención no está limitado en modo alguno en cuanto al número y los tipos de piensos y/o materias primas para piensos, cuyos espectros, registrados en forma triturada y/o no triturada, constituyen la población de espectros. No obstante, se prefiere que la población de espectros de piensos y/o materias primas para piensos conocidos en la etapa c) de dicho método comprenda espectros de todos los piensos y/o las materias primas para piensos en forma triturada y/o no triturada usados en la alimentación animal, preferentemente en la alimentación de las aves de corral, los cerdos, los cerdos y/o animales mantenidos en acuicultura, tales como el pescado y/o los crustáceos. La materia prima para piensos y/o el pienso pueden ser de origen animal y/o vegetal. Los piensos y/o las materias primas para piensos particularmente preferidos son las materias primas para piensos y/o los piensos sin procesar y/o procesados. Las materias primas para piensos y/o los piensos procesados son aquellos que se sometieron a cualquier tipo de tratamiento térmico o de presión con el fin de eliminar o desintoxicar los factores antinutritivos. Los piensos y/o las materias primas para piensos preferidos son las semillas oleaginosas, en particular, la harina de extracción de soja y su residuo de semillas oleaginosas, la soja enteramente grasa, la harina de colza y su residuo de semillas oleaginosas, la harina de extracción de algodón, la harina de extracción de cacahuetes, la harina de extracción de girasol, la harina de extracción de coco y/o la harina de extracción de palmiste; las legumbres, en particular, la harina de guar tostada; los subproductos de elaboración de cerveza y destilación, en particular, los granos de destilería secos con productos solubles (DDGS, por sus siglas en inglés), los subproductos del procesamiento de cereales y de la producción de piensos, en particular, el gluten de maíz, la harina de semillas de maíz y/o los subproductos de panadería; los subproductos de animales, en particular, la harina de pescado, la harina de carne, la harina de aves de corral, la harina de sangre y/o la harina de huesos; y también cualquier tipo de granos. En particular, la materia prima para piensos es la soja, los granos de soja o un producto de granos de soja.

Dependiendo de factores, tales como el clima, el suelo y la genética de las plantas, las materias primas para piensos y/o los piensos procedentes de diferentes zonas de cultivo mundiales pueden diferir en sus ingredientes y en el contenido de dichos ingredientes. Con el fin de producir predicciones fiables y reproducibles de un pienso y/o una materia prima para piensos, por lo tanto, se prefiere que la materia prima para piensos y/o el pienso, cuyos espectros forman parte de la población de espectros, proceda de todas sus zonas de cultivo mundiales.

En una realización adicional del método de acuerdo con la presente invención, la materia prima para piensos y/o el pienso, cuyos espectros forman parte de la población de espectros, procede de todas sus zonas de cultivo mundiales.

El número de espectros de materias primas para piensos y/o piensos de la población de espectros que se usa en el método de acuerdo con la presente invención debe ser representativo para producir una predicción fiable y reproducible de la materia prima para piensos y/o el pienso en cuestión. Por lo tanto, la población de espectros comprende al menos 50 espectros de muestras de cada pienso y/o materia prima para piensos, es decir, cada pienso y/o materia prima para piensos en forma triturada o no triturada usados en la alimentación animal, preferentemente en la alimentación de las aves de corral, los cerdos, los cerdos y/o animales mantenidos en acuicultura, tales como los peces y/o los crustáceos, procedentes de cada una de sus zonas de cultivo mundiales. El método de acuerdo con la presente invención no está sujeto a ninguna limitación en cuanto al número de espectros de muestras de cualquier pienso y/o materia prima para piensos de cualquiera de sus zonas de cultivo mundiales. Por tanto, el número de espectros de muestras de cualquier pienso y/o materia prima para piensos de cualquiera de sus zonas de cultivo mundiales puede variar de 50 a 10.000, de 50 a 5.000, de 50 a 2.500, de 50 a 2.000, de 50 a 1.500, de 50 a 1.000, de 100 a 1.000, de 50 a 500, de 100 a 500, de 50 a 250, de 100 a 250 o de 50 a 100.

En otra realización del método de acuerdo con la presente invención, la población de espectros de piensos y/o materias primas para piensos conocidos de la etapa c) comprende al menos 50 espectros de muestras de cada uno de los piensos y/o las materias primas para piensos de cada una de sus zonas de cultivo mundiales.

Cuando la población de espectros de piensos y/o materias primas para piensos de tipo conocido considera cada zona de cultivo mundial de un pienso y/o una materia prima para piensos y el número de espectros de cada zona de cultivo mundial es representativo, el método de acuerdo con la presente invención permite no solo una predicción fiable y reproducible de la materia prima para piensos y/o del pienso en cuestión, sino también una predicción del origen de la materia prima para piensos y/o del pienso en cuestión.

Por lo tanto, dicha población de espectros de piensos y/o materias primas para piensos conocidos de la etapa c) comprende preferentemente al menos 50 espectros de muestras de cada uno de los piensos y/o las materias primas para piensos de cada una de sus zonas de cultivo mundiales. El número de espectros de muestras de un pienso y/o una materia prima para piensos de cada zona de cultivo mundial no está sujeto a ninguna limitación. Por tanto, el número de espectros de muestras de cualquier pienso y/o materia prima para piensos de cada zona de cultivo mundial puede variar de 50 a 10.000, de 50 a 5.000, de 50 a 2.500, de 50 a 2.000, de 50 a 1.500, de 50 a 1.000, de 100 a 1.000, de 50 a 500, de 100 a 500, de 50 a 250, de 100 a 250 o de 50 a 100.

Se prefiere proporcionar el conjunto de vectores de la base de datos de una población de espectros de materias primas para piensos y/o piensos conocidos directamente en la etapa c) del método implementado por ordenador de acuerdo con la presente invención. También resulta posible que, en primer lugar, únicamente se proporcione una población de espectros de materias primas para piensos y/o piensos conocidos, que se transforme, en la siguiente etapa, en el conjunto de vectores de la base de datos para el análisis de similitud en la etapa d). En este caso, la etapa c) del método implementado por ordenador de acuerdo con la presente invención comprende también la etapa de transformar en vectores las intensidades de absorción de las longitudes de onda o los números de onda en cada espectro de una población de espectros de materias primas para piensos y/o piensos conocidos. La multitud de vectores así obtenida de la población de espectros de materias primas para piensos y/o piensos conocidos es entonces el conjunto de vectores de la base de datos, tal como se ha mencionado anteriormente. En cualquier caso, se prefiere almacenar la población de espectros de materias primas para piensos y/o piensos conocidos o el conjunto de vectores de la base de datos de dicha población de espectros de materias primas para piensos y/o piensos conocidos en una unidad de procesamiento, tal como un ordenador o una nube. La unidad de procesamiento en la que se almacena la población de espectros o los vectores de la base de datos puede ser idéntica o diferente a la unidad de procesamiento que lleva a cabo el método implementado por ordenador de acuerdo con la presente invención. En el segundo caso, la primera unidad de procesamiento, que lleva a cabo el método implementado por ordenador de acuerdo con la presente invención, y la segunda unidad de procesamiento, en la que se almacena la población de espectros o los vectores de la base de datos, forman una red. Por ejemplo, también resulta posible que la población de espectros o los vectores de la base de datos se almacenen en una nube. En ese caso, la primera unidad de procesamiento, por ejemplo, un ordenador, que lleva a cabo el método implementado por ordenador de acuerdo con la presente invención, y la segunda unidad de procesamiento, por ejemplo, una nube, en la que se almacena la población de espectros o los vectores de la base de datos, forman una red.

Otro objeto de la presente invención es, por lo tanto, un sistema para la predicción de una materia prima para piensos y/o un pienso, que comprenda una unidad de procesamiento adaptada para llevar a cabo el método implementado por ordenador de acuerdo con la presente invención y que comprenda, además, una base de datos que comprende i) un conjunto de vectores de la base de datos de una población de espectros de materias primas para piensos y/o piensos conocidos y/o ii) una población de espectros de materias primas para piensos y/o piensos conocidos, en donde el conjunto de vectores de la base de datos y/o la población de espectros está libre de valores atípicos.

El principio de limpiar un conjunto de vectores de la base de datos o una población de espectros de un valor atípico también permite proporcionar una base de datos mejorada que comprenda conjuntos de vectores de la base de datos de una población de espectros de materias primas para piensos y/o piensos conocidos o una población de espectros de materias primas para piensos y/o piensos conocidos, que está libre de valores atípicos, y resulta adecuado, por lo tanto, para su uso en el método y/o en el sistema de acuerdo con la presente invención.

Dicha base de datos comprende i) un conjunto de vectores de la base de datos de una población de espectros de materias primas para piensos y/o piensos conocidos y/o ii) una población de espectros de materias primas para piensos y/o piensos conocidos, en donde el conjunto de vectores de la base de datos y/o la población de espectros está libre de valores atípicos, que se almacenan en un ordenador, un servidor, una nube o cualquier tipo de medio legible por ordenador, tal como un disco, un CD-ROM, una memoria flash o una memoria USB.

Dicha base de datos se puede obtener o se obtiene mediante los mismos principios que se elimina un valor atípico de un conjunto de vectores de la base de datos o de una población de espectros infrarrojos de dicha población de espectros infrarrojos.

Por lo tanto, la base de datos se puede obtener o se obtiene mediante la etapa c) y una o más de las etapas c1) a c3) del método implementado por ordenador de acuerdo con la presente invención, preferentemente mediante la etapa c) y una o más etapas seleccionadas del grupo que consiste en las etapas c1a) a c1c), las etapas c2a) a c2d) y las etapas c3a) a c3d).

En caso de que la población de espectros de materias primas para piensos conocidas se almacene en un ordenador, se prefiere que dicha población se almacene en un segundo ordenador, es decir, un ordenador que no lleve a cabo el método implementado por ordenador de acuerdo con la presente invención. En consecuencia, la carga de trabajo se distribuye uniformemente entre los ordenadores, lo que puede conducir a un rendimiento más rápido del método implementado por ordenador de acuerdo con la presente invención. Esto también permite una comunicación entre el usuario y el proveedor de una base de datos con el vector de la base de datos para su uso en el método de acuerdo con la presente invención, por ejemplo, una actualización de los vectores de la base de datos.

En una realización del sistema de acuerdo con la presente invención, la unidad de procesamiento adaptada para llevar a cabo el método implementado por ordenador de acuerdo con la presente invención forma una red con al menos otra unidad de procesamiento, en la que se almacenan los vectores de la base de datos.

El sistema de acuerdo con la presente invención comprende, además, una base de datos que comprende i) un conjunto de vectores de la base de datos de una población de espectros de materias primas para piensos y/o piensos conocidos y/o ii) una población de espectros de materias primas y/o piensos conocidos, en donde el conjunto de vectores de la base de datos y/o la población de espectros está libre de valores atípicos.

En una realización, el sistema de acuerdo con la presente invención comprende, además, un espectrómetro del infrarrojo cercano para llevar a cabo el método implementado por ordenador de acuerdo con la presente invención.

Descripción de las figuras:

Figura 1 es una representación esquemática de la opción c1) para la eliminación de los valores atípicos, en la que las viñetas de color negro son un par de vectores de la base de datos que son los más disímiles entre sí en un conjunto de vectores de la base de datos y las viñetas de tipo ajedrez son los otros vectores de la base de datos en dicho conjunto.

Figura 2 es una representación esquemática de la opción c2) para la eliminación de los valores atípicos, en la que la viñeta de color negro es el vector de la base de datos más disímil en promedio respecto a todos los demás vectores de la base de datos en el conjunto de vectores de la base de datos y las viñetas de tipo ajedrez son los demás vectores de la base de datos en dicho conjunto.

Figura 3 es una representación esquemática de la opción c3) para la eliminación de los valores atípicos, en la que la viñeta de color negro es el vector de la base de datos que es más disímil respecto al centroide de un conjunto de vectores de la base de datos, la viñeta de color gris es el centroide y las viñetas de tipo ajedrez son los otros vectores de la base de datos en el conjunto.

Ejemplo:

En el ejemplo, se compararon 3 tipos diferentes de filtros, indicados como Filtro 1 a Filtro 3, para determinar su idoneidad para la depuración de un conjunto de datos para la predicción de una clase de material, es decir, una materia prima para piensos y/o un pienso. Los resultados de estos filtros se compararon con el caso en el que no se usó ningún filtro, indicado como Filtro 0. Por tanto, el ejemplo con el Filtro 0 era un ejemplo de comparación no de acuerdo con la invención y los ejemplos con los Filtros 1 a 3 eran de acuerdo con la invención. Con detalle, los 3 tipos diferentes de filtros eran:

- Filtro 0: ningún filtro,

- Filtro 1: se eliminaron los 2 espectros más distantes por clase,

- Filtro 2: se calculó la distancia promedio de cada espectro para una clase y se eliminó el espectro más distante. - Filtro 3: se eliminó el espectro con la mayor distancia respecto al centroide.

Los filtros se usaron para la depuración de dos conjuntos de datos de espectros del NIR para la predicción de una clase de material, específicamente una materia prima para piensos y/o un pienso. Los dos conjuntos de datos contenían espectros medidos en dos espectrómetros de infrarrojos diferentes, un analizador de alimentación NIRS™ DS2500 de Foss y un analizador MPA Ft -NIR o TANGO FT-NiR de Bruker. Se aplicaron los tres filtros diferentes a los conjuntos de datos, es decir, se calcularon los criterios y se eliminaron del conjunto de datos los espectros más distantes así identificados o los espectros con menor puntuación en un procedimiento de votación y ponderación por mayoría. A continuación, los criterios del filtro se volvieron a calcular y se aplicaron de nuevo hasta que se eliminó el 20 % de los espectros de los conjuntos de datos.

Después de la aplicación de los filtros, se llevó a cabo una búsqueda de vecinos más cercanos para predecir el código del material para un conjunto de espectros de consulta. Con detalle, se realizaron 20 experimentos con 200 espectros de consulta aleatorios, donde se contó cuántas veces se predijo correctamente un código de material de las 200 consultas.

Los resultados del conjunto de datos con espectros medidos en un analizador de alimentación NIRS™ DS2500 de Foss se resumen en la Tabla 1 y los resultados del conjunto de datos con espectros medidos en un analizador MPA FT-NIR o TANGO FT-NIR de Bruker se resumen en la Tabla 2.

Tabla 1: Resultados de la depuración de un conjunto de datos con espectros medidos en un analizador del NIR de Foss.

Cada uno de los Filtros 1 a 3 en la limpieza del conjunto de datos condujo, generalmente, a una mejora en la predicción de un código de material, en comparación con el Filtro 0. Los resultados del Filtro 1, el Filtro 2 y el Filtro 3 son casi idénticos.

Tabla 2: Resultados de la depuración de un conjunto de datos con espectros medidos con un analizador del NIR de Bruker.

Cada uno de los Filtros 1 a 3 en la depuración del conjunto de datos condujo, generalmente, a una mejora en la predicción de un código de material, en comparación con el Filtro 0. Los resultados del Filtro 1, el Filtro 2 y el Filtro 3 son casi idénticos.

Resumiendo todas las opciones para la eliminación de los valores atípicos espectrales de la base de datos de vectores de acuerdo con la presente invención, se logró una mejora en la predicción de un código de material, en comparación con el caso donde no se eliminaron los valores atípicos espectrales. Además, los resultados no dependen del dispositivo del NIR específico en el que se midieron los espectros del NIR de los conjuntos de datos.

Claims

REIVINDICACIONES

1. Un método implementado por ordenador para la predicción de un pienso y/o una materia prima para piensos, que comprende las etapas de

c) proporcionar un conjunto de vectores de la base de datos de una población de espectros de materias primas para piensos y/o piensos conocidos, en donde se elimina un valor atípico del conjunto de vectores de la base de datos, en donde la etapa c) comprende, además, una o varias de las opciones c1) a c3):

c1) eliminar de dicho conjunto de vectores de la base de datos un par de vectores de la base de datos que son los más disímiles entre sí en un conjunto de vectores de la base de datos, que comprende las etapas de c1 a) calcular una medida de similitud y/o una medida de distancia de cada vector de la base de datos en un conjunto de vectores de la base de datos respecto a los otros vectores de la base de datos en dicho conjunto de vectores de la base de datos para obtener los valores de similitud de los pares de vectores de la base de datos,

c lb ) clasificar los valores de similitud obtenidos en la etapa c1a) en orden descendente, cuando se calcula una medida de similitud en la etapa c1a), o en orden ascendente, cuando se calcula una medida de distancia en la etapa c1a), en donde, en cualquier caso, el valor de similitud más bajo se refiere a los dos vectores de la base de datos que son los más disímiles entre sí, y

c lc ) eliminar por parejas del conjunto de vectores de la base de datos al menos los dos vectores de la base de datos con la clasificación más baja en la etapa c1 b),

c2a) calcular una medida de similitud y/o una medida de distancia de cada vector de la base de datos en un conjunto de vectores de la base de datos respecto a los otros vectores de la base de datos en dicho conjunto de vectores de la base de datos para obtener valores de similitud de cada uno de un vector de la base de datos respecto a los otros vectores de la base de datos,

c2c) clasificar los valores de similitud promedio obtenidos en la etapa c2b) en orden descendente, cuando se calcula una medida de similitud en la etapa c2b), o en orden ascendente, cuando se calcula una medida de distancia en la etapa c2b), en donde, en cualquier caso, el valor de similitud promedio más bajo se refiere al vector de la base de datos que es el más disímil en promedio respecto a todos los demás vectores de la base de datos, y

c3d) eliminar del conjunto de vectores de la base de datos al menos el vector de la base de datos con la clasificación más baja en la etapa c3c)

2. El método implementado por ordenador de acuerdo con la reivindicación 1, en donde un vector de la base de datos con un valor de similitud de 0 se elimina del conjunto de vectores de la base de datos en la etapa c1 b), c2c) y/o c3c).

3. El método implementado por ordenador de acuerdo con cualquiera de las reivindicaciones 1 a 2, en donde el vector de las etapas b) y c) es un vector multidimensional, correspondiendo cada dimensión a una intensidad de absorción de una longitud de onda o un número de onda específico.

4. El método implementado por ordenador de acuerdo con cualquiera de las reivindicaciones 1 a 3, en donde se elimina un espectro de valores atípicos correspondiente de los espectros infrarrojos de las materias primas para piensos y/o los piensos conocidos que se van a transformar en el conjunto de vectores de la base de datos y las etapas c1), c2) y/o c3), preferentemente las etapas c1a) a c1c), c2a) a c2c) y/o c3a) a c3e), se llevan a cabo con los espectros infrarrojos de una población de materias primas para piensos y/o piensos conocidos.

5. El método implementado por ordenador de acuerdo con cualquiera de las reivindicaciones 1 a 4, en donde, en la etapa b) y/o c), se transforman las intensidades de absorción de longitudes de onda o números de onda equidistantes en un espectro para obtener un vector de espectro en la etapa b) y/o c).

6. El método implementado por ordenador de acuerdo con cualquiera de las reivindicaciones 1 a 5, en donde las distancias de las intensidades de absorción que se transforman en vectores en la etapa b) son idénticas a las distancias de las intensidades de absorción transformadas en vectores en la etapa c).

7. El método implementado por ordenador de acuerdo con cualquiera de las reivindicaciones 1 a 6, en donde la población de espectros de materias primas para piensos y/o piensos conocidos de la etapa c) comprende al menos 50 espectros de muestras de cada materia prima para piensos y/o pienso de cada una de sus zonas de cultivo mundiales.

8. El método implementado por ordenador de acuerdo con cualquiera de las reivindicaciones 1 a 7, en donde la etapa e) comprende las etapas de

e3) formar la suma de las posiciones de la clasificación ponderadas de la etapa e2) de las materias primas para piensos y/o los piensos para obtener las puntuaciones de cada uno de las materias primas para piensos y/o los piensos, en donde la mayor puntuación indica la mayor similitud.

9. El método implementado por ordenador de acuerdo con cualquiera de las reivindicaciones 1 a 8, en donde la etapa a) comprende el registro de un espectro del infrarrojo cercano de una muestra de una materia prima para piensos y/o un pienso desconocido.

10. Un sistema para la predicción de una materia prima para piensos y/o un pienso, que comprende una unidad de procesamiento adaptada para llevar a cabo el método implementado por ordenador de acuerdo con cualquiera de las reivindicaciones 1 a 8 y que comprende, además, una base de datos que comprende i) un conjunto de vectores de la base de datos de una población de espectros de materias primas para piensos y/o piensos conocidos y/o ii) una población de espectros de materias primas para piensos y/o piensos conocidos, en donde el conjunto de vectores de la base de datos y/o la población de espectros está libre de valores atípicos.

11. El sistema de acuerdo con la reivindicación 10, que comprende, además, un espectrómetro del infrarrojo cercano para llevar a cabo el método implementado por ordenador de acuerdo con cualquiera de las reivindicaciones 1 a 9.