IT202100027983A1 - Metodo per la ricerca e la classificazione di documenti tecnici memorizzati su una pluralita’ di database accessibili per via telematica - Google Patents
Metodo per la ricerca e la classificazione di documenti tecnici memorizzati su una pluralita’ di database accessibili per via telematica Download PDFInfo
- Publication number
- IT202100027983A1 IT202100027983A1 IT102021000027983A IT202100027983A IT202100027983A1 IT 202100027983 A1 IT202100027983 A1 IT 202100027983A1 IT 102021000027983 A IT102021000027983 A IT 102021000027983A IT 202100027983 A IT202100027983 A IT 202100027983A IT 202100027983 A1 IT202100027983 A1 IT 202100027983A1
- Authority
- IT
- Italy
- Prior art keywords
- documents
- search
- internet
- network
- research
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3325—Reformulation based on results of preceding query
- G06F16/3326—Reformulation based on results of preceding query using relevance feedback from the user, e.g. relevance feedback on documents, documents sets, document terms or passages
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9532—Query formulation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
TITOLO: METODO PER LA RICERCA E LA CLASSIFICAZIONE DI
DOCUMENTI TECNICI MEMORIZZATI SU UNA PLURALITA? DI
DATABASE ACCESSIBILI PER VIA TELEMATICA
DESCRIZIONE
Settore Tecnico dell?Invenzione
L?ambito di applicazione della presente invenzione riguarda la ricerca di documenti pubblicati sulla rete ?Internet?.
Da quando, nel 2001, Lawrence Page pubblic? l?algoritmo (cfr. US 6285999 B1 ? ?Method for node ranking in a linked database?) su cui si basa il primo motore di ricerca di ?Google?, il problema di ricercare i contenuti di interesse di un utente nella imponderabile mole di documenti che sono pubblicati sulla rete ?Internet?, ? diventato un problema sempre pi? difficile e complesso.
Infatti, ? sempre pi? concreto il rischio di non riuscire ad individuare, e quindi reperire, i documenti che pi? si avvicinano a ci? che si cerca: cosicch? documenti potenzialmente di grande interesse, pur presenti in qualche sito pubblicato in rete, ? possibile che sfuggano alle ricerche.
Questo rischio ? significativo, in modo particolare, anche nel settore scientifico e tecnologico. La documentazione che tratta di innovazioni tecnologiche, o comunque la documentazione che fornisce indicazioni di interesse sull?esistenza di eventuali innovazioni di cui si ? alla ricerca, costituisce un ambito di ricerca estremamente vasto; e le informazioni che potrebbero essere pi? interessanti spesso non emergono con evidenza a seguito di ricerche documentali svolte con le tecniche note.
Tecnica Nota
Dai tempi delle prime ricerche di documentazione pubblicata sulla rete ?Internet? che potevano essere eseguite vent?anni fa, fino ad arrivare ai giorni nostri, lo scenario di riferimento ha subito numerosi cambiamenti sostanziali, sia di tipo quantitativo che di tipo qualitativo.
I cambiamenti quantitativi sono evidenti. Il numero di documenti che vengono continuamente caricati in qualche sito della grande rete ?Internet? (spesso si usa la locuzione anglofona ?Big Internet?) aumenta in modo assolutamente imponderabile. Qualsiasi argomento pu? essere citato o trattato, a molteplici livelli di approfondimento, in una quantit? di documenti che non pu? essere realisticamente proposta al vaglio diretto di un operatore che esegue una specifica ricerca.
Oltre agli evidenti cambiamenti quantitativi, si registrano poi sostanziali cambiamenti qualitativi. Questi ultimi riguardano sia le tipologie di documenti, e sia i linguaggi utilizzati nella documentazione.
Informazioni di potenziale interesse possono essere sintetizzate in classici articoli o rapporti tecnici, oppure in documenti organizzati a schede, o in siti che ospitano dei ?blog?, oppure ancora in presentazioni multimediali in cui sono presenti anche contenuti audio e video.
Ma non ? solo la tipologia di documento ad essere cos? varia da rendere difficili le ricerche automatiche; infatti, essendo possibile dedurre i criteri di ricerca utilizzati dai principali programmi di ricerca automatica (i cos? detti ?motori di ricerca?), ? sempre pi? diffusa la pratica di affidare la stesura finale dei documenti che vengono pubblicati in rete ad esperti in tecniche SEO (Search Engine Optimization).
Come il nome stesso lascia intuire, gli esperti in tecniche SEO introducono nei documenti pubblicati in rete delle particolari formulazioni (o accorgimenti di altro tipo) che intercettano in modo ottimizzato i criteri con cui i motori di ricerca assegnano un giudizio di pertinenza del documento analizzato, alla ricerca condotta.
Per effetto della larga diffusione delle tecniche SEO, i motori di ricerca tendono a far emergere i documenti redatti da chi si avvale dei migliori esperti SEO, ovvero i documenti che vengono pubblicati con fini commerciali.
Al contrario delle entit? che pubblicano con fini commerciali, i soggetti che pubblicano con disinteressati fini divulgativi, o informativi in genere, non investono denaro ed energie per ottimizzazioni di tipo SEO, tipicamente pubblicano rivolgendosi a ristrette cerchie di contatti che appartengono a comunit? che possono anche essere relativamente chiuse, precludendo, di fatto, la circolazione dei contenuti da loro pubblicati presso il pubblico pi? vasto.
Allo stato dell?arte, l?esecuzione di una ricerca di contenuti pubblicati sulla rete ?Internet? ? un?attivit? che pu? essere definita di tipo semi-professionale; infatti, viene spesso affidata a dei professionisti. Quando viene condotta da soggetti non professionali, o si tratta comunque di persone con competenze molto forti, animate da una passione per l?argomento (che, in molti casi, possono anche avere competenze migliori di quelle dei professionisti nel settore), oppure, quando le ricerche sono condotte da persone non esperte nell?ambito delle ricerche documentali, normalmente, finiscono per far emergere per lo pi? documenti promossi con fini commerciali o informazioni gi? molto note.
Difficilmente ricerche condotte da soggetti che non hanno una specifica competenza ed esperienza nella ricerca di informazioni in rete portano a scoprire informazioni innovative ma poco conosciute, e quando ci? avviene, non ? detto che si tratti delle informazioni che pi? rispondono alle esigenze che hanno ispirato la ricerca.
Questo genere di problema ? molto penalizzante nel contesto delle ricerche di soluzioni tecnologiche perch?, normalmente, ci? che ? interessante scoprire, quanto pi? possibile precocemente, sono proprio le soluzioni e le idee nuove, possibilmente prima che queste diventino di comune dominio negli specifici settori.
Un possibile approccio al problema nella sua generalit? consiste nell?ottimizzare sempre di pi? il funzionamento dei motori di ricerca.
Questo approccio mira a migliorare la capacit? di tali motori di ricerca di analizzare velocemente e correttamente l?enorme quantit? di dati pubblicati sulla rete ?Internet?. Oppure offre strumenti di interazione con l?operatore che esegue la ricerca in modo da guidarlo per rendere pi? efficaci e pertinenti le informazioni che egli fornisce al motore di ricerca stesso, focalizzando meglio il merito dell?oggetto della ricerca. Un esempio, tra i molti, di questo approccio ? indicato in US 11048756 B1 [?Search Engine Optimizer? ? Paiz, Richard ? 29 giugno 2021], in cui si insegna ad ottimizzare i pattern di ricerca, e ad organizzare meglio le informazioni reperite durante il vaglio dei documenti presenti nella rete ?Internet?, in modo da far lavorare meglio un motore di ricerca.
Tuttavia, bench? si possano concepire motori di ricerca capaci di prestazioni sempre migliori, dotati di interfacce che facilitino l?operatore che esegue la ricerca, o che si avvalgono di supercomputer sempre pi? potenti, o che implementano algoritmi di ricerca che vengono continuamente arricchiti di accorgimenti che li rendono sempre pi? accurati, le ricerche della documentazione che meglio risponde ai motivi per cui ogni singola ricerca viene eseguita non sono quasi mai pienamente soddisfacenti; ed ? tutt?altro che improbabile che documenti di interesse reale, in relazione alla ricerca condotta, non vengano trovati.
Del resto, le ragioni, sopra espresse, per cui molte ricerche non sono soddisfacenti, permangono a prescindere dalla qualit? dei motori di ricerca: infatti la documentazione disponibile ? in continua crescita, si differenzia in tipologie sempre diverse e comprende documenti che sono costruiti appositamente per essere evidenziati dalle logiche implementate dai motori di ricerca.
Queste caratteristiche dell?ambiente di ricerca continuano a rappresentare ostacoli quasi insormontabili per giungere ad una piena automatizzazione delle ricerche, le quali, pertanto, continuano sempre a necessitare di un?attenta supervisione da parte di un esperto.
E tale difficolt? di ricerca, come gi? evidenziato, ? certamente presente, e spesso in modo particolarmente significativo, anche nel caso in cui i documenti ricercati siano relativi ad innovazioni tecnologiche che contengano informazioni utili alla soluzione di particolari esigenze di tipo tecnico. Soprattutto, ? molto difficile individuare notizie e documenti che si riferiscono alle soluzioni pi? innovative e meno note che provengono dai pi? svariati ambienti di studio o da piccole aziende.
L?abilit? dell?operatore che esegue una ricerca, e la sua esperienza nelle ricerche, ? pertanto alla base di ricerche di questo tipo, ed ? tuttora essenziale.
Una questione aperta riguarda fino a che punto sia possibile automatizzare i processi di ricerca, e come si debbano impostare le ricerche usando i classici motori di ricerca, affinch? gli automatismi eseguano efficacemente le ricerche volute. Infatti, per il solo fatto che la ricerca di documenti pubblicati sulla rete ?Internet? avviene su una base di documenti il cui numero ? dell?ordine dei miliardi implica il fatto che sia necessario condurre queste ricerche avvalendosi di programmi di ricerca automatica.
La mole di documenti da analizzare, inoltre, implica anche che tali programmi di ricerca possano avvalersi di potenze di calcolo molto elevate: fatto, quest?ultimo, che suggerisce di usare motori di ricerca generalisti (come ad esempio Google), potendo, questi motori, contare su potenze di calcolo adatte ad analizzare velocemente, e con la dovuta complessit? di analisi, tutti i documenti pubblicati nella grande rete ?Internet?.
L?abilit? dell?operatore che esegue la ricerca ? quella di impostare le chiavi di ricerca, combinandole in modo possibilmente intelligente, in modo da estrarre una piccola quantit? di documenti, senza rischiare di perdere in tale estrazione selettiva i documenti pi? interessanti.
Bench? l?esperienza degli operatori che eseguono le ricerche venga sicuramente in aiuto in questo compito, e bench? la tecnica nota metta a disposizione soluzioni che facilitano la migliore definizione delle chiavi di ricerca (si pensi, a titolo d?esempio, alla gi? citata soluzione indicata in US 11048756 B1 ? Paiz R. ?Search Engine Optimizer?), la pratica nota non dispone di metodologie e strumenti che possano essere considerati pienamente soddisfacenti; e, quando qualcuno esegue una ricerca in ?Internet?, ? sempre pi? diffusa la convinzione (o la sensazione) che, nascosto da qualche parte, vi sia un documento che tratta proprio quello che interessa maggiormente, ma che questo documento non sia stato trovato.
In definitiva, ogni metodo, o accorgimento, volti a migliorare i risultati di una ricerca documentale condotta sulla grande rete ?Internet?, rappresenta un risultato di grande interesse, con ricadute certamente positive anche nel contesto della circolazione virtuosa dell?innovazione.
Scopo e sintesi dell?invenzione
Lo scopo generale della presente invenzione ? quello di indicare un metodo, e gli opportuni strumenti, che consentono di condurre una ricerca di documenti sulla grande rete ?Internet?, in cui sia ridotto il pi? possibile il rischio di trascurare documenti di interesse significativo.
In particolare, la presente invenzione concentra la propria attenzione nell?ambito della documentazione che fornisce indicazioni su innovazioni tecnologiche funzionali ad offrire soluzioni a particolari esigenze tecniche.
Un obiettivo intermedio, ma essenziale al conseguimento dell?obiettivo generale, consiste nel valorizzare al massimo il quesito della ricerca espresso con un linguaggio tipico del soggetto interessato, il quale, in genere ? esperto dell?argomento tecnico che ? l?oggetto della ricerca, ma non ? esperto delle tecniche di ricerca documentale.
Tipicamente avviene che sia gi? la riduzione dell?oggetto di ricerca ad un insieme (o a pochi insiemi) di parole chiave (che dovrebbero sintetizzare ci? che si cerca) a costituire una prima causa per cui, nel processo di ricerca documentale, si perde informazione potenzialmente utile.
Gli scopi prefissati per questa invenzione sono raggiunti mediante il ricorso ad un metodo di ricerca documentale per individuare informazioni a contenuto tecnologico pubblicate nella grande rete ?Internet?, che si avvale di un sistema di strumenti di tipo informatico che comprendono:
- almeno un motore di ricerca documentale generalista implementato attraverso un programma noto ed adeguati mezzi di calcolo idonei ad eseguirlo,
- almeno un programma che implementa un algoritmo NLP (Natural Language Processing) di tipo TF-IDF (Term Frequency ? Inverse Document Frequency), con relativo programma di addestramento,
- un insieme preselezionato di librerie informatiche che contengono raccolte di documenti contenenti informazioni tecniche;
e detto metodo di ricerca comprende i seguenti passi:
? formulazione di una relazione di ingresso che sintetizza le informazioni tecniche che si intendono ricercare tra i documenti pubblicati nella grande rete ?Internet?, essendo detta relazione di ingresso comprendente almeno un testo redatto da un soggetto richiedente, esperto nella materia della ricerca, e scritto utilizzando il linguaggio ed il gergo di esposizione naturale di tale soggetto richiedente;
? esecuzione di una ricerca di documenti che trattano lo stesso argomento trattato in detta relazione di ingresso redatta da detto soggetto richiedente, essendo detta ricerca limitata ai documenti tecnici contenuti in dette librerie informatiche preselezionate;
? popolamento di un insieme di documenti di riferimento, costituito dai documenti selezionati attraverso la ricerca eseguita al punto precedente; ? utilizzo di detto insieme di documenti di riferimento, popolato al punto precedente, per istruire detto algoritmo NLP di tipo TF-IDF;
? individuazione di un insieme di parole chiave che rappresentano l?oggetto della ricerca richiesta da detto soggetto richiedente;
? esecuzione di una ricerca automatica e massiva, condotta su tutta la grande rete ?Internet?, utilizzando detto motore di ricerca documentale generalista, essendo detto motore di ricerca documentale generalista applicato utilizzando una pluralit? di diverse combinazioni di dette parole chiave individuate al passo precedente;
? raccolta di tutti i documenti selezionati attraverso la ricerca automatica e massiva eseguita al punto precedente, indipendentemente dalla valutazione di pertinenza assegnato da detto motore di ricerca documentale generalista a ciascun documento selezionato, e costruzione di un insieme di documenti genericamente focalizzato sull?argomento di ricerca;
? comparazione di ciascun documento raccolto in detto insieme di documenti genericamente focalizzato con detta relazione di ingresso, essendo detta comparazione effettuata mediante l?applicazione dell?algoritmo NLP (di tipo TF-IDF) precedentemente istruito;
? selezione di un sottoinsieme di detto insieme di documenti genericamente focalizzati, essendo detto sottoinsieme composto da documenti specificatamente rilevanti, ed essendo detta selezione effettuata in funzione di detta comparazione condotta al passo precedente.
Il principale vantaggio della presente invenzione consiste pertanto nel fatto che i suoi insegnamenti permettono di soddisfare i principali obiettivi per cui l?invenzione stessa ? stata concepita.
Questa invenzione presenta anche ulteriori vantaggi, che risulteranno pi? evidenti dalla descrizione seguente, che illustra ulteriori dettagli dell?invenzione stessa attraverso alcune forme di implementazione, e dalle rivendicazioni allegate, che formano parte integrante della presente descrizione.
Descrizione dettagliata
Alla base dell?invenzione vi ? l?intuizione di articolare la ricerca di documenti separando due funzioni che nelle tecniche di arte nota sono sempre intimamente accorpate: cio? la funzione di passare al vaglio tutti (o quasi tutti) i documenti pubblicati nella grande rete ?Internet?, e la funzione di analisi approfondita dei contenuti per verificarne l?interesse.
Il vaglio massivo di tutti i documenti pubblicati nella grande rete ?Internet?, viene condotto servendosi di uno strumento costituito da un motore di ricerca documentale generalista, sfruttando, di quest?ultimo, la grande potenza e velocit? di calcolo.
In questa fase viene sostanzialmente ignorata un?effettiva analisi di pertinenza dettagliata, perch? si tollera di selezionare un numero di documenti elevato e non gestibile da un operatore, costruendo per? un insieme di documenti genericamente focalizzato sull?argomento di ricerca.
Tale insieme di documenti genericamente focalizzati, pur essendo un insieme troppo numeroso per costituire un primo esito di ricerca, ? per? di una dimensione assolutamente gestibile con un secondo procedimento di analisi automatizzata, basato su algoritmi, anche di una certa complessit? computazionale, quali sono algoritmi di analisi di linguaggio naturale (detti algoritmi NLP ? Natural Language Processing).
Un passo iniziale della ricerca documentale deve necessariamente essere condotto sulla totalit? dei documenti pubblicati nella grande rete ?Internet?. Questa ricerca pu? essere condotta all?inizio, proprio come prima cosa, o anche parallelamente o immediatamente dopo altre fasi della metodologia, dalle quali non ? comunque strettamente dipendente.
In questa fase iniziale non ? importante isolare subito i documenti di interesse: ci? che conta ? ridurre l?ambiente di ricerca focalizzandolo solo su documenti che attengono genericamente all?argomento della ricerca. Al tempo stesso, per?, si deve scongiurare il rischio di escludere, in tale processo di focalizzazione, documenti che potrebbero essere interessanti, demandando la ricerca vera e propria a fasi successive, che per? hanno il vantaggio di poter essere condotte su un insieme di documenti meno imponderabile, e certamente gestibile ricorrendo anche a programmi di analisi di una certa complessit?.
Dunque la prima ricerca avviene con un classico motore di ricerca documentale generalista che agisce eseguendo ricerche sulla base del riscontro di combinazioni di parole chiave.
Quando la ricerca deve focalizzare rapidamente i documenti di maggior interesse, la scelta delle combinazioni di parole chiave ? di grande rilevanza, e da tale scelta spesso dipende la qualit? dell?esito della ricerca. Applicando il metodo secondo l?invenzione, invece, questa scelta non ? cos? determinante, il solo scopo ? quello di selezionare tutti i documenti potenzialmente di interesse, accettando anche di selezionare documenti ridondanti. Pertanto la scelta delle parole chiave pu? essere richiesta direttamente al soggetto cui interessa la ricerca, anche se costui non ha grande esperienza in ricerche documentali sulla grande rete ?Internet?. L?importante ? che vengano fornite parole chiave attinenti all?argomento. La ricerca massiva viene poi condotta eventualmente arricchendo l?insieme di parole chiave con sinonimi in uso nel settore e lanciando una pluralit? di analisi, ciascuna con una diversa combinazione di tali parole chiave.
Il numero di tali combinazioni ? in genere molto elevato, dato che, come gi? detto, in questa fase si accetta di reperire un gran numero di documenti, anche dell?ordine dei milioni.
L?informazione pi? importante che viene chiesta al soggetto cui interessa la ricerca, tuttavia, non ? una lista di parole chiave, bens? ? una relazione scritta che sintetizza le informazioni tecniche che si intendono ricercare.
Tale relazione ? detta relazione di ingresso. In essa, il soggetto richiedente si deve esprimere usando il linguaggio naturale, ed il gergo, tipico del settore in cui opera, ossia linguaggio e gergo condivisi anche nell?ambiente in cui i contenuti ricercati possono essere generati.
Sia i contenuti tecnici espressi nella relazione d?ingresso e sia il linguaggio usato costituiscono informazioni di ingresso preziose per automatizzare, come sar? chiarito nel seguito della presente descrizione, il processo di ricerca e per arrivare ad un numero di documenti relativamente ridotto, gestibile con analisi molto approfondite, ed ordinabile in funzione di effettiva pertinenza rispetto all?oggetto della ricerca: potendo lavorare solo su documenti su cui ne vale la pena.
In una forma di implementazione interessante, tale relazione di ingresso pu? anche costituire l?unico punto di partenza dell?intera ricerca, essendo possibile estrarre dalla relazione stessa anche le parole chiave.
In generale, ? comunque raccomandabile che tale relazione di ingresso comprenda alcune informazioni che sono di grande importanza per la ricerca: tra queste, l?obiettivo della soluzione tecnica di interesse del soggetto richiedente e l?indicazione delle tecnologie sulle quali si ritiene che sia possibile basare la soluzione cercata. In una forma di implementazione preferita, queste ultime informazioni ? opportuno che siano esplicitamente enunciate in parti di testo isolate e chiaramente identificabili come recanti le suddette informazioni. Ci? allo scopo di facilitare il trattamento automatizzato del testo di detta relazione di ingresso.
Si sottolinea a questo punto che il metodo indicato nella presente invenzione si applica preferibilmente per ricercare documenti che illustrino, o che forniscano informazioni importanti, relativamente a soluzioni tecnologiche innovative; cio? soluzioni tecnologiche che possano interessare a soggetti richiedenti che sono alle prese con un problema tecnico, e che vogliono documentarsi in merito alla possibile presenza di soluzioni gi? individuate, ed utili alla soluzione del loro problema.
Contestualmente alla ricerca massiva effettuata passando al vaglio tutta la grande rete ?Internet?, o in sequenza a tale ricerca massiva, prima o dopo di essa, il metodo secondo l?invenzione prevede di selezionare un insieme ulteriore di documenti, detti documenti di riferimento sull?argomento.
Questa selezione ? peculiare del metodo secondo l?invenzione, ha una funzione distintiva rispetto ad altri metodi, e presenta alcune caratteristiche che la contraddistinguono.
La prima caratteristica ? che si tratta di una selezione condotta su un numero preselezionato di librerie informatiche contenenti raccolte di documenti il cui contenuto comprenda informazioni tecniche. Per dare un ordine di grandezza del numero di tali librerie preselezionate si pu? indicare il migliaio, anche se, evidentemente, molto dipende dalla disponibilit? e dalla dimensione delle singole librerie. L?importante ? che si tratti di archivi che contengono esempi di documenti di qualit?, che trattano argomenti riguardanti soluzioni tecnologiche.
La limitazione di applicabilit? del metodo secondo l?invenzione, alla ricerca di documenti di tipo tecnologico, permette di preselezionare queste librerie informatiche in modo tale che queste rappresentino una buona base di partenza dove reperire documenti che trattano lo stesso argomento trattato nei documenti che si intendono ricercare e, soprattutto, documenti che fanno uso di linguaggi e gerghi tipicamente usati nei settori da cui provengono.
Un insieme di documenti di riferimento che trattino il medesimo argomento della ricerca ? necessario per disporre di un buon numero di esempi di documenti redatti, per l?appunto, in un linguaggio usato nel settore della ricerca.
Tali documenti, forniscono quindi lo strumento essenziale per addestrare un algoritmo di elaborazione del linguaggio naturale (cio? un algoritmo NLP - Natural Language Processing) e per ricavare un glossario di parole specifiche usate nel contesto tecnico in cui la ricerca documentale deve essere condotta.
Un numero di documenti adeguato a questo scopo ? dell?ordine delle varie decine, potendo anche arrivare all?ordine del centinaio.
In una forma di implementazione di particolare interesse, il glossario ricavato da detti documenti di riferimento pu? essere usato anche per determinare le parole chiave da impiegare per condurre la ricerca massiva di cui si ? gi? detto. In tal caso, evidentemente, questa fase di determinazione dell?insieme dei documenti di riferimento precede la ricerca massiva.
Tuttavia la funzione essenziale di detto insieme di documenti di riferimento ? quello di addestrare un algoritmo NLP per elaborare testi che trattano argomenti affini alla ricerca da condurre.
La selezione dei documenti di riferimento tratti da dette librerie predefinite pu?, anche questa, essere condotta con tecniche note per individuare documenti simili tra loro; tra le tecnologie che possono essere impiegate, si citano a titolo di esempio tecnologie basate sulla ?Keyword Density? o sullo ?Indice di Jaccard?.
L?uso di un insieme di addestramento che contiene solo documenti che trattano l?argomento di interesse del soggetto richiedente, costituisce una garanzia convincente sul fatto che l?algoritmo NLP potr? essere applicato con buona affidabilit? ai documenti che dovranno poi essere ricercati. Si ricorda che anche sugli algoritmi NLP, e sulle relative tecniche di addestramento a partire da esempi di testi redatti usando un particolare linguaggio naturale, o un particolare gergo, esiste un?ampia letteratura alla quale si rimanda, essendo questa una tematica scientifica che pu? ormai considerarsi matura.
A questo punto il metodo secondo l?invenzione dispone di due importanti risultati raggiunti.
Un primo risultato ? quello di disporre di un insieme di documenti genericamente focalizzato sull?argomento di ricerca ottenuto facendo girare un motore di ricerca classico su tutta la grande rete ?Internet?. Questo insieme focalizzato ? molto numeroso, infatti pu? contenere milioni di documenti, ma, al contempo, si pu? essere abbastanza certi del fatto che difficilmente sono stati trascurati documenti di potenziale interesse.
Il secondo risultato ? quello di disporre di un algoritmo NLP opportunamente addestrato, che nelle forme di implementazione preferite ? di tipo TF-IDF (Term Frequency ? Inverse Document Frequency), con cui analizzare automaticamente tutti i documenti appartenenti all?insieme focalizzato. Questi ultimi, infatti, pur essendo molto numerosi, sono in numero trattabile effettuando comparazioni via software (ad esempio anche con il succitato algoritmo NLP/TF-IDF).
Il processo di selezione dei documenti effettivamente di interesse avviene quindi confrontando ciascun documento appartenente a detto insieme genericamente focalizzato con la relazione di ingresso che sintetizza le informazioni tecniche che si intendono ricercare. Si ricorda, infatti, che anche detta relazione di ingresso ? formulata nel linguaggio naturale usato dal soggetto interessato alla richiesta; costui, auspicabilmente, ? una persona relativamente esperta dell?argomento, e pertanto, normalmente, usa un linguaggio naturale (cio? un lessico) affine a quello usato nei documenti su cui avviene la comparazione.
Il processo di comparazione pu? avvenire, al solito, con svariate tecniche note; in alcune forme di implementazione tra le preferite si possono ancora una volta indicare le tecniche basate sullo ?Indice di Jaccard? (particolarmente significativo per questo genere di analisi).
Ci? che conta ai fini della presente invenzione ? che attraverso tali comparazioni si giunga a selezionare, a partire dal grande insieme focalizzato, un sottoinsieme di poche migliaia di documenti, offrendo cos? un risultato di ricerca che pu? finalmente essere considerato gestibile dal soggetto richiedente.
Il processo di riduzione della documentazione selezionata pu? essere condotto in pi? passaggi, restringendo progressivamente i vincoli di contenuto che vengono imposti. In tali (uno o pi?) passaggi di comparazione ? possibile far ricorso a tecniche di elaborazione del linguaggio naturale sempre pi? sofisticate.
Anche sul risultato della ricerca costituito dall?insieme dei documenti specificatamente rilevanti che emergono dalle comparazioni con la relazione di ingresso redatta dal soggetto richiedente, infine, possono essere applicati ulteriori metodi di classificazione per portare in ulteriore evidenza i risultati pi? pertinenti per il richiedente.
Una forma di classificazione interessante consiste nel produrre un ordinamento secondo un ordine di pertinenza alla esigenza espressa da detto soggetto richiedente nella relazione di ingresso. Alcune tecnologie a cui si pu? far ricorso per questi passi di analisi finali fanno riferimento ai cos? detti algoritmi di ?Text classification? e di ?URL classification?.
Varianti e Considerazioni conclusive
In sintesi, gli insegnamenti della presente invenzione hanno come finalit? quella di definire in maniera innovativa ed efficace un metodo per reperire documenti pubblicati nella grande rete ?Internet? che descrivono soluzioni tecnologiche di interesse in relazione a determinati problemi tecnici, ma che, ad oggi, sfuggono alle tecniche di ricerca note.
Dato che non si pu? prescindere da metodi di ricerca che siano in larga parte implementabili in modo automatico (a causa soprattutto delle grandissima mole di documenti pubblicati sulla rete ?Internet?), l?invenzione indica come sia possibile ricorrere ad una pluralit? di ricerche condotte applicando una pluralit? di metodi informatici noti, diversi tra loro, concepiti con scopi e finalit? diverse ed indipendenti tra loro, ma che possono funzionare sinergicamente nel contesto della metodologia insegnata.
In particolare, notevole esercizio di attivit? inventiva risiede nel fatto di aver definito un passo di ricerca finalizzato non tanto a ricercare contenuti di interesse, ma per raccogliere documenti caratterizzati dall?uso di un linguaggio ed un gergo particolari; e questo per disporre di uno strumento per addestrare un algoritmo adattivo (nella fattispecie un algoritmo NLP) da usare per effettuare analisi su una base dati costituita da documenti selezionati a loro volta in modo opportuno, ed usando un motore di ricerca in modo particolare (non badando cio? a ridurre la dimensione numerica dell?esito della ricerca, anzi, facendo il contrario).
Inoltre, l?invenzione pu? facilmente applicarsi anche a ricerche su documenti multimediali aggiungendo un?ulteriore fase metodologica, ad esempio ricorrendo a strumenti di conversione da audio a testo. In questo modo ? possibile riportare alla tipologia di documenti testuali anche tutti i documenti audio, rendendoli cos? trattabili secondo le metodiche sopra esposte.
A questo proposito, si osserva che i pi? moderni motori di ricerca allo stato dell?arte sono in grado di evidenziare anche pagine ?web?, pubblicate in rete, che comprendono contenuti multimediali: ? pertanto giusto confrontare anche tali contenuti con la relazione descrittiva che riassume le esigenze del soggetto richiedente la ricerca.
? chiaro che il metodo insegnato attinge a piene mani ad algoritmi noti, sia per la ricerca documentale, che per l?analisi di testi, che per la loro classificazione. Tali algoritmi sono in continua evoluzione, cosicch? nuovi algoritmi (anche non citati nella presente relazione descrittiva) con prestazioni sempre migliori possono essere adottati nell?implementazione della presente invenzione, dando cos? luogo a diverse varianti della medesima invenzione.
Del resto, l?esercizio di attivit? inventiva non ? stato profuso nella messa a punto di tecniche elaborative o algoritmi di ricerca, bens? nel combinare in modo innovativo strumenti informatici noti che, usati secondo il metodo descritto portano a risultati di notevole interesse applicativo. Il metodo secondo l?invenzione, quindi, trae beneficio dall?eventuale (nonch? auspicato) miglioramento delle prestazioni dei singoli strumenti informatici di cui si avvale.
In particolare, la comprensione del linguaggio naturale ? una delle principali frontiere dell?intelligenza artificiale, cosicch? il processo di comparazione tra la relazione di ingresso ed i documenti appartenenti all?insieme focalizzato, estratto massivamente dalla grande rete ?Internet?, ? certamente passibile di molti affinamenti che riguardano sia la comprensione delle esigenze del soggetto richiedente (producendo cos? cos? un impatto significativo sul processo di analisi della cos? detta relazione di ingresso) e sia la comprensione dei documenti appartenenti all?insieme genericamente focalizzato, cos? da proporre ricerche capaci di correlare anche gruppi di documenti, surrogando sempre pi?, e sempre meglio, tutte le analisi che ancora si pensa di lasciare all?analisi diretta del soggetto richiedente, cos? da proporgli documenti sempre pi? focalizzati e sempre meglio organizzati per favorire e velocizzare quella che alla fine dovr? essere la sua analisi personale.
? importante quindi ribadire, in tutta generalit?, che la presente invenzione si presta a numerose varianti, pur mantenendo le prerogative rivendicate.
Di alcune di queste varianti si ? anche gi? detto, e riguardano l?uso di differenti algoritmi, o di differenti ordini di esecuzione delle varie fasi del metodo; tuttavia, tali varianti, qualora rispettino le caratterizzazioni essenziali del metodo insegnato, devono essere considerate tutte varianti della medesima invenzione.
Soprattutto nel contesto di scenari evolutivi poi, l?invenzione si presta ad incorporare e supportare ulteriori sforzi di sviluppo e perfezionamento, capaci di migliorare, o aumentare, le prestazioni del metodo descritto.
Quindi, sviluppi ulteriori potrebbero essere apportati dall?uomo esperto del ramo senza per questo fuoriuscire dall?ambito dell?invenzione quale essa risulta dalla presente descrizione e dalle rivendicazioni qui allegate che costituiscono parte integrante della presente descrizione; oppure, qualora detti sviluppi non risultino compresi nella presente descrizione, possono essere oggetto di ulteriori domande di brevetto associate alla presente invenzione, o dipendenti da essa.
Claims (8)
1. Un metodo di ricerca documentale per individuare informazioni a contenuto tecnologico pubblicate nella grande rete ?Internet?, che si avvale di un sistema di strumenti di tipo informatico che comprendono:
i. almeno un motore di ricerca documentale generalista implementato attraverso un programma noto ed adeguati mezzi di calcolo idonei ad eseguirlo,
ii. almeno un programma che implementa un algoritmo NLP (Natural Language Processing) di tipo TF-IDF (Term Frequency ? Inverse Document Frequency), con relativo programma di addestramento, iii. un insieme preselezionato di librerie informatiche che contengono raccolte di documenti contenenti informazioni tecniche;
e detto metodo di ricerca comprende i seguenti passi:
a. formulazione di una relazione di ingresso che sintetizza le informazioni tecniche che si intendono ricercare tra i documenti pubblicati nella grande rete ?Internet?, essendo detta relazione di ingresso comprendente almeno un testo redatto da un soggetto richiedente, esperto nella materia della ricerca, e scritto utilizzando il linguaggio ed il gergo di esposizione naturale di tale soggetto richiedente;
b. esecuzione di una ricerca di documenti che trattano lo stesso argomento trattato in detta relazione di ingresso redatta da detto soggetto richiedente, essendo detta ricerca limitata ai documenti tecnici contenuti in dette librerie informatiche preselezionate;
c. popolamento di un insieme di documenti di riferimento, costituito dai documenti selezionati attraverso la ricerca eseguita al precedente passo ?b.?;
d. utilizzo di detto insieme di documenti di riferimento, popolato come indicato al precedente passo ?c?, per istruire detto algoritmo NLP di tipo TF-IDF;
e. individuazione di un insieme di parole chiave che rappresentano l?oggetto della ricerca richiesta da detto soggetto richiedente;
f. esecuzione di una ricerca automatica e massiva, condotta su tutta la grande rete ?Internet?, utilizzando detto motore di ricerca documentale generalista, essendo detto motore di ricerca documentale generalista applicato utilizzando una pluralit? di combinazioni di dette parole chiave individuate al precedente passo ?e.?;
g. raccolta di tutti i documenti selezionati attraverso la ricerca automatica e massiva eseguita al precedente passo ?f.?, indipendentemente dalla valutazione di pertinenza assegnato da detto motore di ricerca documentale generalista a ciascun documento selezionato, e costruzione di un insieme di documenti genericamente focalizzato sull?argomento di ricerca;
h. comparazione di ciascun documento raccolto in detto insieme di documenti genericamente focalizzato con detta relazione di ingresso, essendo detta comparazione effettuata mediante l?applicazione di detto algoritmo NLP di tipo TF-IDF, istruito come indicato al precedente passo ?d.?;
i. selezione di un sottoinsieme di detto insieme di documenti genericamente focalizzati, essendo detto sottoinsieme composto da documenti specificatamente rilevanti, ed essendo detta selezione effettuata in funzione di detta comparazione condotta al precedente passo ?h.?.
2. Metodo di ricerca documentale per individuare informazioni a contenuto tecnologico pubblicate nella grande rete ?Internet? secondo la rivendicazione 1, in cui detta relazione di ingresso ? strutturata in modo da isolare, in parti di testo identificabili,
- l?enunciazione dell?obiettivo della soluzione tecnica di interesse del soggetto richiedente e
- l?indicazione delle tecnologie sulle quali si ritiene che sia possibile basare la soluzione cercata.
3. Metodo di ricerca documentale per individuare informazioni a contenuto tecnologico pubblicate nella grande rete ?Internet? secondo la rivendicazione 1, in cui l?individuazione dell?insieme di parole chiave che rappresentano l?oggetto della ricerca richiesta da detto soggetto richiedente, ed usate per detta ricerca automatica e massiva, condotta su tutta la grande rete ?Internet?, sono ricavate elaborando detta relazione di ingresso.
4. Metodo di ricerca documentale per individuare informazioni a contenuto tecnologico pubblicate nella grande rete ?Internet? secondo la rivendicazione 1, in cui l?individuazione l?insieme di parole chiave che rappresentano l?oggetto della ricerca richiesta da detto soggetto richiedente, ed usate per detta ricerca automatica e massiva, sono richieste esplicitamente a detto soggetto richiedente.
5. Metodo di ricerca documentale per individuare informazioni a contenuto tecnologico pubblicate nella grande rete ?Internet? secondo la rivendicazione 4, in cui detta ricerca automatica e massiva ? condotta contemporaneamente alla, o prima della, ricerca di detti documenti di riferimento in dette librerie informatiche preselezionate, indicata ai punti ?a.?, b.? e ?c.? della rivendicazione 1.
6. Metodo di ricerca documentale per individuare informazioni a contenuto tecnologico pubblicate nella grande rete ?Internet? secondo la rivendicazione 1, che si avvale anche di programmi di conversione di contenuti audio in contenuti testuali.
7. Metodo di ricerca documentale per individuare informazioni a contenuto tecnologico pubblicate nella grande rete ?Internet? secondo la rivendicazione 1, in cui detto sottoinsieme composto da documenti specificatamente rilevanti, selezionato come indicato al punto ?i.? della rivendicazione 1, ? ordinato secondo un ordine di pertinenza alla esigenza espressa da detto soggetto richiedente nella relazione di ingresso.
8. Metodo di ricerca documentale per individuare informazioni a contenuto tecnologico pubblicate nella grande rete ?Internet? secondo la rivendicazione 7, in cui detto ordinamento viene effettuato utilizzando algoritmi di ?Text classification? e di ?URL classification?.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
IT102021000027983A IT202100027983A1 (it) | 2021-11-03 | 2021-11-03 | Metodo per la ricerca e la classificazione di documenti tecnici memorizzati su una pluralita’ di database accessibili per via telematica |
PCT/IB2022/060294 WO2023079415A1 (en) | 2021-11-03 | 2022-10-26 | Method for search and classification of technical documents stored on a plurality of databases accessible by telematics |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
IT102021000027983A IT202100027983A1 (it) | 2021-11-03 | 2021-11-03 | Metodo per la ricerca e la classificazione di documenti tecnici memorizzati su una pluralita’ di database accessibili per via telematica |
Publications (1)
Publication Number | Publication Date |
---|---|
IT202100027983A1 true IT202100027983A1 (it) | 2023-05-03 |
Family
ID=80121767
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
IT102021000027983A IT202100027983A1 (it) | 2021-11-03 | 2021-11-03 | Metodo per la ricerca e la classificazione di documenti tecnici memorizzati su una pluralita’ di database accessibili per via telematica |
Country Status (2)
Country | Link |
---|---|
IT (1) | IT202100027983A1 (it) |
WO (1) | WO2023079415A1 (it) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6285999B1 (en) | 1997-01-10 | 2001-09-04 | The Board Of Trustees Of The Leland Stanford Junior University | Method for node ranking in a linked database |
WO2015009620A1 (en) * | 2013-07-17 | 2015-01-22 | President And Fellows Of Harvard College | Systems and methods for keyword determination and document classification from unstructured text |
US11048756B2 (en) | 2019-01-31 | 2021-06-29 | EMC IP Holding Company LLC | Inserting datasets into database systems utilizing hierarchical value lists |
-
2021
- 2021-11-03 IT IT102021000027983A patent/IT202100027983A1/it unknown
-
2022
- 2022-10-26 WO PCT/IB2022/060294 patent/WO2023079415A1/en not_active Ceased
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6285999B1 (en) | 1997-01-10 | 2001-09-04 | The Board Of Trustees Of The Leland Stanford Junior University | Method for node ranking in a linked database |
WO2015009620A1 (en) * | 2013-07-17 | 2015-01-22 | President And Fellows Of Harvard College | Systems and methods for keyword determination and document classification from unstructured text |
US11048756B2 (en) | 2019-01-31 | 2021-06-29 | EMC IP Holding Company LLC | Inserting datasets into database systems utilizing hierarchical value lists |
Non-Patent Citations (2)
Title |
---|
JUAN ANTONIO LOSSIO-VENTURA ET AL: "Integration of linguistic and web information to improve biomedical terminology extraction", 20140707; 1077952576 - 1077952576, 7 July 2014 (2014-07-07), pages 265 - 269, XP058054169, ISBN: 978-1-4503-2627-8, DOI: 10.1145/2628194.2628208 * |
ZHENG WANG ET AL: "Application of Domain-Specific Search Method in Meta-Search Engine on Internet", COMPUTATIONAL ENGINEERING IN SYSTEMS APPLICATIONS, IMACS MULTICONFEREN CE ON, IEEE, PI, 1 October 2006 (2006-10-01), pages 2078 - 2085, XP031121591, ISBN: 978-7-302-13922-5 * |
Also Published As
Publication number | Publication date |
---|---|
WO2023079415A1 (en) | 2023-05-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102054514B1 (ko) | 인공지능(ai)을 통한 딥러닝훈련모듈과, 순위화프레임워크모듈을 활용하여, 법률전문가에게 최적화된 모범답안을 제시하는 한편, 법률정보를 의미 벡터로 변환하여, 데이터베이스에 저장하고, 이에 대한 문자열 사전모듈을 활용한 온라인 법률정보사전을 제공하는 시스템 및 그 방법 | |
KR102431549B1 (ko) | 인과 관계 인식 장치 및 그것을 위한 컴퓨터 프로그램 | |
Alguliev et al. | GenDocSum+ MCLR: Generic document summarization based on maximum coverage and less redundancy | |
KR102334255B1 (ko) | AI 기반 음성서비스의 Text Data 수집 플랫폼 구축 및 통합관리방법 | |
KR102334236B1 (ko) | 음성 변환 Text Data에서 의미있는 키워드 추출 방법과 활용 | |
Nilla et al. | Film recommendation system using content-based filtering and the convolutional neural network (cnn) classification methods | |
Mohan et al. | Enhancing personality classification through textual analysis: a deep learning approach utilizing MBTI and social media data | |
Chandola et al. | Online resume parsing system using text analytics | |
Liu et al. | Web API search: discover Web API and Its endpoint with natural language queries | |
Constantin et al. | Hateful meme detection with multimodal deep neural networks | |
WO2008062822A1 (fr) | Dispositif d'exploration de texte, procédé d'exploration de texte et programme d'exploration de texte | |
Khouya et al. | Enriching ontology with named entity recognition (NER) integration | |
Malberg et al. | FELIX: Automatic and interpretable feature engineering using llms | |
Das et al. | Note: A sociomaterial perspective on trace data collection: Strategies for democratizing and limiting bias | |
Boukari et al. | Huntalent: A candidates recommendation system for automatic recruitment via LinkedIn | |
Gropp et al. | Clustered latent Dirichlet allocation for scientific discovery | |
Srinivas et al. | Automatic fake news detector in social media using machine learning and natural language processing approaches | |
CN118628077A (zh) | 一种基于ai的企业人才推荐系统 | |
IT202100027983A1 (it) | Metodo per la ricerca e la classificazione di documenti tecnici memorizzati su una pluralita’ di database accessibili per via telematica | |
Malleshappa et al. | Classification of Web Pages Using the Machine Learning Algorithms with Web Page Recommendations. | |
Mgarbi et al. | Building a recommendation system based on the job offers extracted from the web and the skills of job seekers | |
JP2008197952A (ja) | テキストセグメンテーション方法,その装置,そのプログラムおよびコンピュータ読み取り可能な記録媒体 | |
Mohsen et al. | Classification and Generation of Arabic News Titles from Raw Text Based on an Encoder-Decoder Transformer Model (mT5) | |
Boonyopakorn et al. | Classifying Cybercrime and Threat on Thai Online News: A Comparison of Supervised Learning Algorithms | |
Indarto et al. | Harnessing Machine Learning for Sentiment Analysis: A Comparative Study of Classification Models on Discord User Reviews |