IT202200001421A1

IT202200001421A1 - Real-time automatic monitoring and assistance system for call center telephone operators and its method of operation.

Info

Publication number: IT202200001421A1
Application number: IT102022000001421A
Authority: IT
Inventors: Carmelo Chiofalo; Simone Marullo; Szymon Tomasz Stefanek; Marco Gori
Original assignee: Orizon S R L
Priority date: 2022-01-28
Filing date: 2022-01-28
Publication date: 2023-07-28
Also published as: WO2023144849A1

Description

Sistema di monitoraggio e assistenza automatica in tempo reale per operatori telefonici di call center e relativo metodo di funzionamento. Real-time automatic monitoring and assistance system for call center telephone operators and its method of operation.

La presente invenzione riguarda un sistema di monitoraggio e assistenza automatica in tempo reale per operatori di call center, in particolare durante una conversazione telefonica tra un operatore di call center ed un destinatario, con lo scopo primario di fornire suggerimenti all?operatore mirati a massimizzare le possibilit? di raggiungimento dell?obiettivo prefissato per la chiamata. The present invention concerns a real-time automatic monitoring and assistance system for call center operators, in particular during a telephone conversation between a call center operator and a recipient, with the primary purpose of providing suggestions to the operator aimed at maximizing the possibility? of achieving the objective set for the call.

La presente invenzione riguarda anche il metodo di funzionamento del sistema. The present invention also concerns the method of operation of the system.

Pi? dettagliatamente l?invenzione concerne un sistema del tipo detto, studiato e realizzato in particolare per rilevare dati, monitorare e guidare una conversazione telefonica che avviene tra un operatore ed un destinatario, in particolare tra un operatore di un call center di una societ? di recupero crediti ed un debitore, con l?obiettivo di massimizzare la possibilit? di recupero del credito, ma che pu? essere impiegato anche in altri contesti di call center. More? in detail, the invention concerns a system of the aforementioned type, designed and created in particular to collect data, monitor and guide a telephone conversation that takes place between an operator and a recipient, in particular between an operator of a call center of a company? debt collection and a debtor, with the aim of maximizing the possibility? of credit recovery, but what can? also be used in other call center contexts.

Pertanto nel seguito la descrizione sar? rivolta ad un sistema di monitoraggio e assistenza durante una conversazione telefonica tra un operatore di una societ? di recupero crediti ed un debitore ma ? ben evidente come la stessa non debba essere considerata limitata a questo impiego specifico. Therefore in the following the description will be? aimed at a monitoring and assistance system during a telephone conversation between an operator of a company? of debt collection and a debtor but ? it is clear that it should not be considered limited to this specific use.

Com?? ben noto attualmente esistono sistemi di analisi vocale impiegati soprattutto nel campo dei centralini o call center, i quali analizzano in tempo reale e a posteriori le telefonate condotte dagli operatori, ed anche altre forme di interazione, come messaggi di testo o interazioni sui mezzi di condivisione di contenuti tra persone, come i social network. Questi sistemi impiegano degli indicatori visuali relativamente alla valutazione del linguaggio e dell?emotivit?, sia dell?operatore che del debitore, basata sul lessico impiegato dagli interlocutori. How?? well known, there are currently voice analysis systems used above all in the field of switchboards or call centers, which analyze in real time and a posteriori the telephone calls conducted by the operators, and also other forms of interaction, such as text messages or interactions on means of sharing content between people, such as social networks. These systems employ visual indicators relating to the evaluation of language and emotion, both of the operator and of the debtor, based on the vocabulary used by the interlocutors.

Sono altres? noti sistemi di analisi delle caratteristiche acustiche e modelli comportamentali per le telefonate gestite da un call center. Are they others? known systems for analyzing acoustic characteristics and behavioral models for telephone calls managed by a call center.

Sono anche noti sistemi comprendenti moduli di trascrizione speech-to-text ossia di riconoscimento vocale automatico del parlato, di rilevamento di argomenti, di riconoscimento dell?emozione o emotion recognition, e di indirizzamento o routing automatico delle chiamate tra gli operatori sulla base del verificarsi di alcuni eventi. I supervisori del sistema hanno la possibilit? di ascoltare in diretta le telefonate problematiche e intervenire condizionando l?interfaccia dell?operatore che sta gestendo la chiamata. Systems are also known comprising speech-to-text transcription modules, i.e. automatic speech recognition, topic detection, emotion recognition, and automatic addressing or routing of calls between operators based on their occurrence. of some events. The system supervisors have the possibility to listen live to problematic phone calls and intervene by conditioning the interface of the operator who is managing the call.

Sono noti anche sistemi in grado di estrarre firme vocali, ossia speaker verification, allo scopo di verificare l?identit? di un utente, anche su telefonate. Systems capable of extracting voice signatures, i.e. speaker verification, are also known for the purpose of verifying the identity of the person. of a user, even on phone calls.

I sistemi noti tuttavia si limitano a rilevare dati e fornire delle analisi a posteriori, per un determinato numero di conversazioni o non per singole conversazioni, impiegando metodi molto complessi ed articolati. The known systems, however, are limited to collecting data and providing subsequent analyses, for a given number of conversations or not for individual conversations, using very complex and detailed methods.

Inoltre, non sono noti nello stato dell?arte sistemi che integrino tutti i blocchi precedentemente descritti per guidare un operatore, in tempo reale e in modalit? interattiva, nell?intero flusso di lavoro, inclusa l?interazione telefonica. Furthermore, there are no state-of-the-art systems known that integrate all the blocks previously described to guide an operator, in real time and in interactive, throughout the entire workflow, including telephone interaction.

Alla luce di quanto sopra ?, pertanto, scopo della presente invenzione quello di fornire un sistema di monitoraggio di una conversazione telefonica e assistenza all?operatore in tempo reale, in grado di valutare l?andamento del dialogo ed inviare suggerimenti pertinenti, come feedback o alert, in modo efficace ed accurato. In light of the above, it is therefore the aim of the present invention to provide a system for monitoring a telephone conversation and providing assistance to the operator in real time, capable of evaluating the progress of the dialogue and sending relevant suggestions, such as feedback or alert, effectively and accurately.

Ulteriore scopo della presente invenzione ? quello di valutare il comportamento dell'operatore per verificare l'aderenza al corretto protocollo di conversazione e monitorarne la performance. Further purpose of the present invention? that of evaluating the operator's behavior to verify adherence to the correct conversation protocol and monitor their performance.

Ulteriore scopo della presente invenzione ? quello di fornire gli strumenti necessari alla esecuzione del metodo e gli apparati che eseguono tale metodo. Further purpose of the present invention? that of providing the tools necessary to carry out the method and the equipment that carries out this method.

Forma pertanto oggetto specifico della presente invenzione un sistema di monitoraggio e assistenza automatica in tempo reale di una conversazione telefonica tra un primo interlocutore ed un secondo interlocutore comprendente, almeno un dispositivo di comunicazione, in grado di emettere un primo segnale audio associato a segmenti vocali di detto primo interlocutore e di ricevere un secondo segnale audio associato a segmenti vocali di detto secondo interlocutore, per consentire a detto primo interlocutore di sostenere detta conversazione telefonica con detto secondo interlocutore, una unit? logica di controllo comprendente a sua volta una unit? di memoria nella quale sono memorizzati i dati anagrafici di detto secondo interlocutore e database associati a conversazioni precedenti, mezzi di elaborazione di detti segnali audio in grado di ricevere detti primo e secondo segnale audio da detto almeno un dispositivo di comunicazione, in grado di ricevere i dati anagrafici ed i dati dei database memorizzati in detta unit? di memoria, in cui detti mezzi di elaborazione sono in grado di elaborare detti primo e secondo segnale audio in tracce audio condizionate ed estrarre delle caratteristiche fisiche per ciascuna traccia audio condizionata, associare a dette caratteristiche fisiche uno o pi? elementi di un insieme di eventi, associare a detti uno o pi? elementi di detto insieme di eventi uno o pi? elementi di un insieme di suggerimenti e/o uno o pi? segnali, visualizzare su detta interfaccia grafica detti uno o pi? elementi di detto insieme di suggerimenti e/o uno o pi? segnali ad uso di detto primo interlocutore durante la conversazione. The specific object of the present invention is therefore a real-time automatic monitoring and assistance system of a telephone conversation between a first interlocutor and a second interlocutor comprising, at least one communication device, capable of emitting a first audio signal associated with vocal segments of said first interlocutor and to receive a second audio signal associated with vocal segments of said second interlocutor, to allow said first interlocutor to carry out said telephone conversation with said second interlocutor, a unit? control logic comprising in turn a unit? memory in which the personal data of said second interlocutor and database associated with previous conversations are stored, means for processing said audio signals capable of receiving said first and second audio signals from said at least one communication device, capable of receiving the personal data and database data stored in said unit? of memory, in which said processing means are capable of processing said first and second audio signals in conditioned audio tracks and extracting physical characteristics for each conditioned audio track, associating one or more physical characteristics with said physical characteristics. elements of a set of events, associate one or more with these? elements of said set of events one or more? elements of a set of suggestions and/or one or more? signals, display on said graphical interface said one or more? elements of said set of suggestions and/or one or more? signals for use by said first interlocutor during the conversation.

Ulteriormente secondo l?invenzione, detto sistema pu? comprendere dispositivi indossabili da detto primo interlocutore collegati operativamente con detta unit? logica di controllo ed in grado di ricevere detti uno o pi? segnali. Furthermore, according to the invention, said system can include devices wearable by said first interlocutor operationally connected to said unit? control logic and capable of receiving one or more said? signals.

Ancora secondo l?invenzione, detto insieme di eventi comprende un primo sottoinsieme di eventi conversazionali ed un secondo sottoinsieme di eventi emotivi. Still according to the invention, said set of events includes a first subset of conversational events and a second subset of emotional events.

Preferibilmente secondo l?invenzione, detti uno o pi? segnali sono segnali acustici e/o visivi e/o tattili. Preferably according to the invention, called one or more? signals are acoustic and/or visual and/or tactile signals.

Sempre secondo l?invenzione, uno o pi? valori di detto insieme di eventi e uno o pi? elementi di un insieme di suggerimenti vengono memorizzati in detto database di detta unit? di memoria. Again according to the invention, one or more? values of said set of events and one or more? elements of a set of suggestions are stored in said database of said unit? of memory.

Ulteriormente secondo l?invenzione, detti mezzi di elaborazione di segnali comprendono un modulo di analisi neurale addestrato per essere in grado di estrarre dette caratteristiche fisiche da dette tracce audio condizionate e associarle a detti uno o pi? elementi di detto insieme di eventi, per mezzo di soglie, di una probabilit? emotiva, di una probabilit? di conflittualit? e dello storico memorizzato in detto database. Further according to the invention, said signal processing means comprise a neural analysis module trained to be able to extract said physical characteristics from said conditioned audio tracks and associate them with said one or more elements of said set of events, by means of thresholds, of a probability? emotional, of a probability? of conflict? and the history stored in said database.

Ancora secondo l?invenzione, detto modulo di analisi neurale comprende una prima rete neurale, in grado di associare a dette caratteristiche fisiche di dette tracce audio condizionate un evento emotivo di detto secondo sottoinsieme, una seconda rete neurale, in grado di associare a dette caratteristiche fisiche di dette tracce audio condizionate un evento conversazionale di detto primo sottoinsieme, una terza rete neurale, in grado di estrarre una firma vocale dalla traccia audio condizionata di detto secondo interlocutore. Still according to the invention, said neural analysis module includes a first neural network, capable of associating an emotional event of said second subset with said physical characteristics of said conditioned audio tracks, a second neural network, capable of associating with said characteristics physical data of said conditioned audio tracks a conversational event of said first subset, a third neural network, capable of extracting a vocal signature from the conditioned audio track of said second interlocutor.

Preferibilmente secondo l?invenzione, detto sistema pu? comprendere un modulo di analisi conversazionale, in grado di ricevere in ingresso dette tracce audio condizionate, comprendente a sua volta un indicatore di sovra-volume, in grado di calcolare l?intensit? sonora delle due tracce audio condizionate, un indicatore di saturazione, in grado di rilevare i picchi delle due tracce audio condizionate, un indicatore di sovrapposizione vocale, in grado di rilevare le sovrapposizioni vocali tra detti primo interlocutore e secondo interlocutore, un indicatore di frequenza di sillabe, in grado di stimare il numero di sillabe nell?unit? di tempo in dette due tracce audio condizionate. Preferably according to the invention, said system can include a conversational analysis module, capable of receiving said conditioned audio tracks as input, comprising in turn an over-volume indicator, capable of calculating the intensity? sound of the two conditioned audio tracks, a saturation indicator, capable of detecting the peaks of the two conditioned audio tracks, a vocal overlap indicator, capable of detecting the vocal overlaps between said first interlocutor and second interlocutor, an indicator of frequency of syllables, able to estimate the number of syllables in the unit? of time in said two conditioned audio tracks.

Sempre secondo l?invenzione, detto sistema pu? comprendere un analizzatore spettrale in grado di effettuare una analisi in frequenza delle due tracce audio condizionate, mediante Trasformata di Fourier Discreta. Again according to the invention, said system can include a spectral analyzer capable of carrying out a frequency analysis of the two conditioned audio tracks, using Discrete Fourier Transform.

Ulteriormente secondo l?invenzione, detto sistema pu? comprendere un trascrittore vocale in grado di ricevere in ingresso dette due tracce audio condizionate e di trascrivere le parole pronunciate dal primo interlocutore e dal secondo interlocutore, durante la conversazione. Furthermore, according to the invention, said system can comprising a voice transcriber capable of receiving said two conditioned audio tracks as input and transcribing the words spoken by the first interlocutor and the second interlocutor during the conversation.

Ancora secondo l?invenzione, detto sistema pu? comprendere un modulo anonimizzatore, in grado di produrre una traccia audio in cui i dettagli personali del secondo interlocutore vengono rimossi, a partire dalla traccia audio condizionata di detto secondo interlocutore. Still according to the invention, said system can comprise an anonymizer module, capable of producing an audio track in which the personal details of the second interlocutor are removed, starting from the conditioned audio track of said second interlocutor.

Preferibilmente secondo l?invenzione, detto sistema pu? comprendere un analizzatore del tono, in grado di ricevere in ingresso i dati in uscita da detto modulo di indicatori analisi conversazionale e di stimare una probabilit? di conflittualit? di appartenenza di un segmento vocale ad un insieme di segmenti vocali caratterizzati da uno stato di sovreccitazione emotiva. Preferably according to the invention, said system can include a tone analyzer, capable of receiving as input the output data from said conversational analysis indicator module and estimating a probability? of conflict? of belonging of a vocal segment to a set of vocal segments characterized by a state of emotional overexcitation.

Sempre secondo l?invenzione, detto sistema pu? comprendere un post-processore in grado di ricevere i dati in uscita da detto analizzatore del tono e modulo di analisi neurale e di fornire su detta interfaccia grafica uno o pi? suggerimenti e/o uno o pi? segnali per detto primo interlocutore. Again according to the invention, said system can comprise a post-processor capable of receiving the output data from said tone analyzer and neural analysis module and of providing on said graphic interface one or more suggestions and/or one or more? signals for said first interlocutor.

Ulteriormente secondo l?invenzione, detto postprocessore ? in grado di modificare i parametri di funzionamento di detto dispositivo di comunicazione a seguito dell?elaborazione di detti segnali audio in ingresso. Furthermore, according to the invention, called postprocessor? capable of modifying the operating parameters of said communication device following the processing of said input audio signals.

Ancora secondo l?invenzione, detto sistema pu? comprendere un pre-processore (41) in grado di ricevere in ingresso detti segnali audio, filtrare e normalizzare detti segnali audio, fornire in uscita due tracce audio condizionate, ciascuna corrispondente ad uno di detti segnali audio in ingresso. Still according to the invention, said system can comprising a pre-processor (41) capable of receiving said audio signals as input, filtering and normalizing said audio signals, providing two conditioned audio tracks at the output, each corresponding to one of said input audio signals.

Forma ulteriore oggetto della presente invenzione un metodo di monitoraggio e assistenza automatica in tempo reale di una conversazione telefonica tra un primo interlocutore ed un secondo interlocutore comprendente le seguenti fasi: A further object of the present invention is a method of automatic real-time monitoring and assistance of a telephone conversation between a first interlocutor and a second interlocutor comprising the following phases:

a. ricevere un primo segnale vocale associato ad un segmento vocale di detto primo interlocutore durante la conversazione telefonica; to. receiving a first voice signal associated with a voice segment of said first interlocutor during the telephone conversation;

b. ricevere un secondo segnale vocale associato ad un segmento vocale di detto secondo interlocutore durante la medesima conversazione telefonica del primo interlocutore; b. receiving a second voice signal associated with a voice segment of said second interlocutor during the same telephone conversation as the first interlocutor;

c. pre-elaborare detti primo e secondo segnale audio in modo da ottenere per ciascuno una traccia audio condizionata corrispondente; c. pre-processing said first and second audio signals so as to obtain a corresponding conditioned audio track for each;

d. estrarre da ciascuna traccia audio condizionata delle caratteristiche fisiche; d. extract physical characteristics from each conditioned audio track;

e. associare a dette caratteristiche fisiche uno o pi? elementi di un insieme di eventi; And. associate with said physical characteristics one or more? elements of a set of events;

f. associare a detti uno o pi? elementi di detto insieme di eventi uno o pi? elementi di un insieme di suggerimenti e/o uno o pi? segnali; e f. associate one or more sayings? elements of said set of events one or more? elements of a set of suggestions and/or one or more? signals; And

g. visualizzare detti uno o pi? elementi di detto insieme di suggerimenti e/o uno o pi? segnali ad uso di detto primo interlocutore durante la conversazione. g. display one or more sayings? elements of said set of suggestions and/or one or more? signals for use by said first interlocutor during the conversation.

La presente invenzione verr? ora descritta a titolo illustrativo ma non limitativo, secondo le sue preferite forme di realizzazione, con particolare riferimento alle figure dei disegni allegati, in cui: Will this invention come? now described by way of illustration but not by way of limitation, according to its preferred embodiments, with particular reference to the figures of the attached drawings, in which:

la figura 1 mostra uno schema a blocchi del sistema di monitoraggio e assistenza in tempo reale, oggetto della presente invenzione; figure 1 shows a block diagram of the real-time monitoring and assistance system, the object of the present invention;

la figura 2 mostra uno schema funzionale del sistema di figura 1; e figure 2 shows a functional diagram of the system of figure 1; And

la figura 3 mostra un diagramma di flusso del metodo di funzionamento del sistema oggetto della presente invenzione. figure 3 shows a flow diagram of the operating method of the system object of the present invention.

Nelle varie figure le parti simili verranno indicate con gli stessi riferimenti numerici. In the various figures the similar parts will be indicated with the same numerical references.

Facendo riferimento alle figure allegate, il sistema S di monitoraggio e assistenza per conversazioni telefoniche in tempo reale, oggetto della presente invenzione ? un sistema in grado di funzionare come assistente virtuale nei confronti di un primo interlocutore o operatore O, che sta eseguendo una telefonata con un secondo interlocutore o destinatario D. A titolo di esempio, l?operatore O potrebbe essere un agente di recupero crediti per conto di un creditore e l?operatore O realizza una serie di contatti telefonici con il debitore D, il quale ? in debito di una quantit? di denaro nei confronti del creditore. In tale contesto, la presente invenzione fornisce all?operatore O assistenza e suggerimenti in tempo reale per una gestione accurata ed efficiente delle telefonate, rendendo il lavoro dell?operatore O pi? efficace e proficuo ai fini della riscossione del debito, migliorando la qualit? dell?interazione e riducendo nel contempo il rischio di reclamo da parte del debitore D. Referring to the attached figures, the monitoring and assistance system S for real-time telephone conversations, the object of the present invention? a system capable of functioning as a virtual assistant for a first interlocutor or operator O, who is making a phone call with a second interlocutor or recipient D. By way of example, the operator O could be a debt collection agent on behalf of of a creditor and the operator O makes a series of telephone contacts with the debtor D, who is? in debt of an amount? of money towards the creditor. In this context, the present invention provides the O operator with real-time assistance and suggestions for accurate and efficient management of telephone calls, making the O operator's job more convenient. effective and profitable for debt collection purposes, improving the quality? of the interaction and at the same time reducing the risk of a complaint by the debtor D.

Detto sistema S comprende dispositivi di comunicazione, mezzi di elaborazione dei segnali e mezzi di interfaccia per l?interazione tra l?operatore O ed il sistema S. Said system S includes communication devices, signal processing means and interface means for the interaction between the operator O and the system S.

In particolare, detto sistema S comprende una unit? logica di controllo U, a sua volta provvista di una unit? di memoria 1, di mezzi di elaborazione di segnali 4, di un dispositivo di comunicazione 2, come un telefono oppure una tecnologia VOIP ? Voice over IP ossia Voce tramite protocollo internet, al quale ? associato un mezzo di comunicazione comprendente cuffia e microfono, una interfaccia grafica 3 per l?interazione tra detto sistema S e l?operatore O e uno o pi? dispositivi indossabili 5 dagli operatori di feedback durante la conversazione telefonica, collegati operativamente con detta unit? logica di controllo U. In particular, said system S includes a unit? control logic U, in turn equipped with a unit? of memory 1, of signal processing means 4, of a communication device 2, such as a telephone or VOIP technology? Voice over IP i.e. Voice via internet protocol, to which? associated with a means of communication comprising headphones and microphone, a graphic interface 3 for the interaction between said system S and the operator O and one or more? wearable devices 5 by feedback operators during the telephone conversation, operationally connected with said unit? control logic U.

Detta unit? logica di controllo U ? in grado di gestire il funzionamento di detto sistema S. This unit? control logic U ? capable of managing the operation of said system S.

Detta unit? di memoria 1 ? in grado di conservare i dati anagrafici, come nome, cognome e data di nascita, relativi ai debitori, i quali sono in debito di somme da corrispondere. This unit? of memory 1 ? capable of storing personal data, such as name, surname and date of birth, relating to debtors, who are in debt for sums to be paid.

Detta unit? di memoria 1 ? in grado di contenere anche una pluralit? di pratiche P, dove per pratica si intende l?insieme delle informazioni relative ad una attivit? di recupero crediti per un debitore D in debito di una somma di denaro nei confronti di un creditore. This unit? of memory 1 ? capable of containing even a plurality? of practices P, where by practice we mean the set of information relating to an activity? debt collection for a debtor D who owes a sum of money to a creditor.

Detta unit? di memoria 1 ? in grado di conservare un registro R o database di riepilogo degli eventi rilevati durante la conversazione tra l?operatore O ed il debitore D, tra cui eventi conversazionali o verbali E1 ed eventi emotivi E2, che vengono aggiornati in modo da essere analizzabili nel tempo. This unit? of memory 1 ? capable of maintaining a register R or database summarizing the events detected during the conversation between the operator O and the debtor D, including conversational or verbal events E1 and emotional events E2, which are updated so as to be analyzable over time.

In particolare, il sistema S rileva in tempo reale la presenza di un insieme di eventi E, di diversa tipologia, significativi ai fini dell'andamento complessivo della conversazione. In particular, system S detects in real time the presence of a set of events E, of different types, significant for the overall progress of the conversation.

Detto insieme di eventi E comprende un sottoinsieme di eventi conversazionali E1 riguardanti le azioni espresse verbalmente degli interlocutori. Said set of events E includes a subset of conversational events E1 concerning the verbally expressed actions of the interlocutors.

A titolo esemplificativo, gli eventi conversazionali E1 comprendono: "il debitore D chiede di parlare con un superiore", "il debitore D chiede di essere richiamato" oppure "l?operatore O chiede conferma dell'avvenuto pagamento", "l?operatore O informa della registrazione della chiamata". By way of example, conversational events E1 include: "debtor D asks to speak to a superior", "debtor D asks to be called back" or "operator O asks for confirmation of payment", "operator O informs you that the call is being recorded".

Detto insieme di eventi E comprende un sottoinsieme di eventi emotivi E2 che riguardano specifiche situazioni legate all'interazione tra le due parti. Said set of events E includes a subset of emotional events E2 which concern specific situations linked to the interaction between the two parties.

A titolo esemplificativo, gli eventi emotivi E2 comprendono: " il debitore D usa un tono aggressivo", " il debitore D e l?operatore O si sovrappongono nel parlare". For example, E2 emotional events include: "debtor D uses an aggressive tone", "debtor D and operator O overlap in their speech".

In risposta al verificarsi di alcuni eventi E, il sistema S produce dei suggerimenti, compresi in un insieme di suggerimenti B, rivolti all'operatore O, eventualmente afferenti a dati estratti dalla pratica P. In response to the occurrence of some events E, the system S produces suggestions, included in a set of suggestions B, addressed to the operator O, possibly relating to data extracted from practice P.

A titolo esemplificativo, i suggerimenti B comprendono: "Parla pi? lentamente, non ti sovrapporre", <">Tranquillizza il debitore D<", ">Fornisci al debitore D i dettagli del pagamento come di seguito riportati". For example, B suggestions include: "Speak more slowly, don't overlap", <">Reassure debtor D<", ">Provide debtor D with payment details as follows".

Sia gli eventi E che i suggerimenti B vengono opportunamente mostrati in tempo reale su detta interfaccia grafica 3, per l'operatore O. Both the events E and the suggestions B are suitably shown in real time on said graphic interface 3, for the operator O.

In particolare, detti suggerimenti B possono essere visualizzati su detta interfaccia grafica 3 in differenti modalit? grafiche. In particular, said suggestions B can be displayed on said graphic interface 3 in different modes? graphics.

Ad esempio, detti suggerimenti B possono essere visualizzati come frasi o parole o simboli. For example, said B suggestions can be displayed as sentences or words or symbols.

Oppure, detti suggerimenti B possono essere visualizzati come una figura con sembianze umane in grado di interagire con l?operatore O per assisterlo durante la selezione di una determinata pratica P da selezionare. Or, said suggestions B can be displayed as a human-like figure capable of interacting with the operator O to assist him during the selection of a specific practice P to select.

Gli insiemi degli eventi E e dei suggerimenti B vengono memorizzati nell'unit? di memoria 1, insieme agli istanti temporali in cui sono stati rilevati e/o prodotti. Are the sets of E events and B suggestions stored in the drive? of memory 1, together with the time instants in which they were detected and/or produced.

Ogni riga di un registro R ? costituita da: l'istante temporale di riferimento, la durata temporale di riferimento, la categoria dell'evento E o del suggerimento B, ciascuno avente una apposita codifica, ed eventuali dati addizionali. Each row of a register R ? consisting of: the reference time instant, the reference time duration, the category of event E or suggestion B, each having a specific coding, and any additional data.

Detta unit? logica di controllo U comprende anche mezzi di elaborazione 4 di segnali audio, visivi e vocali che verr? descritto in dettaglio in seguito. This unit? control logic U also includes means of processing 4 of audio, visual and speech signals that will come? described in detail later.

Detti mezzi di elaborazione 4 comprendono un preprocessore 41, un modulo di analisi conversazionale 42, un analizzatore spettrale 43, un trascrittore vocale 44, un modulo anonimizzatore 45, un analizzatore del tono 46, un modulo di analisi neurale 47, ed un postprocessore 48. Said processing means 4 include a preprocessor 41, a conversational analysis module 42, a spectral analyzer 43, a speech transcriber 44, an anonymizer module 45, a tone analyzer 46, a neural analysis module 47, and a postprocessor 48.

In particolare, detto pre-processore 41 ? utilizzato per condizionare i segnali audio per rimuovere il rumore ed enfatizzare la componente vocale. In particular, said pre-processor 41 ? used to condition audio signals to remove noise and emphasize the vocal component.

Detto modulo di analisi conversazionale 42 comprende a sua volta un indicatore di sovra-volume 421, in grado di calcolare l?intensit? sonora dei due segnali audio condizionati, un indicatore di saturazione 422, in grado di rilevare i picchi dei due segnali audio condizionati, un indicatore di sovrapposizione vocale o crosstalking 423, in grado di rilevare le sovrapposizioni vocali tra operatore O e debitore D, ed un indicatore di frequenza di sillabe o articulation rate 424, in grado di stimare il numero di sillabe articolate nell?unit? di tempo. Said conversational analysis module 42 in turn includes an over-volume indicator 421, capable of calculating the intensity? sound of the two conditioned audio signals, a saturation indicator 422, capable of detecting the peaks of the two conditioned audio signals, a vocal overlap or crosstalking indicator 423, capable of detecting the vocal overlaps between operator O and debtor D, and a syllable frequency indicator or articulation rate 424, capable of estimating the number of articulated syllables in the unit? of time.

Detto analizzatore spettrale 43 ? in grado di effettuare una analisi in frequenza dei due segnali audio condizionati. Said spectral analyzer 43 ? capable of carrying out a frequency analysis of the two conditioned audio signals.

Detto trascrittore vocale 44 ? in grado di trascrivere le parole pronunciate dall?operatore O e dal debitore D. Said voice transcriber 44 ? able to transcribe the words spoken by the operator O and the debtor D.

Detto modulo anonimizzatore 45 ? in grado di anonimizzare il segnale audio del debitore D, ossia di rimuovere il segnale audio in corrispondenza di riferimenti verbali a dati riguardanti l?identit? del debitore D. Said anonymizer module 45 ? able to anonymize the audio signal of debtor D, i.e. to remove the audio signal in correspondence with verbal references to data concerning the identity? of the debtor D.

Detto analizzatore del tono 46, riceve in ingresso i dati in uscita da detto modulo di analisi conversazionale 42 ed ? in grado di analizzare l?andamento dell?interazione tra operatore O e debitore D. Said tone analyzer 46 receives as input the output data from said conversational analysis module 42 and is able to analyze the progress of the interaction between operator O and debtor D.

In particolare, detto analizzatore del tono 46 stima una probabilit? di conflittualit? P, ossia la probabilit? che un segmento vocale analizzato appartenga ad un insieme di segmenti vocali caratterizzati da uno stato di sovreccitazione emotiva. In particular, said tone analyzer 46 estimates a probability? of conflict? P, i.e. the probability? that an analyzed vocal segment belongs to a set of vocal segments characterized by a state of emotional overexcitation.

Detto modulo di analisi neurale 47 comprende a sua volta una prima rete neurale con la funzione di rilevatore emotivo - emotionality detector 471, in grado di riconoscere lo stato emotivo dell?operatore O e del debitore D, in grado quindi di rilevare gli eventi emotivi E2, una seconda rete neurale con la funzione di analizzatore semantico 472, in grado di rilevare gli eventi conversazionali E1 che si verificano durante lo scambio fra le due parti, ed una terza rete neurale di verifica dell?identit? 473, in grado di estrarre una firma vocale dal segnale audio del debitore D. Said neural analysis module 47 in turn includes a first neural network with the function of emotionality detector 471, capable of recognizing the emotional state of the operator O and the debtor D, and therefore capable of detecting the emotional events E2 , a second neural network with the semantic analyzer function 472, capable of detecting the E1 conversational events that occur during the exchange between the two parties, and a third neural network for identity verification 473, capable of extracting a vocal signature from the debtor's audio signal D.

Detto post-processore 48 ? in grado di ricevere i dati in uscita da detto analizzatore del tono 46 e detto modulo di analisi neurale 47 e fornire in uscita uno o pi? suggerimenti B per l?operatore O. Said post-processor 48 ? capable of receiving the output data from said tone analyzer 46 and said neural analysis module 47 and providing output one or more? B suggestions for the O operator.

Il funzionamento del sistema S di monitoraggio e assistenza automatica in tempo reale per operatori telefonici di call center, in particolare tra un operatore O ed un debitore D, oggetto della presente invenzione si svolge nel seguente modo. The operation of the real-time automatic monitoring and assistance system S for call center telephone operators, in particular between an operator O and a debtor D, the object of the present invention, takes place in the following way.

L?operatore O, mediante detta interfaccia grafica 3, seleziona una attivit? o una determinata pratica P, associata ad un determinato debitore D. The operator O, through said graphic interface 3, selects an activity? or a specific practice P, associated with a specific debtor D.

E? anche possibile che lo stesso sistema S fornisca all?operatore O indicazioni su una determinata pratica da selezionare, in base agli obiettivi aziendali e sulla base dell?andamento storico delle singole pratiche del debitore D e di altre pratiche di confronto, per determinarne la priorit?. AND? It is also possible that the same system S provides the operator O with indications on a specific practice to be selected, based on the company objectives and on the basis of the historical trend of the individual practices of the debtor D and other comparison practices, to determine the priority? .

Il sistema S preleva da detta unit? di memoria 1 tutte le informazioni necessarie associate alla pratica P selezionata ed avvia una telefonata al debitore D mediante detto dispositivo di comunicazione 2, ad esempio il sistema VoIP aziendale. Does the S system take from said unit? memory 1 all the necessary information associated with the selected practice P and initiates a phone call to the debtor D via said communication device 2, for example the company VoIP system.

Durante la composizione del numero telefonico, detto sistema S invia una richiesta all?operatore O, mediante detta interfaccia grafica 3, di leggere i dati anagrafici del debitore D, come il nome, il cognome e la data di nascita. While dialing the telephone number, said system S sends a request to operator O, via said graphic interface 3, to read the personal data of debtor D, such as name, surname and date of birth.

La registrazione della voce dell?operatore O cos? prodotta viene successivamente utilizzata per rimuovere automaticamente i dati personali del debitore D dalla traccia audio, realizzando dunque un processo di anonimizzazione della stessa per proteggere i dati personali del debitore D, consentendo di utilizzare la traccia audio registrata per scopi futuri, come verr? descritto in dettaglio in seguito. The recording of the operator's voice Or cos? produced is subsequently used to automatically remove debtor D's personal data from the audio track, thus carrying out a process of anonymization of the same to protect debtor D's personal data, allowing the recorded audio track to be used for future purposes, how will it be? described in detail later.

Quando il debitore D accetta la chiamata, detti mezzi di elaborazione 4 di segnali processano in tempo reale i segnali audio dell?operatore O e del debitore D durante la conversazione. When debtor D accepts the call, said signal processing means 4 process in real time the audio signals of operator O and debtor D during the conversation.

Inizialmente avviene il riconoscimento del debitore D. Initially, the debtor D is recognized.

Se in detta unit? di memoria 1 sono memorizzate firme vocali relative al debitore D, acquisite in una fase precedente, si esegue un confronto tra la firma estratta durante la conversazione telefonica e quelle memorizzate. If in said unit? of memory 1, voice signatures relating to debtor D are stored, acquired in a previous phase, a comparison is made between the signature extracted during the telephone conversation and those stored.

Alternativamente, si prevede che l?operatore O durante la prima telefonata della pratica P esegua un?intervista esaustiva, verificando l?identit? dell?interlocutore, e nel frattempo acquisisca una firma da utilizzare per le telefonate successive. Alternatively, it is expected that the operator O during the first phone call of the case P carries out an exhaustive interview, verifying the identity of the interlocutor, and in the meantime acquire a signature to use for subsequent telephone calls.

Se il debitore D che ha accettato la chiamata corrisponde al debitore della pratica P selezionata, allora su detta interfaccia grafica si accende una luce verde, altrimenti si accende una luce rossa. If the debtor D who accepted the call corresponds to the debtor of the selected case P, then a green light turns on on said graphic interface, otherwise a red light turns on.

Il segnale di avvenuto riconoscimento del debitore D pu? anche essere sonoro oppure visivo con una differente rappresentazione grafica, oppure pu? essere un segnale vibro-tattile trasmesso tramite detto dispositivo indossabile 5 all?operatore O. The signal of recognition of debtor D can? can also be audio or visual with a different graphic representation, or can it? be a vibro-tactile signal transmitted via said wearable device 5 to the operator O.

In particolare, detto preprocessore 41 ? in grado di rimuovere il silenzio ed il rumore dalla traccia audio, mediante un algoritmo di rilevazione di attivit?/inattivit? di un utente in una conversazione -Voice Activity Detection, basato su un modello statistico della distribuzione dell?energia del segnale audio. In particular, said preprocessor 41 ? capable of removing silence and noise from the audio track, using an activity/inactivity detection algorithm? of a user in a conversation -Voice Activity Detection, based on a statistical model of the energy distribution of the audio signal.

Detto preprocessore 41 fornisce in uscita due tracce o segnali audio condizionate, ossia filtrate e normalizzate, una per l?operatore O ed una per il debitore D. Said preprocessor 41 provides two conditioned, i.e. filtered and normalized, audio tracks or signals as output, one for the operator O and one for the debtor D.

Detti due segnali audio filtrati e normalizzati, vengono inviati in ingresso a detto modulo di analisi conversazionale 42. Said two filtered and normalized audio signals are sent as input to said conversational analysis module 42.

In particolare, detto indicatore di sovra-volume 421, a partire dai due segnali audio in uscita da detto pre-processore 41, calcola in tempo reale la media dell?intensit? sonora, escludendo ad ogni aggiornamento i potenziali valori anomali - outlier e valuta con criterio a soglia il rapporto tra l?intensit? misurata nel blocco corrente e la media storica delle intensit? allo scopo di rilevare variazioni improvvise del volume del parlato. In particular, said over-volume indicator 421, starting from the two audio signals output from said pre-processor 41, calculates in real time the average of the intensity? sound, excluding potential anomalous values - outliers at each update and evaluating the relationship between the intensity? measured in the current block and the historical average of the intensities? in order to detect sudden changes in speech volume.

Detto indicatore di saturazione 422, a partire dai due segnali audio condizionati in uscita da detto preprocessore 41, per ciascun segnale audio, confronta con criterio a soglia il picco dell?intensit? in volume del segnale audio rispetto al fondo scala e ai picchi ricavati dalle conversazioni telefoniche precedenti svolte dallo stesso operatore O. Said saturation indicator 422, starting from the two conditioned audio signals output by said preprocessor 41, for each audio signal, compares the peak intensity using a threshold criterion. in volume of the audio signal compared to the full scale and peaks obtained from previous telephone conversations carried out by the same operator O.

Detto indicatore di crosstalking 423 indica la presenza di sovrapposizioni vocali frequenti tra l?operatore O e il debitore D. Said crosstalking indicator 423 indicates the presence of frequent vocal overlaps between operator O and debtor D.

A partire dai due segnali audio condizionati in uscita da detto pre-processore 41, calcola il prodotto delle intensit? sonore nei due segnali audio e ne fa una media mobile allo scopo di limitare l?impatto di occorrenze isolate. Starting from the two conditioned audio signals output from said pre-processor 41, it calculates the product of the intensities? sound in the two audio signals and makes it a moving average in order to limit the impact of isolated occurrences.

L?indicatore di articulation rate 424, a partire dai due segnali audio condizionati in uscita da detto pre-processore 41, stima il tasso di sillabe articolate nell?unit? di tempo, allo scopo di valutare la velocit? di parlato dell?operatore O. The articulation rate indicator 424, starting from the two conditioned audio signals output from said pre-processor 41, estimates the rate of articulated syllables in the unit? of time, in order to evaluate the speed? of speech of the operator O.

La stima ? effettuata tenendo conto del fatto che generalmente una sillaba ? associata ad uno o pi? picchi di intensit? sonora, preceduta da un livello di intensit? significativamente pi? basso. The estimate ? carried out taking into account the fact that generally a syllable ? associated with one or more? peaks of intensity? sound, preceded by an intensity level? significantly more? Bass.

La stima tiene conto del profilo di intensit? sonora e del rilevamento delle porzioni parlate - voiced tramite l?algoritmo noto di Voice Activity Detection sopra descritto, allo scopo di escludere picchi di intensit? non vocalizzati. Does the estimate take into account the intensity profile? sound and the detection of spoken portions - voiced through the well-known Voice Activity Detection algorithm described above, in order to exclude intensity peaks? not vocalized.

Contestualmente, detto analizzatore spettrale 43, a partire dai due segnali audio condizionati in uscita da detto pre-processore 41, esegue l?analisi in frequenza dei due segnali audio, tramite Trasformata di Fourier Discreta - DFT. At the same time, said spectral analyzer 43, starting from the two conditioned audio signals output from said pre-processor 41, performs the frequency analysis of the two audio signals, via Discrete Fourier Transform - DFT.

In uscita da detto analizzatore spettrale 43 sono disponibili due flussi di coefficienti Mel-Frequency Cepstral Coefficients - MFCC, 40 coefficienti ogni 10 millisecondi per ognuno dei due segnali audio dell?operatore O del debitore D. At the output of said spectral analyzer 43, two streams of Mel-Frequency Cepstral Coefficients - MFCC coefficients are available, 40 coefficients every 10 milliseconds for each of the two audio signals of the operator O of the debtor D.

Pi? in dettaglio, ciascun segnale audio viene suddiviso in finestre di 25 millisecondi, parzialmente sovrapposte, con distanza tra i centri delle finestre pari a 10 millisecondi, effettuando l?analisi spettrale con la trasformata DFT, applicando una serie di filtri spaziati secondo il criterio di Mel nel range di frequenze contenute nel segnale audio, misurando l?energia raccolta da tali filtri, calcolando la trasformata coseno discreta - DCT sui livelli di energia, ottenendo infine 40 coefficienti MFCC. More? in detail, each audio signal is divided into windows of 25 milliseconds, partially overlapping, with a distance between the centers of the windows equal to 10 milliseconds, carrying out the spectral analysis with the DFT transform, applying a series of filters spaced according to the Mel criterion in the range of frequencies contained in the audio signal, measuring the energy collected by these filters, calculating the discrete cosine transform - DCT on the energy levels, finally obtaining 40 MFCC coefficients.

Detto trascrittore vocale 44, a partire dai due segnali audio condizionati in uscita da detto preprocessore 41, esegue la trascrizione delle parole pronunciate dall?operatore O e dal debitore D. Said voice transcriber 44, starting from the two conditioned audio signals output by said preprocessor 41, carries out the transcription of the words pronounced by the operator O and the debtor D.

In uscita vengono generati due flussi testuali, che vengono anche memorizzati in detta unit? di memoria 1. Two text flows are generated at the output, which are also stored in said unit? of memory 1.

Detto modulo anonimizzatore 45, a partire da detti due segnali audio condizionati in uscita da detto preprocessore 41, produce una traccia audio in cui i dettagli personali del debitore D sono automaticamente rimossi. Said anonymizer module 45, starting from said two conditioned audio signals output by said preprocessor 41, produces an audio track in which the personal details of debtor D are automatically removed.

La funzionalit? ? realizzata per mezzo di un algoritmo noto basato su distorsione temporale dinamica (Dynamic Time Warping - DTW), che identifica le porzioni audio che contengono la pronuncia dei dettagli personali, ossia le porzioni audio che, subendo un?operazione di distorsione temporale opportuna, hanno un alto grado di similarit? con i segmenti di riferimento pronunciati durante la composizione del numero dall?operatore O e le sostituisce con una porzione di silenzio. The functionality? ? created by means of a known algorithm based on Dynamic Time Warping (DTW), which identifies the audio portions that contain the pronunciation of personal details, i.e. the audio portions which, undergoing an appropriate time distortion operation, have a high degree of similarity? with the reference segments pronounced during the dialing of the number by the operator O and replaces them with a portion of silence.

Detto modulo anonimizzatore 45 trasmette inoltre il flusso audio anonimizzato a detta unit? di memoria 1. Said anonymizer module 45 also transmits the anonymized audio stream to said unit of memory 1.

Detto modulo di analisi neurale 47 esegue le seguenti operazioni. Said neural analysis module 47 performs the following operations.

Detta prima rete neurale 471 o rilevatore delle emozioni - emotionality detector, ? in grado di rilevare la sovraeccitazione emotiva o ?emozionale? di un soggetto che parla, restituendo una probabilit? emotiva M, impiegata per classificare gli eventi emotivi E2. Called the first neural network 471 or emotionality detector, ? capable of detecting emotional or ?emotional? of a subject who speaks, returning a probability? emotional M, used to classify emotional events E2.

Detta prima rete neurale 471 riceve in ingresso i dati in uscita da detto analizzatore spettrale 43. Said first neural network 471 receives as input the output data from said spectral analyzer 43.

Ciascun segnale audio ? raccolto in pezzi o chunk di 1 secondo ed ? rappresentato sotto forma di spettrogramma, ossia un modello tridimensionale dove su una coordinata c?? il tempo e sull?altra coordinata la frequenza; l?intensit? in ogni posizione tempo-frequenza ? proporzionale al livello di energia presente a quella frequenza in una breve finestra acustica centrata intorno a quell?istante temporale. Each audio signal ? collected in pieces or chunks of 1 second and ? represented in the form of a spectrogram, i.e. a three-dimensional model where on a coordinate c?? the time and on the other coordinate the frequency; the intensity? in every time-frequency position ? proportional to the energy level present at that frequency in a short acoustic window centered around that moment in time.

La rete neurale 471, in questa forma di realizzazione che si descrive, ? costituita da tre strati convoluzionali, in cui ogni neurone ? connesso solamente ad un piccolo numero di neuroni dello strato precedente e i pesi sono condivisi a blocchi da tutti i neuroni dello strato, due strati fully-connected, in cui i neuroni sono connessi a ciascun altro neurone dello strato precedente, con pesi indipendenti e attivazione sigmoidale sul segnale di uscita che ? quindi un valore compreso tra 0 e 1, correlato a detta probabilit? emotiva M che l?audio elaborato contenga una marcata intensit? emotiva. The 471 neural network, in this embodiment being described, is consisting of three convolutional layers, in which each neuron is connected only to a small number of neurons of the previous layer and the weights are shared in blocks by all the neurons of the layer, two fully-connected layers, in which the neurons are connected to each other neuron of the previous layer, with independent weights and sigmoidal activation on the exit signal that ? therefore a value between 0 and 1, correlated to said probability? emotional M that the processed audio contains a marked intensity? emotional.

Senza uscire dall?ambito di protezione della presente invenzione, ? possibile che detta rete neurale 471 sia implementata diversamente da quanto descritto in precedenza. Without departing from the scope of protection of the present invention, it is It is possible that said neural network 471 is implemented differently than previously described.

Detto analizzatore semantico 472, a partire dai flussi testuali generati da detto trascrittore vocale 44, rileva gli eventi conversazionali E1 che si verificano durante la conversazione. Said semantic analyzer 472, starting from the textual flows generated by said voice transcriber 44, detects the conversational events E1 that occur during the conversation.

In particolare, viene classificato ogni segmento di conversazione, associato all?operatore O e/o al debitore D, ed eventualmente associato ad uno dei possibili eventi conversazionali E1. In particular, each conversation segment is classified, associated with the operator O and/or the debtor D, and possibly associated with one of the possible conversational events E1.

A titolo esemplificativo, alcuni eventi conversazionali E1 che riguardano il debitore D sono: ?il debitore D chiede di essere richiamato? e ?il debitore D spiega le proprie difficolt? economiche?; alcuni eventi conversazionali E1 che riguardano l?operatore O sono: ?l?operatore O presenta modalit? di pagamento? e ?l?operatore O informa della registrazione della chiamata<?.>By way of example, some E1 conversational events involving debtor D are: ?debtor D asks to be called back? and ?debtor D explains his difficulties? economic?; some E1 conversational events that concern the operator O are: ?the operator O presents modality? of payment? and ?the operator O informs of the recording of the call<?.>

La classificazione viene realizzata mediante un detto analizzatore semantico 472 che prende come input i flussi testuali e utilizza una rete neurale come Natural Language Processor, oltre che un algoritmo noto basato su regole che fanno riferimento alla presenza di specifiche espressioni verbali univoche, come ad esempio ?mi pu? richiamare??. The classification is carried out using a semantic analyzer 472 which takes the textual flows as input and uses a neural network as a Natural Language Processor, as well as a known algorithm based on rules which refer to the presence of specific unique verbal expressions, such as ? can you? call back??.

Detto analizzatore semantico 472 ha come output l?evento conversazionale E1 rilevato nel segmento, oppure un segnale di ?no event? nel caso che non sia rilevato alcun segnale di interesse. Said semantic analyzer 472 has as output the conversational event E1 detected in the segment, or a ?no event? signal? in case no signal of interest is detected.

L?integrazione dei due sistemi viene realizzata mediante l?assegnazione ad una categoria di eventi conversazionali E1 nel caso in cui l?algoritmo basato su regole implementato da detto analizzatore semantico 472 trova il soddisfacimento di una o pi? regole nella trascrizione effettuata oppure detto analizzatore semantico 472 restituisce una predizione di appartenenza alla categoria con un alto livello di confidenza. The integration of the two systems is achieved through the assignment to a category of conversational events E1 in the case in which the rule-based algorithm implemented by said semantic analyzer 472 finds the satisfaction of one or more? rules in the transcription carried out or said semantic analyzer 472 returns a prediction of belonging to the category with a high level of confidence.

In tutti gli altri casi viene restituito il segnale di ?no event?. In all other cases the ?no event? signal is returned.

Detta terza rete neurale 473 esegue una verifica dell?identit?. Said third neural network 473 performs identity verification.

In particolare, estrae una firma vocale dal segnale audio del debitore D. In particular, it extracts a voice signature from debtor D's audio signal.

La firma viene memorizzata in detta unit? di memoria 1 e viene utilizzata per verificare l?identit? del debitore D se sono gi? presenti firme acquisite precedentemente. Is the signature stored in that unit? of memory 1 and is used to verify the identity? of the debtor D if they are already? previously acquired signatures present.

Nello specifico, il dato in uscita da detto analizzatore spettrale 43, suddiviso in pezzi o chunk di 2 secondi, corrispondenti a sequenze di coefficienti MFCC di lunghezza 200, viene processato tramite detta terza rete neurale 473 che estrae una firma rappresentata da un vettore numerico di 256 componenti. Specifically, the output data from said spectral analyzer 43, divided into pieces or chunks of 2 seconds, corresponding to sequences of MFCC coefficients of length 200, is processed via said third neural network 473 which extracts a signature represented by a numerical vector of 256 components.

Nel dettaglio, detta terza rete neurale 473 ? costituita da tre strati di celle di memoria Long Short Term Memory ? LSTM e uno strato lineare applicato allo stato nascosto finale. In detail, the third neural network 473? made up of three layers of Long Short Term Memory cells? LSTM is a linear layer applied to the final hidden state.

Sul dato in uscita viene applicata la trasformazione di rettificazione ReLU e il vettore risultante viene normalizzato per avere norma euclidea pari a 1. The ReLU rectification transformation is applied to the output data and the resulting vector is normalized to have a Euclidean norm equal to 1.

La similarit? tra due firme vocali ? definita nei termini della similarit? coseno tra i vettori, che essendo stati essi normalizzati, si riduce al semplice calcolo del prodotto scalare. The similarity? between two vocal signatures? defined in terms of similarity? cosine between the vectors, which having been normalized, is reduced to the simple calculation of the scalar product.

L?output di detta terza rete neurale 473 ? la firma calcolata e un punteggio di similarit? compreso tra 0 e 1 nel caso in cui siano gi? presenti conversazioni nell?unit? di memoria 1. The output of said third neural network 473 is the calculated signature and a similarity score? between 0 and 1 if they are already? Are there conversations in the unit? of memory 1.

Detto analizzatore del tono 46 effettua un?analisi dell?andamento della conversazione. Said tone analyzer 46 carries out an analysis of the progress of the conversation.

Nello specifico, vengono rilevate situazioni di conflittualit? verbale tra l?operatore O e il debitore D. Specifically, are conflict situations detected? verbal between the operator O and the debtor D.

Detto analizzatore del tono 46 riceve in ingresso i dati in uscita da detto modulo di analisi conversazionale 42 e i dati in uscita da detta prima rete neurale 471 e fornisce in uscita uno o pi? suggerimenti B per l?operatore O, volti ad ottimizzare il tono della conversazione per massimizzare la possibilit? di recupero del credito e migliorare la qualit? dell?interazione. Said tone analyzer 46 receives as input the output data from said conversational analysis module 42 and the output data from said first neural network 471 and provides one or more outputs. suggestions B for the operator O, aimed at optimizing the tone of the conversation to maximize the possibility credit recovery and improve the quality? of interaction.

Detti suggerimenti B vengono mostrati in tempo reale su detta interfaccia grafica 3 e sono frasi brevi e chiare: ?Parla pi? piano?, ?Non sovrapporti?, ?Lascia parlare?, ?Calma il debitore? e simili. Said suggestions B are shown in real time on said graphic interface 3 and are short and clear sentences: ?Speak more? slowly?, ?Don't overlap?, ?Let them talk?, ?Calm the debtor? and similar.

Detto post-processore 48, riceve in ingresso i dati in uscita da detto analizzatore del tono 46 e da detto modulo di analisi neurale 47 e filtra e combina detti dati. Said post-processor 48 receives as input the output data from said tone analyzer 46 and from said neural analysis module 47 and filters and combines said data.

In particolare, detto post-processore 48, riceve l'output di detto analizzatore del tono 46 e di detta prima rete neurale 471 relativamente all'analisi del tono e dell'emotivit? del debitore D e dell?operatore O, l'output di detto analizzatore semantico 472, l'output di detta terza rete neurale 473 e aggrega tramite regole basate su soglie, su detta probabilit? emotiva M, su detta probabilit? di conflittualit? P e sullo storico memorizzato in detti registri R il risultato delle elaborazioni in messaggi sintetici in linguaggio naturale per l'operatore O. In particular, said post-processor 48 receives the output of said tone analyzer 46 and of said first neural network 471 relating to the analysis of tone and emotion. of the debtor D and of the operator O, the output of said semantic analyzer 472, the output of said third neural network 473 and aggregates via rules based on thresholds, on said probability? emotional M, on said probability? of conflict? P and on the history stored in said registers R the result of the processing in synthetic messages in natural language for the operator O.

Detti messaggi vengono mostrati su detta interfaccia grafica 3. Said messages are shown on said graphic interface 3.

Detto post-processore 48 consente all?operatore O di condurre la conversazione telefonica mantenendo la concentrazione sull?interazione con il debitore D, riducendo l?impegno richiesto per interpretare i suggerimenti B provenienti dal sistema S descritto. Said post-processor 48 allows the operator O to conduct the telephone conversation while maintaining concentration on the interaction with the debtor D, reducing the effort required to interpret the suggestions B coming from the system S described.

La modalit? con cui i risultati delle elaborazioni vengono filtrate e riassunte da detto post-processore 48 sono tarate utilizzando come riferimento un numero rilevante di conversazioni telefoniche nonch? il feedback raccolto da altri operatori. The mode? with which the results of the processing are filtered and summarized by said post-processor 48 are calibrated using as a reference a relevant number of telephone conversations as well as? the feedback collected from other operators.

Detto post-processore 48 ? in grado di emettere segnali di allarme o di avviso visivi e/o sonori, ad esempio nel dispositivo di comunicazione 2 impiegato dall?operatore O, come le cuffie, ed ? in grado di controllare il funzionamento del sistema S ad esempio alterando i volumi dei due segnali audio per indurre l?operatore O a tenere conto dei suggerimenti B forniti. Said post-processor 48 ? capable of emitting visual and/or audible alarm or warning signals, for example in the communication device 2 used by the operator O, such as headphones, and? able to control the operation of the system S for example by altering the volumes of the two audio signals to induce the operator O to take into account the suggestions B provided.

Dette prima 471, seconda 472 e terza 473 rete neurale sono addestrate in due fasi. Said first 471, second 472 and third 473 neural network are trained in two phases.

In una fase di pre-addestramento o pretraining, vengono impiegati dataset di dominio pubblico. In a pre-training or pretraining phase, public domain datasets are employed.

In una fase di addestramento o training, i dati impiegati provengono dagli archivi aziendali e sono stati precedentemente etichettati al fine di migliorare l?accuratezza ottenuta sulla tipologia di dati effettivamente utilizzati dal sistema S. In a training phase, the data used comes from the company archives and has previously been labeled in order to improve the accuracy obtained on the type of data actually used by the S system.

In una successiva fase di raffinamento o tuning, i dati impiegati provengono direttamente dall?unit? di memoria 1 e sono stati precedentemente revisionati, al fine di migliorare la precisione del sistema S. In a subsequent refinement or tuning phase, the data used comes directly from the unit? of memory 1 and have been previously revised, in order to improve the accuracy of the S system.

L?addestramento avviene utilizzando ottimizzatori basati sul metodo della discesa del gradiente, che forniscono dei valori per ognuno dei parametri contenuti nelle reti neurali, tali valori sono ricercati minimizzando una funzione di rischio, ossia una funzione che misura la distanza dalla performance ideale del modello rispetto ai dati di allenamento. The training takes place using optimizers based on the gradient descent method, which provide values for each of the parameters contained in the neural networks, these values are sought by minimizing a risk function, i.e. a function that measures the distance from the ideal performance of the model compared to to training data.

In particolare, viene impiegata l?entropia incrociata calcolata tra l?output della rete e le etichette desiderate, nonch? una funzione specializzata per detta prima rete neurale 471, che penalizza direttamente la produzione di firme vocali diverse per segmenti provenienti dallo stesso parlante. In particular, the cross entropy calculated between the output of the network and the desired labels is used, as well as? a specialized function for said first neural network 471, which directly penalizes the production of different vocal signatures for segments coming from the same speaker.

Durante la conversazione, l?operatore O pu? svolgere altre attivit?, ma detta interfaccia grafica 3 viene automaticamente posta in primo piano qualora la severit? degli eventi rilevati superi una determinata soglia. During the conversation, the operator O can carry out other activities, but said graphic interface 3 is automatically placed in the foreground if the severity? of events detected exceeds a certain threshold.

Detta unit? logica di controllo U pu? inviare segnali di controllo a detti dispositivi indossabili 5 di feedback utilizzati dall?operatore O, a seguito delle elaborazioni dei segnali audio. This unit? control logic U can? send control signals to said wearable feedback devices 5 used by the operator O, following the processing of the audio signals.

E? anche possibile che detta unit? logica di controllo U controlli l?invio di informazioni e documenti tramite e-mail o di documenti al debitore D, a seguito delle elaborazioni dei segnali audio. AND? is it also possible that said unit? control logic U controls the sending of information and documents via e-mail or documents to the debtor D, following the processing of the audio signals.

Al termine della telefonata detto operatore riceve una valutazione complessiva della conversazione, riceve alcuni suggerimenti, e/o messaggi di incoraggiamento, e detto dispositivo di comunicazione 2 viene inibito temporaneamente nel caso in cui venga rilevata aggressivit? in conversazioni consecutive. At the end of the phone call, said operator receives an overall evaluation of the conversation, receives some suggestions and/or encouraging messages, and said communication device 2 is temporarily inhibited in the event that aggression is detected. in consecutive conversations.

In detta unit? di memoria 1 viene archiviato un registro R sintetico degli avvenimenti rilevati all?interno della conversazione, come eventi conversazionali E1 ed eventi emotivi E2, e viene aggiornata la pratica per revisione e correzione da parte dell?operatore O. In said unit? of memory 1 a synthetic register R of the events detected within the conversation is stored, such as conversational events E1 and emotional events E2, and the file is updated for review and correction by the operator O.

Detti registri sono disponibili per consultazioni successive. These registers are available for subsequent consultation.

Come ? evidente dalla descrizione precedente, detto sistema S consente ad un operatore O di avere un riscontro sulla qualit? della conversazione telefonica con un debitore D, in modo da rendere pi? efficace il suo comportamento durante la conversazione. As ? evident from the previous description, said system S allows an operator O to have feedback on the quality? of the telephone conversation with a debtor D, in order to make more? his behavior during the conversation was effective.

La presente invenzione ? stata descritta a titolo illustrativo, ma non limitativo, secondo le sue forme preferite di realizzazione, ma ? da intendersi che variazioni e/o modifiche potranno essere apportate dagli esperti del ramo senza per questo uscire dal relativo ambito di protezione, come definito dalle rivendicazioni allegate. This invention? has been described by way of illustration, but not by way of limitation, according to its preferred embodiments, but? it is to be understood that variations and/or modifications may be made by experts in the field without thereby departing from the relevant scope of protection, as defined by the attached claims.

Claims

CLAIMS Real-time automatic monitoring and assistance system for call center telephone operators and its method of operation.

1. System (S) for monitoring and automatically assisting in real time a telephone conversation between a first interlocutor (O) and a second interlocutor (D) comprising at least one communication device (2) capable of emitting a first signal audio associated with vocal segments of said first interlocutor (O) and to receive a second audio signal associated with vocal segments of said second interlocutor (D), to allow said first interlocutor (O) to carry out said telephone conversation with said second interlocutor ( D);

a unit? control logic (U) comprising in turn

a unit? memory (1) in which the personal data of said second interlocutor (D) and database (R) associated with previous conversations are stored; And

processing means (4) of said audio signals capable of receiving said first and second audio signals from said at least one communication device (2), capable of receiving the personal data and database data (R) stored in said unit ? of memory (1), said system (S) being characterized by the fact that said processing means (4) are capable of processing said first and second audio signals in conditioned audio tracks and extracting physical characteristics for each conditioned audio track;

associate with said physical characteristics one or more? elements of a set of events (E);

associate one or more sayings? elements of said set of events (E) one or more? elements of a set of suggestions (B) and/or one or more? signals; And

display on said graphic interface (3) said one or more? elements of said set of suggestions (B) and/or one or more? signals for use by said first interlocutor (O) during the conversation.

2. System (S) according to the previous claim, characterized by the fact of comprising devices wearable (5) by said first interlocutor (O) operationally connected with said unit? control logic (U) and capable of receiving said one or more? signals.

3. System (S) according to any one of the previous claims, characterized in that said set of events (E) includes a first subset (E1) of conversational events and a second subset (E2) of emotional events.

4. System (S) according to any of the previous claims, characterized in that said one or more? signals are acoustic and/or visual and/or tactile signals.

5. System (S) according to any of the previous claims, characterized in that one or more? values of said set of events (E) and one or more? elements of a set of suggestions (B) are stored in said database (R) of said unit? of memory (1).

6. System (S) according to any one of the previous claims, characterized in that said signal processing means (4) comprise a neural analysis module (47) trained to be able to extract said physical characteristics from said conditioned audio tracks and associate them with one or more sayings? elements of said set of events (E), by means of thresholds, of a probability? emotional (M), of a probability? of conflict? (P) and the history stored in said database (R).

7. System (S) according to the previous claim, when dependent on claim 3, characterized in that said neural analysis module (47) comprises

a first neural network (471), capable of associating said physical characteristics of said conditioned audio tracks with an emotional event of said second subset (E2),

a second neural network (472), capable of associating said physical characteristics of said conditioned audio tracks with a conversational event of said first subset (E1),

a third neural network (473), capable of extracting a vocal signature from the conditioned audio track of said second interlocutor (D).

8. System (S) according to any of the previous claims, characterized in that it comprises a conversational analysis module (42), capable of receiving said conditioned audio tracks as input, in turn comprising

an over-volume indicator (421), capable of calculating the intensity? sound of the two conditioned audio tracks,

a saturation indicator (422), capable of detecting the peaks of the two conditioned audio tracks, a vocal overlap indicator (423), capable of detecting vocal overlaps between said first interlocutor (O) and second interlocutor (D), a syllable frequency indicator (424), capable of estimating the number of syllables in the unit? of time in said two conditioned audio tracks.

9. System (S) according to any one of the previous claims, characterized in that it comprises a spectral analyzer (43) capable of carrying out a frequency analysis of the two conditioned audio tracks, using Discrete Fourier Transform.

10. System (S) according to any of the previous claims, characterized in that it comprises a voice transcriber (44) capable of receiving said two conditioned audio tracks as input and of transcribing the words pronounced by the first interlocutor (O) and the second interlocutor (D), during the conversation.

11. System (S) according to any of the previous claims, characterized in that it comprises an anonymizer module (45), capable of producing an audio track in which the personal details of the second interlocutor (D) are removed, starting from the track audio conditioning of said second interlocutor (D).

12. System (S) according to any one of claims 4-8, characterized in that it comprises a tone analyzer (46), capable of receiving as input the output data from said conversational analysis indicator module (42) and of estimate a probability? of conflict? (P) belonging of a vocal segment to a set of vocal segments characterized by a state of emotional overexcitation.

13. System (S) according to the previous claim, characterized in that it comprises a post-processor (48) capable of receiving the output data from said tone analyzer (46) and neural analysis module (47) and of providing on said graphic interface (3) one or more? suggestions (B) and/or one or more? signals for said first interlocutor (O).

14. System (S) according to the previous claim, characterized in that said postprocessor (48) is capable of modifying the operating parameters of said communication device (2) following the processing of said input audio signals.

15. System (S) according to any of the previous claims, characterized in that it comprises a pre-processor (41) capable of receiving said audio signals as input; filtering and normalizing said audio signals; provide two conditioned audio tracks at the output, each corresponding to one of said input audio signals.

16. Method of monitoring and automatic real-time assistance of a telephone conversation between a first interlocutor (O) and a second interlocutor (D) comprising the following phases:

to. receiving a first voice signal associated with a voice segment of said first interlocutor (O) during the telephone conversation;

b. receiving a second voice signal associated with a voice segment of said second interlocutor (D) during the same telephone conversation of the first interlocutor (O);

c. pre-processing said first and second audio signals so as to obtain a corresponding conditioned audio track for each;

d. extract physical characteristics from each conditioned audio track;

And. associate with said physical characteristics one or more? elements of a set of events (E);

f. associate one or more sayings? elements of said set of events (E) one or more? elements of a set of suggestions (B) and/or one or more? signals; And

g. display one or more sayings? elements of said set of suggestions (B) and/or one or more? signals for use by said first interlocutor (O) during the conversation.