EA041269B1 - METHOD AND DEVICE FOR AUDIO SIGNAL DIARIZATION - Google Patents

METHOD AND DEVICE FOR AUDIO SIGNAL DIARIZATION Download PDF

Info

Publication number
EA041269B1
EA041269B1 EA202092875 EA041269B1 EA 041269 B1 EA041269 B1 EA 041269B1 EA 202092875 EA202092875 EA 202092875 EA 041269 B1 EA041269 B1 EA 041269B1
Authority
EA
Eurasian Patent Office
Prior art keywords
audio signal
signal
data
microphones
value
Prior art date
Application number
EA202092875
Other languages
Russian (ru)
Inventor
Юрий Николаевич Литвак
Алексей Алексеевич Василенко
Станислав Михайлович Песня
Сергей Владимирович Малых
Original Assignee
Публичное Акционерное Общество "Сбербанк России" (Пао Сбербанк)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Публичное Акционерное Общество "Сбербанк России" (Пао Сбербанк) filed Critical Публичное Акционерное Общество "Сбербанк России" (Пао Сбербанк)
Publication of EA041269B1 publication Critical patent/EA041269B1/en

Links

Description

Область техникиTechnical field

Представленное техническое решение относится в общем к измерительной технике, в частности к способу и устройству диаризации аудиосигнала, и предназначено для разделения поступающего аудиопотока на однородные сегменты в соответствии с принадлежностью аудиопотока тому или иному говорящему (диктору).The presented technical solution relates in general to measuring technology, in particular to a method and device for diarization of an audio signal, and is designed to divide the incoming audio stream into homogeneous segments in accordance with the belonging of the audio stream to one or another speaker (speaker).

Уровень техникиState of the art

С научной точки зрения представленное техническое решение относится к категории решений, использующих для диаризации пространственные признаки источника сигнала. Устройства, использующие для выделения требуемого сигнала его пространственные признаки, могут быть как стационарными (микрофонами, зафиксированными в определенных точках помещения), так и портативными (средствами акустической разведки). Общей особенностью устройств такого типа является большое количество микрофонов (до 40 и более) и, соответственно, необходимость обеспечения широкой пропускной способности канала передачи данных для передачи уловленного сигнала. С точки зрения вычислительной сложности реализация алгоритма формирования луча (направления, коэффициент усилия звука, исходящего из которого, будет максимальным) является сложной задачей, требующей поиск решения в режиме реального времени. Однако с ростом вычислительной мощности портативных устройств и увеличением пропускной способности каналов передачи данных реализация данной функциональности стала возможной и доступной широкому кругу лиц, в связи с чем упрощенные системы подобного типа находят применение в устройствах с голосовым управлением с заранее не предопределенным расположением оператора.From a scientific point of view, the presented technical solution belongs to the category of solutions that use the spatial features of the signal source for diarization. Devices that use its spatial features to isolate the required signal can be both stationary (microphones fixed at certain points in the room) and portable (acoustic reconnaissance tools). A common feature of devices of this type is a large number of microphones (up to 40 or more) and, accordingly, the need to provide a wide bandwidth of the data transmission channel for transmitting the captured signal. From the point of view of computational complexity, the implementation of the beamforming algorithm (direction, the force coefficient of the sound coming from which will be maximum) is a complex task that requires a search for a solution in real time. However, with the growth of the computing power of portable devices and the increase in the bandwidth of data transmission channels, the implementation of this functionality has become possible and accessible to a wide range of people, and therefore simplified systems of this type are used in devices with voice control with a predetermined location of the operator.

Известными примерами сенсоров такого типа для бытового использования являются ФМР (фазированная микрофонная решетка) Microsoft Kinnect, а также ФМР, используемые в составе т.н. умных колонок, например Apple Home Pod, Amazon Echo, Яндекс Станция и др. Особенностью ФМР, используемых в изделиях такого типа, является расположение микрофонов в горизонтальной плоскости (в случае Kinnect - линейный массив микрофонов, т.к. поиск источника сигнала ведется только в одной полуплоскости), что обусловлено необходимостью решения задачи по определению источника звука и выделению его из общего звукового потока (усилению сигнала в заданном пространственном направлении). Как правило, в процессе голосового управления устройствами реализация алгоритма выделения слов целевого диктора из аудиопотока выполняется в 3 шага:Well-known examples of sensors of this type for home use are FMR (phased microphone array) Microsoft Kinnect, as well as FMR used in the so-called. smart speakers, such as Apple Home Pod, Amazon Echo, Yandex Station, etc. A feature of the FMR used in products of this type is the location of microphones in a horizontal plane (in the case of Kinnect, a linear array of microphones, since the search for a signal source is carried out only in one half-plane), which is due to the need to solve the problem of determining the sound source and separating it from the general sound stream (amplifying the signal in a given spatial direction). As a rule, in the process of voice control of devices, the implementation of the algorithm for extracting the words of the target speaker from the audio stream is performed in 3 steps:

1) в режиме ожидания устройство постоянно анализирует поступающий аудиопоток с одного микрофона на предмет наличия слова-триггера включения, сохраняя при этом в буфер сигналы всех микрофонов решетки;1) in standby mode, the device constantly analyzes the incoming audio stream from one microphone for the presence of a turn-on trigger word, while buffering the signals of all array microphones;

2) в момент детектирования слова-триггера система производит вычисления для формирования луча: осуществляется поиск таких величин фазовой задержки сигналов каждого из микрофонов, при добавлении которой к функции полученного сигнала каждым из микрофонов и сложении сигналов микрофонов с определенными коэффициентами будет обеспечиваться максимальное усиление звука, исходящего от направления целевого диктора (детектированное слово-триггер), по сравнению с фоновыми звуками, предположительно поступающими с разных направлений;2) at the moment of detecting the trigger word, the system performs calculations for beam formation: it searches for such values of the phase delay of the signals of each of the microphones, which, when added to the function of the received signal by each of the microphones and the addition of the microphone signals with certain coefficients, will provide the maximum amplification of the outgoing sound on the direction of the target speaker (detected trigger word), compared to background sounds, presumably coming from different directions;

3) обработка получаемого в дальнейшем аудиопотока от всех микрофонов решетки осуществляется с учетом полученных на шаге 2 величин фазовой задержки, за счет чего результирующий сигнал (луча) обладает большим соотношением сигнал/шум по сравнению с сигналом отдельного микрофона (это позволяет осуществить последующее преобразование речевого сигнала в текст с меньшей вероятностью ошибки).3) processing of the audio stream received further from all microphones of the array is carried out taking into account the phase delay values obtained at step 2, due to which the resulting signal (of the beam) has a higher signal-to-noise ratio compared to the signal of a separate microphone (this allows the subsequent conversion of the speech signal into text with less chance of error).

Достоинством такой реализации алгоритма формирования луча является возможность значительного усиления речи целевого диктора (по сравнению с акустическим фоном), однако отсутствие предопределенности делает необходимым расположение массива микрофонов в плоскости сканирования. Сегментация речи по критерию принадлежности ее разным дикторам посредством данной технологии предполагает решение только 2 части этой задачи, т.е. поиска такого набора фазовых (временных) задержек для сигналов отдельных микрофонов, когда будет достигнуто максимальное усиление звуков речи диктора. Данный набор фазовых задержек сигналов отдельных микрофонов будет определять направление источника речи относительно приемника, которое, в свою очередь, будет являться характерным признаком для сегментации речевого аудиосигнала. Недостатком данного способа является низкая разрешающая способность при условии сочетания малых габаритов приемного устройства (и, соответственно, расстоянии между микрофонами, например, порядка единиц см) и низкой частоты дискретизации (например, 16 кГц, которая является стандартом для систем речевой аналитики). Это обусловлено тем, что при работе с цифровыми сигналами фазовые (временные) задержки сигнала от источника, принимаемого разными микрофонами, могут составлять только целое число дискрет. Решение задачи диаризации является актуальным и для другого класса устройств предполагающих персональное использование: телефоны, гарнитуры и т.п. На сегодняшний день для обеспечения малых габаритов и веса устройств типичным решением является применение в таких устройствах микрофонов, выполненных по технологии МЭМС. Достоинством микрофонов данного типа является широкий динамический диапазон, высокая чувствительность и широкая диаграмма направленности (ДН) (вплоть до сферической), что важно для обеспеченияThe advantage of this implementation of the beamforming algorithm is the possibility of significantly amplifying the speech of the target speaker (compared to the acoustic background), but the lack of predetermination makes it necessary to position the array of microphones in the scanning plane. Segmentation of speech according to the criterion of its belonging to different speakers using this technology involves the solution of only 2 parts of this task, i.e. search for such a set of phase (time) delays for the signals of individual microphones, when the maximum amplification of the sounds of the speaker's speech is reached. This set of phase delays for individual microphone signals will determine the direction of the speech source relative to the receiver, which in turn will be a feature for segmenting the speech audio signal. The disadvantage of this method is the low resolution under the condition of a combination of small dimensions of the receiving device (and, accordingly, the distance between the microphones, for example, on the order of a few cm) and a low sampling rate (for example, 16 kHz, which is the standard for speech analytics systems). This is due to the fact that when working with digital signals, the phase (time) delays of the signal from the source received by different microphones can only be an integer number of samples. The solution of the diarization problem is also relevant for another class of devices that involve personal use: telephones, headsets, etc. To date, to ensure small dimensions and weight of devices, a typical solution is the use of microphones made using MEMS technology in such devices. The advantage of microphones of this type is a wide dynamic range, high sensitivity and a wide directivity pattern (DN) (up to spherical), which is important for providing

- 1 041269 возможности работы устройства, как в режиме трубки, так и в режиме громкой связи. По причине широкой ДН съем звука таким устройством будет ненаправленным. Для того чтобы обеспечить комфорт собеседника (исключить из передаваемого сигнала посторонние шумы в период пауз), а также снизить объем передаваемых данных, запись и передачу звука гарнитурой или телефоном целесообразно осуществлять только в момент произнесения пользователем реплики, что также требует решения задачи по определению принадлежности речевого сигнала пользователю. Выделение речи пользователя из поступающих звуковых сигналов может осуществляться либо по уровню звукового давления, либо посредством фиксации колебаний поверхности тела пользователя в момент произнесения речи. Последнее может достигаться, например, за счет встраивания в устройство МЭМС-акселерометра, который формирует физический триггер-сигнал о том, что в заданный момент времени говорит именно пользователь (см., например, решение, раскрытое в заявке US 2014093093A1, опубл. 03.04.2014). Достоинством такого принципа реализации функции выделения речи пользователя из общего звукового потока, поступающего к микрофону, является органически присущая данному способу высокая точность определения принадлежности речевого сигнала пользователю, а также отсутствие необходимости выполнения сложных вычислений. Это, в свою очередь, обеспечивает высокое быстродействие алгоритмов сегментации и потенциально малое энергопотребление устройствами, их реализующими. Существенным ограничением данного способа является необходимость обеспечения достаточного для передачи колебаний механического контакта устройства с поверхностями тела оператора, которые испытывают вибрацию в процессе произнесения речи (боковая область черепа, слуховой проход, гортань, грудь).- 1 041269 the ability to operate the device, both in handset mode and in speakerphone mode. Due to the wide DN, the pickup of sound by such a device will be omnidirectional. In order to ensure the comfort of the interlocutor (to exclude extraneous noise from the transmitted signal during pauses), as well as to reduce the amount of transmitted data, it is advisable to record and transmit sound by a headset or telephone only at the moment the user pronounces a replica, which also requires solving the problem of determining the ownership of the speech signal to the user. The selection of the user's speech from the incoming sound signals can be carried out either by the sound pressure level, or by fixing the vibrations of the user's body surface at the moment of speaking. The latter can be achieved, for example, by embedding a MEMS accelerometer in the device, which generates a physical trigger signal that it is the user who speaks at a given time (see, for example, the solution disclosed in the application US 2014093093A1, publ. 03.04. 2014). The advantage of this principle of implementing the function of extracting the user's speech from the general sound stream coming to the microphone is the inherent high accuracy of determining the belonging of the speech signal to the user, as well as the absence of the need to perform complex calculations. This, in turn, ensures high performance of segmentation algorithms and potentially low power consumption by devices implementing them. A significant limitation of this method is the need to ensure mechanical contact of the device with the surfaces of the operator's body that are vibrating during speech pronunciation (lateral region of the skull, ear canal, larynx, chest) sufficient to transmit vibrations.

Сущность технического решенияThe essence of the technical solution

Технической проблемой или технической задачей, поставленной в данном техническом решении, является создание нового эффективного, простого и надежного способа диаризации аудиосигнала, обеспечивающего возможность принятия решения о принадлежности аудиозаписи конкретному диктору.The technical problem or technical challenge posed in this technical solution is the creation of a new effective, simple and reliable method of diarization of an audio signal, which makes it possible to make a decision about whether an audio recording belongs to a specific speaker.

Техническим результатом, достигаемым при решении вышеуказанной технической проблемы или технической задачи, является обеспечение возможности разметки (сегментации) аудиосигнала с малой погрешностью и с малым энергопотреблением, на основе данных, полученных с 2 микрофонов, в том числе, в режиме реального времени.The technical result achieved when solving the above technical problem or technical problem is to provide the possibility of marking (segmentation) of an audio signal with a small error and low power consumption, based on data received from 2 microphones, including in real time.

Указанный технический результат достигается благодаря осуществлению способа диаризации речевого аудиосигнала, содержащего этапы, на которых по лучают цифровые аудиосигналы, содержащие данные голоса, синхронно регистрируемые по меньшей мере двумя микрофонами;The specified technical result is achieved due to the implementation of a method for diarization of a speech audio signal, which includes the steps of receiving digital audio signals containing voice data synchronously recorded by at least two microphones;

оп ределяют разностный сигнал для сигналов двух микрофонов на основе данных цифровых аудиосигналов, полученных от упомянутых микрофонов;determining a difference signal for the signals of the two microphones based on the digital audio signal data received from said microphones;

оп ределяют значения огибающей функции разностного сигнала;determine the values of the envelope function of the difference signal;

оп ределяют значения огибающей функции исходного аудиосигнала на основе данных цифрового аудиосигнала, полученного от одного из микрофонов;determining the values of the envelope function of the original audio signal based on the data of the digital audio signal received from one of the microphones;

на основе значения огибающей функции разностного сигнала и значения огибающей функции исходного аудиосигнала определяют характеристическое значение аудиосигнала;based on the value of the envelope function of the difference signal and the value of the envelope function of the original audio signal, the characteristic value of the audio signal is determined;

на основе характеристического значения аудиосигнала осуществляют разметку данных цифрового аудиосигнала, указывающую на то, к какому источнику звукового сигнала относится соответствующий блок данных цифрового аудиосигнала.based on the characteristic value of the audio signal, digital audio signal data is tagged indicating to which audio signal source the corresponding digital audio data block belongs.

В одном из частных примеров осуществления способа два микрофона разнесены относительно друг друга по вертикали.In one of the particular examples of the implementation of the method, two microphones are vertically spaced relative to each other.

В другом частном примере осуществления способа разностный сигнал определяют посредством посэмплового вычета (для синхронно полученных сигналов) значения величины сигнала, определенного для аудиосигнала, поступившего с одного из микрофонов, из значения величины сигнала, определенного для аудиосигнала, поступившего с другого микрофона.In another particular embodiment of the method, the difference signal is determined by sample-by-sample subtraction (for synchronously received signals) of the signal magnitude value determined for the audio signal received from one of the microphones from the signal magnitude value determined for the audio signal received from the other microphone.

В другом частном примере осуществления способа характеристическое значение аудиосигнала (sp) определяется по формуле sp= Env( 11-12)/Env( 11), где Env(11-12) - значение огибающей функции разностного сигнала, aIn another particular embodiment of the method, the characteristic value of the audio signal (sp) is determined by the formula sp= Env( 11-12)/Env( 11), where Env(11-12) is the value of the envelope function of the difference signal, a

Env(11) - значение огибающей функции исходного аудиосигнала, полученного от одного из микрофонов.Env(11) - the value of the envelope function of the original audio signal received from one of the microphones.

В другом частном примере осуществления способа разметка данных цифрового аудиосигнала осуществляется посредством сравнения характеристического значения аудиосигнала с заранее заданным пороговым значением, причем если характеристическое значение аудиосигнала больше порогового значения, то соответствующий блок данных цифрового аудиосигнала размечается как относящийся к первому источнику звукового сигнала, а если характеристическое значение аудиосигнала меньше порогового значения, то соответствующий блок данных цифрового аудиосигнала размечается как относящийся ко второму источнику звукового сигнала.In another particular embodiment of the method, digital audio signal data is marked by comparing the characteristic value of the audio signal with a predetermined threshold value, and if the characteristic value of the audio signal is greater than the threshold value, then the corresponding block of digital audio signal data is marked as related to the first source of the audio signal, and if the characteristic value of the audio signal is less than the threshold, the corresponding digital audio data block is marked as belonging to the second audio source.

В другом частном примере осуществления способа разметка данных цифрового аудиосигнала осуществляется посредством разделения записанного аудиопотока речи дикторов по каналам стерео.In another particular example of the implementation of the method, the marking of digital audio signal data is carried out by dividing the recorded audio stream of the speakers' speech into stereo channels.

- 2 041269- 2 041269

В другом частном примере осуществления способа разметка данных цифрового аудиосигнала осуществляется посредством создания дополнительного блока данных с указанием временных меток, характеризующих время записи реплик по меньшей мере одного диктора.In another particular example of the implementation of the method, the labeling of digital audio signal data is carried out by creating an additional data block indicating timestamps characterizing the recording time of the replicas of at least one speaker.

В другом предпочтительном варианте осуществления заявленного решения представлено устройство диаризации речевого аудиосигнала, содержащее по меньшей мере одно вычислительное устройство и по меньшей мере одно устройство памяти, содержащее машиночитаемые инструкции, которые при их исполнении по меньшей мере одним вычислительным устройством выполняют вышеуказанный способ.In another preferred embodiment of the claimed solution, a speech audio signal diarization device is provided, comprising at least one computing device and at least one memory device containing machine-readable instructions, which, when executed by at least one computing device, perform the above method.

Краткое описание чертежейBrief description of the drawings

Признаки и преимущества настоящего технического решения станут очевидными из приводимого ниже подробного описания изобретения и прилагаемых чертежей, на которых на фиг. 1 представлена общая схема расположения микрофонов;The features and advantages of the present technical solution will become apparent from the following detailed description of the invention and the accompanying drawings, in which in Fig. 1 shows the general layout of the microphones;

на фиг. 2 представлен пример параметров речевого сигнала;in fig. 2 shows an example of speech signal parameters;

на фиг. 3 представлена схема устройства диаризации аудиосигнала;in fig. 3 shows a diagram of an audio signal diarization device;

на фиг. 4 подставлен пример общего вида вычислительного устройства.in fig. 4 is an example of a general view of a computing device.

Осуществление изобретенияImplementation of the invention

Ниже будут описаны понятия и термины, необходимые для понимания данного технического решения.The concepts and terms necessary for understanding this technical solution will be described below.

В данном техническом решении под системой подразумевается, в том числе компьютерная система, ЭВМ (электронно-вычислительная машина), ЧПУ (числовое программное управление), ПЛК (программируемый логический контроллер), компьютеризированные системы управления и любые другие устройства, способные выполнять заданную, четко определенную последовательность операций (действий, инструкций).In this technical solution, a system means, including a computer system, a computer (electronic computer), CNC (numerical control), PLC (programmable logic controller), computerized control systems and any other devices capable of performing a given, well-defined sequence of operations (actions, instructions).

Под устройством обработки команд подразумевается электронный блок, вычислительное устройство, либо интегральная схема (микропроцессор), исполняющая машинные инструкции (программы).A command processing device is an electronic unit, a computing device, or an integrated circuit (microprocessor) that executes machine instructions (programs).

Устройство обработки команд считывает и выполняет машинные инструкции (программы) с одного или более устройств хранения данных. В роли устройства хранения данных могут выступать, но не ограничиваясь, жесткие диски (HDD), флеш-память, ПЗУ (постоянное запоминающее устройство), твердотельные накопители (SSD), оптические приводы.An instruction processing device reads and executes machine instructions (programs) from one or more data storage devices. The role of a storage device can be, but not limited to, hard drives (HDD), flash memory, ROM (read only memory), solid state drives (SSD), optical drives.

Программа - последовательность инструкций, предназначенных для исполнения устройством управления вычислительной машины или устройством обработки команд.Program - a sequence of instructions intended for execution by a computer control device or a command processing device.

Блок данных - последовательность битов, имеющая фиксированную длину и используемая для представления данных в памяти или для их пересылки. На фиг. 1 представлена схема расположения микрофонов относительно источников звукового сигнала. В частности, на схеме изображены первый источник звукового сигнала - оператор 1, второй источник звукового сигнала - клиент 2, устройство 10 регистрации звукового сигнала, содержащее микрофоны 11 и 12. В качестве устройства 10 регистрации звукового сигнала может быть использовано любое известное вычислительное устройство, модифицированное в программно-аппаратной части такими образом, чтобы обеспечить сбор, обработку и хранение данных звукового сигнала. Например, упомянутое устройство 10 может быть выполнено в виде цифрового бейджа/знака отличия, заранее размещенного определенным образом относительно первого источника звукового сигнала - оператора 1. Например, устройство 10 регистрации звукового сигнала может быть размещено на груди оператора с левой стороны. Поскольку расположение устройства 10 относительно первого источника звукового сигнала заранее известно, соответственно, решение задачи определения направления звукового сигнала голоса оператора является избыточным и для диаризации достаточно выполнить проверку на соответствие направления источника звука ожидаемому направлению. Такое упрощение алгоритма позволяет для данного класса устройств (с предопределенным сценарием использования) осуществлять диаризацию записей, используя при этом минимальные вычислительные ресурсы. Эта особенность наряду с применением радиоэлектронных компонентов с низким энергопотреблением обеспечивает возможность снизить общее энергопотребление устройством, что, соответственно, позволяет обеспечить длительное время работы при малом весе и объеме аккумуляторной батареи. Логика работы алгоритма диаризации основывается на том факте, что источники звукового сигнала (рот оператора 1 и рот клиента 2) располагаются в разных точках пространства и рот оператора 1 смещен незначительно относительно прямой, на которой расположены микрофоны 11 и 12 (предположительно лежащей в вертикальной плоскости). В связи с этим временная задержка между сигналами двух расположенных друг под другом на заданном расстоянии микрофонов 11 и 12 от звуков речи оператора 1 будет максимальна в то время, как временная задержка между сигналами тех же микрофонов от звуков речи клиента 2 будет значительно меньше.A data block is a sequence of bits that has a fixed length and is used to represent data in memory or to transfer it. In FIG. 1 shows the layout of the microphones relative to the sound signal sources. In particular, the diagram shows the first source of the sound signal - the operator 1, the second source of the sound signal - the client 2, the device 10 for recording the sound signal, containing microphones 11 and 12. As the device 10 for recording the sound signal, any known computing device, modified in the software and hardware in such a way as to ensure the collection, processing and storage of audio signal data. For example, said device 10 can be made in the form of a digital badge/insignia, pre-placed in a certain way relative to the first source of the sound signal - the operator 1. For example, the sound signal recording device 10 can be placed on the chest of the operator on the left side. Since the location of the device 10 relative to the first source of the sound signal is known in advance, accordingly, the solution of the problem of determining the direction of the sound signal of the operator's voice is redundant and for diarization it is sufficient to check whether the direction of the sound source corresponds to the expected direction. Such a simplification of the algorithm makes it possible for a given class of devices (with a predetermined usage scenario) to carry out diarization of records using minimal computing resources. This feature, along with the use of low-power electronic components, makes it possible to reduce the overall power consumption of the device, which, accordingly, allows for a long operating time with a small weight and volume of the battery. The logic of the diarization algorithm is based on the fact that the sound signal sources (the mouth of the operator 1 and the mouth of the client 2) are located at different points in space and the mouth of the operator 1 is slightly displaced relative to the straight line on which the microphones 11 and 12 are located (presumably lying in a vertical plane) . In this regard, the time delay between the signals of two microphones 11 and 12 located one below the other at a given distance from the sounds of the speech of the operator 1 will be maximum, while the time delay between the signals of the same microphones from the sounds of the speech of the client 2 will be much less.

Например, если расстояние между микрофонами будет составлять примерно 50 мм (см. фиг 1), бейдж будет находиться на груди оператора на расстоянии примерно 20 см от его рта и расстояние между оператором и клиентом примерно = 1 м, то звуковой волне от клиента 2 до нижнего микрофона 12 нужно будет дополнительно пройти около 10 мм, после поступления звуковой волны на микрофон 11, в то время как для звуковой волны, обусловленной речью оператора, разность акустического пути между микрофонами 11 и 12 составит примерно 50 мм. Таким образом, при условии равенства характеристикFor example, if the distance between the microphones is about 50 mm (see Fig. 1), the badge will be on the chest of the operator at a distance of about 20 cm from his mouth and the distance between the operator and the client is approximately = 1 m, then the sound wave from client 2 to the lower microphone 12 will need to travel an additional 10 mm after the sound wave arrives at the microphone 11, while for the sound wave due to the operator's speech, the acoustic path difference between the microphones 11 and 12 will be approximately 50 mm. Thus, under the condition of equality of characteristics

- 3 041269 обоих микрофонов при вычитании сигнала одного из микрофонов из сигнала другого микрофона амплитуда результирующего сигнала для низких частот (до 300 Гц) будет пропорциональна фазовой разности, обусловленной временной задержкой при распространении сигнала.- 3 041269 both microphones when subtracting the signal of one of the microphones from the signal of the other microphone, the amplitude of the resulting signal for low frequencies (up to 300 Hz) will be proportional to the phase difference due to the time delay in signal propagation.

На фиг. 2 представлен пример зависимости величины звукового давления от времени для регистрируемых звуковых волн, на которой изображено sin(pi*x) - исходный сигнал (сигнал, зарегистрированный микрофоном 11), sin(pi*(x-1*k)) - сигнал, полученный вторым микрофоном (12), для случая когда сигнал пришел бы из точки, где расположен клиент (малая задержка между моментами достижения фронтом звуковой волны микрофонов 11 и 12), sin(pi*(x-5*k)) - сигнал, полученный вторым микрофоном (12), для случая когда сигнал пришел бы из точки, где расположен рот оператора (большая задержка между моментами достижения фронтом звуковой волны микрофонов 11 и 12), delta1 - разностный сигнал, в случае если источником сигнала является голос клиента {sin(pi*(x)sin(pi*(x-1*k))}, delta2 - разностный сигнал, в случае если источником сигнала является голос оператора {sin(pi*(x)sin(pi*(x-5*k))}.In FIG. 2 shows an example of the dependence of the sound pressure value on time for recorded sound waves, which shows sin(pi*x) - the original signal (the signal recorded by microphone 11), sin(pi*(x-1*k)) - the signal received by the second microphone (12), for the case when the signal would come from the point where the client is located (small delay between the moments when the front of the sound wave reaches microphones 11 and 12), sin(pi*(x-5*k)) - the signal received by the second microphone (12), for the case when the signal would come from the point where the operator's mouth is located (large delay between the moments when the front of the sound wave reaches microphones 11 and 12), delta1 is the difference signal, if the signal source is the client's voice {sin(pi *(x)sin(pi*(x-1*k))}, delta2 - difference signal, if the source of the signal is the operator's voice {sin(pi*(x)sin(pi*(x-5*k) )}.

pi - число Пи, х - переменная времени для иллюстрации графика зависимости величины звукового давления, воспринимаемого микрофонами, от времени;pi is the Pi number, x is a time variable to illustrate a graph of the magnitude of the sound pressure perceived by the microphones versus time;

k - величина задержки, обусловленная наличием для звуковой волны разности акустического пути от источника до микрофонов (11) и (12) при условии, что ее источником является клиент (2) (в случае когда задержка равна 1*k) или оператор (1) (в случае когда задержка равна 5*k).k - the amount of delay due to the presence of a difference in the acoustic path for the sound wave from the source to the microphones (11) and (12), provided that its source is the client (2) (in the case when the delay is 1 * k) or the operator (1) (in the case when the delay is 5*k).

Далее будет описан способ диаризации аудиосигнала со ссылкой на фиг. 3, на котором представлен пример схемы устройства 100 диаризации аудиосигнала. Устройство 100 диаризации аудиосигнала может быть реализовано на базе устройства 10 регистрации звукового сигнала и содержать модуль 101 обработки сигналов, модуль 102 определения характеристик сигнала, модуль 103 разметки аудиосигнала и модуль 104 хранения данных. Перечисленные модули могут быть реализованы на базе программноаппаратных средств устройства 100 диаризации аудиосигнала, выполненных в программной части таким образом, чтобы выполнять приписанные им ниже функции.Next, a method for diarizing an audio signal will be described with reference to FIG. 3, which shows an exemplary circuit diagram of an audio diarizer 100. The audio diarization device 100 may be implemented on the basis of the audio signal recording device 10 and include a signal processing module 101, a signal characterization module 102, an audio signal marking module 103, and a data storage module 104. The listed modules can be implemented on the basis of the firmware of the audio signal diarization device 100, implemented in the software part in such a way as to perform the functions assigned to them below.

Соответственно цифровые аудиосигналы, содержащие данные голоса оператора 1 или клиента 2 и синхронно регистрируемые микрофонами 11 и 12, поступают в буфер модуля 101 обработки сигналов в виде потока данных. Из полученных цифровых аудиосигналов модуль 101 формирует массив данных.Accordingly, digital audio signals containing voice data of the operator 1 or customer 2 and synchronously recorded by the microphones 11 and 12 are buffered by the signal processing module 101 as a data stream. From the received digital audio signals, the module 101 forms a data array.

Сформированный массив данных цифрового аудиосигнала направляется модулем 101 в модуль 102 определения характеристик сигнала.The generated digital audio data array is sent by the module 101 to the signal characterization module 102 .

Далее модуль 102 определения характеристик сигнала определяет разностный сигнал для сигналов двух микрофонов посредством посэмплового вычета (для синхронно полученных сэмплов) значения величины сигнала, определенного для аудиосигнала, поступившего с микрофона 12, из значения величины сигнала, определенного для аудиосигнала, поступившего с микрофона 11. После этого известными из уровня техники методами модуль 102 обработки сигналов определяет значения огибающей функции разностного сигнала и огибающей функции исходного аудиосигнала, полученного от микрофона 11 или 12, и на основе полученных значений определяет характеристические значения аудиосигнала. Например, характеристические значения аудиосигнала (sp) могут быть определены по формуле sp=Env( 11-12)/Env( 11), где Env(11-12) - значение огибающей функции разностного сигнала, aNext, the signal characterization module 102 determines the difference signal for the signals of the two microphones by sample-by-sample subtraction (for synchronously obtained samples) of the signal magnitude value determined for the audio signal received from the microphone 12 from the signal magnitude value determined for the audio signal received from the microphone 11. After To this end, the signal processing unit 102 determines the values of the envelope function of the difference signal and the envelope function of the original audio signal received from the microphone 11 or 12 by methods known from the prior art, and determines the characteristic values of the audio signal based on the obtained values. For example, the characteristic values of an audio signal (sp) can be determined by the formula sp=Env( 11-12)/Env( 11), where Env(11-12) is the value of the envelope function of the difference signal, a

Env(11) - значение огибающей функции исходного аудиосигнала, полученного от микрофона 11.Env(11) - the value of the envelope function of the original audio signal received from microphone 11.

Для того чтобы характеристическое значение аудиосигнала обладало физическим смыслом необходимо, чтобы микрофоны 11 и 12 рассматриваемой пары были разнесены относительно друг друга по вертикали, а устройство 10 регистрации звукового сигнала располагалось на груди оператора таким образом, чтобы рот оператора находился на прямой, проходящей через центр апертур микрофонов 11 и 12 или с незначительным отклонением от нее. Выполнение шага по определению характеристического значения аудиосигнала является необходимым для нормирования сигнала на собственную амплитуду, чтобы характеристическое значение аудиосигнала было зависимым только от расположения источников звука, а не от амплитуды сигнала.In order for the characteristic value of the audio signal to have a physical meaning, it is necessary that the microphones 11 and 12 of the pair under consideration be vertically spaced relative to each other, and the sound signal recording device 10 is located on the operator’s chest so that the operator’s mouth is on a straight line passing through the center of the apertures microphones 11 and 12 or with a slight deviation from it. The step of determining the characteristic value of the audio signal is necessary to normalize the signal to its own amplitude, so that the characteristic value of the audio signal is dependent only on the location of the sound sources, and not on the amplitude of the signal.

Далее данные характеристических значений аудиосигнала и массив данных цифрового аудиосигнала упомянутый модуль 102 направляет в модуль 103 разметки аудиосигнала, который на основе характеристического значения аудиосигнала осуществляет разметку данных цифрового аудиосигнала, указывающую на то, к какому источнику звукового сигнала блоки данных цифрового аудиосигнала относится. Например, характеристические значения аудиосигнала упомянутым модулем 103 могут быть сравнены с заранее заданным пороговым значением, и если характеристические значения аудиосигнала больше порогового значения, то блок данных цифрового аудиосигнала размечается как относящийся к первому источнику звукового сигнала - оператору (1). Если характеристические значения аудиосигнала меньше порогового значения, то блок данных цифрового аудиосигнала размечается как относящийся ко второмуNext, the audio characteristic value data and the digital audio signal data array are sent by said module 102 to the audio signal tagging module 103, which, based on the characteristic value of the audio signal, tags the digital audio signal data indicating to which audio signal source the digital audio signal data blocks belong. For example, the characteristic values of the audio signal by said module 103 can be compared with a predetermined threshold value, and if the characteristic values of the audio signal are greater than the threshold value, then the digital audio data block is marked as related to the first source of the audio signal - operator (1). If the characteristic values of the audio signal are less than the threshold value, then the digital audio data block is marked as belonging to the second

- 4 041269 источнику звукового сигнала - клиенту (2). Разметка аудиоданных может осуществляться как посредством разделения записанного аудиопотока речи дикторов по каналам стерео (речь одного из дикторов - в правый канал, другого - в левый) с последующим сохранением их в виде аудиофайла, либо в виде дополнительного блока данных (отдельного файла либо дополнительной дорожки вышеуказанного аудиофайла) с указанием временных меток, характеризующих время записи реплик одного либо обоих дикторов.- 4 041269 sound source - client (2). Audio data marking can be carried out either by dividing the recorded audio stream of the speakers' speech into stereo channels (the speech of one of the speakers into the right channel, the other into the left channel) with their subsequent saving as an audio file, or as an additional data block (a separate file or an additional track of the above audio file) with timestamps characterizing the recording time of the replicas of one or both speakers.

Полученный аудиофайл с разметкой и/или дополнительный файл разметки аудиоданных может быть сохранен в памяти модуля 104 хранения данных для его передачи в дальнейшем на внешние устройства и системы обработки данных через соответствующие интерфейсы вывода данных, которые будут раскрыты далее в тексте описания.The resulting audio markup file and/or an additional markup file of audio data can be stored in the memory of the data storage module 104 for further transmission to external devices and data processing systems through appropriate data output interfaces, which will be described later in the text of the description.

Таким образом, за счет того что источник звукового сигнала определяется на основе характеристического значения аудиосигнала, полученного на основе значения огибающей функции разностного сигнала и значения огибающей функции исходного аудиосигнала, повышается точность его определения и снижается погрешность при разметки данных цифрового аудиосигнала на основе характеристического значения аудиосигнала. Также снижается энергопотребление при разметке данных цифрового аудиосигнала за счет того, что для разметки данных цифрового аудиосигнала не требуется осуществлять дополнительную обработку полученных с микрофонов цифровых аудиосигналов. В общем виде (см. фиг. 3) вычислительное устройство (200) содержит объединенные общей шиной информационного обмена один или несколько процессоров (201), средства памяти, такие как ОЗУ (202) и ПЗУ (203), интерфейсы ввода/вывода (204), устройства ввода/вывода (205) и устройство для сетевого взаимодействия (206).Thus, due to the fact that the source of the audio signal is determined based on the characteristic value of the audio signal obtained on the basis of the envelope function value of the difference signal and the envelope function value of the original audio signal, the accuracy of its determination is increased and the error in labeling digital audio signal data based on the characteristic value of the audio signal is reduced. The power consumption of digital audio data tagging is also reduced by the fact that digital audio data tagging does not require additional processing of the digital audio signals received from the microphones. In general terms (see Fig. 3), the computing device (200) contains one or more processors (201), memory facilities such as RAM (202) and ROM (203), input / output interfaces (204) connected by a common information exchange bus ), input/output devices (205), and a device for networking (206).

Процессор (201) (или несколько процессоров, многоядерный процессор и т.п.) может выбираться из ассортимента устройств, широко применяемых в настоящее время, например, таких производителей, как Intel™, AMD™, Apple™, Samsung Exynos™, MediaTEK™, Qualcomm Snapdragon™ и т.п. Под процессором или одним из используемых процессоров в системе (200) также необходимо учитывать графический процессор, например GPU NVIDIA с программной моделью, совместимой с CUDA, или Graphcore, тип которых также является пригодным для полного или частичного выполнения способа, а также может применяться для обучения и применения моделей машинного обучения в различных информационных системах.The processor (201) (or multiple processors, multi-core processor, etc.) can be selected from a range of devices currently widely used, for example, manufacturers such as Intel™, AMD™, Apple™, Samsung Exynos™, MediaTEK™ , Qualcomm Snapdragon™, etc. Under the processor or one of the processors in use in the system (200), it is also necessary to take into account the graphics processor, for example, NVIDIA GPU with a CUDA-compatible software model, or Graphcore, the type of which is also suitable for full or partial execution of the method, and can also be used for training and application of machine learning models in various information systems.

ОЗУ (202) представляет собой оперативную память и предназначено для хранения исполняемых процессором (201) машиночитаемых инструкций для выполнения необходимых операций по логической обработке данных. ОЗУ (202), как правило, содержит исполняемые инструкции операционной системы и соответствующих программных компонент (приложения, программные модули и т.п.). При этом в качестве ОЗУ (202) может выступать доступный объем памяти графической карты или графического процессора.RAM (202) is a random access memory and is designed to store machine-readable instructions executable by the processor (201) to perform the necessary operations for logical data processing. The RAM (202) typically contains the executable instructions of the operating system and associated software components (applications, program modules, etc.). In this case, the RAM (202) may be the available memory of the graphics card or graphics processor.

ПЗУ (203) представляет собой одно или более устройств постоянного хранения данных, например жесткий диск (HDD), твердотельный накопитель данных (SSD), флэш-память (EEPROM, NAND и т.п.), оптические носители информации (CD-R/RW, DVD-R/RW, BlueRay Disc, MD) и др.The ROM (203) is one or more persistent storage devices such as a hard disk drive (HDD), a solid state data drive (SSD), flash memory (EEPROM, NAND, etc.), optical storage media (CD-R/ RW, DVD-R/RW, BlueRay Disc, MD), etc.

Для организации работы компонентов устройства (200) и организации работы внешних подключаемых устройств применяются различные виды интерфейсов В/В (204). Выбор соответствующих интерфейсов зависит от конкретного исполнения вычислительного устройства, которые могут представлять собой, не ограничиваясь, PCI, AGP, PS/2, IrDa, FireWire, LPT, COM, SATA, IDE, Lightning, USB (2.0, 3.0, 3.1, micro, mini, type C), TRS/Audio jack (2.5, 3.5, 6.35), HDMI, DVI, VGA, Display Port, RJ45, RS232 и т.п.Various types of I/O interfaces (204) are used to organize the operation of device components (200) and organize the operation of external connected devices. The choice of the appropriate interfaces depends on the specific implementation of the computing device, which can be, but not limited to, PCI, AGP, PS/2, IrDa, FireWire, LPT, COM, SATA, IDE, Lightning, USB (2.0, 3.0, 3.1, micro, mini, type C), TRS/Audio jack (2.5, 3.5, 6.35), HDMI, DVI, VGA, Display Port, RJ45, RS232, etc.

Для обеспечения взаимодействия пользователя с устройством (200) применяются различные средства (205) В/В информации, например клавиатура, дисплей (монитор), сенсорный дисплей, тач-пад, джойстик, манипулятор мышь, световое перо, стилус, сенсорная панель, трекбол, динамики, микрофон, средства дополненной реальности, оптические сенсоры, планшет, световые индикаторы, проектор, камера, средства биометрической идентификации (сканер сетчатки глаза, сканер отпечатков пальцев, модуль распознавания голоса) и т.п. Средство сетевого взаимодействия (206) обеспечивает передачу данных посредством внутренней или внешней вычислительной сети, например, Интранет, Интернет, ЛВС и т.п. В качестве одного или более средств (206) может использоваться, но не ограничиваться, Ethernet карта, GSM модем, GPRS модем, LTE модем, 5G модем, модуль спутниковой связи, NFC модуль, Bluetooth и/или BLE модуль, Wi-Fi модуль и др.Various means (205) of I/O information are used to ensure user interaction with the device (200), for example, a keyboard, a display (monitor), a touch screen, a touchpad, a joystick, a mouse, a light pen, a stylus, a touchpad, a trackball, speakers, microphone, augmented reality tools, optical sensors, tablet, light indicators, projector, camera, biometric identification tools (retinal scanner, fingerprint scanner, voice recognition module), etc. The networking means (206) provides data transmission via an internal or external computer network, for example, an Intranet, Internet, LAN, etc. As one or more means (206), an Ethernet card, a GSM modem, a GPRS modem, an LTE modem, a 5G modem, a satellite communication module, an NFC module, a Bluetooth and/or BLE module, a Wi-Fi module, and others

Дополнительно могут применяться также средства спутниковой навигации в составе устройства (200), например GPS, ГЛОНАСС, BeiDou, Galileo.Additionally, satellite navigation tools within the device (200) can also be used, such as GPS, GLONASS, BeiDou, Galileo.

Конкретный выбор элементов устройства (200) для реализации различных программно-аппаратных архитектурных решений может варьироваться с сохранением обеспечиваемого требуемого функционала.The specific choice of elements of the device (200) for the implementation of various software and hardware architectural solutions may vary while maintaining the required functionality provided.

Модификации и улучшения вышеописанных вариантов осуществления настоящего технического решения будут ясны специалистам в данной области техники. Предшествующее описание представлено только в качестве примера и не несет никаких ограничений. Таким образом, объем настоящего технического решения ограничен только объемом прилагаемой формулы изобретения.Modifications and improvements to the above described embodiments of the present technical solution will be clear to experts in this field of technology. The foregoing description is provided by way of example only and is not intended to be limiting in any way. Thus, the scope of the present technical solution is limited only by the scope of the appended claims.

Claims (8)

ФОРМУЛА ИЗОБРЕТЕНИЯCLAIM 1. Способ диаризации аудиосигнала, выполняемый по меньшей мере одним вычислительным устройством, содержащий этапы, на которых получают цифровые аудиосигналы, содержащие данные голоса, синхронно регистрируемые по меньшей мере двумя микрофонами;1. A method for diarizing an audio signal performed by at least one computing device, comprising the steps of receiving digital audio signals containing voice data synchronously recorded by at least two microphones; определяют разностный сигнал для сигналов двух микрофонов на основе данных цифровых аудиосигналов, полученных от упомянутых микрофонов;determining a difference signal for the signals of the two microphones based on the digital audio data received from said microphones; определяют значения огибающей функции разностного сигнала;determine the values of the envelope function of the difference signal; определяют значения огибающей функции исходного аудиосигнала на основе данных цифрового аудиосигнала, полученного от одного из микрофонов;determining the values of the envelope function of the original audio signal based on the data of the digital audio signal received from one of the microphones; на основе значения огибающей функции разностного сигнала и значения огибающей функции исходного аудиосигнала определяют характеристическое значение аудиосигнала;based on the value of the envelope function of the difference signal and the value of the envelope function of the original audio signal, the characteristic value of the audio signal is determined; на основе характеристического значения аудиосигнала осуществляют разметку данных цифрового аудиосигнала, указывающую на то, к какому источнику звукового сигнала относится соответствующий блок данных цифрового аудиосигнала.based on the characteristic value of the audio signal, digital audio signal data is tagged indicating to which audio signal source the corresponding digital audio data block belongs. 2. Способ по п.1, характеризующийся тем, что по меньшей мере два микрофона разнесены относительно друг друга по вертикали.2. The method according to claim 1, characterized in that at least two microphones are vertically spaced apart from each other. 3. Способ по п.1, характеризующийся тем, что разностный сигнал определяют посредством посэмплового вычета (для синхронно полученных сигналов) значения величины сигнала, определенного для аудиосигнала, поступившего с одного из микрофонов, из значения величины сигнала, определенного для аудиосигнала, поступившего с другого микрофона.3. The method according to claim 1, characterized in that the difference signal is determined by sample-by-sample subtraction (for synchronously received signals) of the signal magnitude value determined for the audio signal received from one of the microphones from the signal magnitude value determined for the audio signal received from the other microphone. 4. Способ по п.1, характеризующийся тем, что характеристическое значение аудиосигнала (sp) определяется по формуле sp=Env(11-12)/Env(11), где Env(11-12) - значение огибающей функции разностного сигнала, a4. The method according to claim 1, characterized in that the characteristic value of the audio signal (sp) is determined by the formula sp=Env(11-12)/Env(11), where Env(11-12) is the value of the envelope function of the difference signal, a Env(11) - значение огибающей функции исходного аудиосигнала, полученного от одного из микрофонов.Env(11) - the value of the envelope function of the original audio signal received from one of the microphones. 5. Способ по п.1, характеризующийся тем, что разметка данных цифрового аудиосигнала осуществляется посредством сравнения характеристического значения аудиосигнала с заранее заданным пороговым значением, причем если характеристическое значение аудиосигнала больше порогового значения, то соответствующий блок данных цифрового аудиосигнала размечается как относящийся к первому источнику звукового сигнала, а если характеристическое значение аудиосигнала меньше порогового значения, то соответствующий блок данных цифрового аудиосигнала размечается как относящийся ко второму источнику звукового сигнала.5. The method according to claim 1, characterized in that marking the data of the digital audio signal is carried out by comparing the characteristic value of the audio signal with a predetermined threshold value, and if the characteristic value of the audio signal is greater than the threshold value, then the corresponding block of data of the digital audio signal is marked as related to the first audio source. signal, and if the characteristic value of the audio signal is less than the threshold value, then the corresponding block of data of the digital audio signal is marked as belonging to the second source of the audio signal. 6. Способ по п.1, характеризующийся тем, что разметка данных цифрового аудиосигнала осуществляется посредством разделения записанного аудиопотока речи дикторов по каналам стерео.6. The method according to claim 1, characterized in that the marking of digital audio signal data is carried out by dividing the recorded audio stream of the speakers' speech into stereo channels. 7. Способ по п.1, характеризующийся тем, что разметка данных цифрового аудиосигнала осуществляется посредством создания дополнительного блока данных с указанием временных меток, характеризующих время записи реплик по меньшей мере одного диктора.7. The method according to claim 1, characterized in that the labeling of the digital audio signal data is carried out by creating an additional data block indicating timestamps characterizing the recording time of the replicas of at least one speaker. 8. Устройство диаризации речевого аудиосигнала, содержащее по меньшей мере одно вычислительное устройство и по меньшей мере одно устройство памяти, содержащее машиночитаемые инструкции, которые при их исполнении по меньшей мере одним вычислительным устройством выполняют способ по любому из пп.1-7.8. A device for diarizing a speech audio signal, comprising at least one computing device and at least one memory device containing machine-readable instructions, which, when executed by at least one computing device, perform the method according to any one of claims 1-7.
EA202092875 2020-10-23 2020-12-23 METHOD AND DEVICE FOR AUDIO SIGNAL DIARIZATION EA041269B1 (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2020134876 2020-10-23

Publications (1)

Publication Number Publication Date
EA041269B1 true EA041269B1 (en) 2022-10-03

Family

ID=

Similar Documents

Publication Publication Date Title
CN110992974B (en) Speech recognition method, apparatus, device and computer readable storage medium
RU2759493C1 (en) Method and apparatus for audio signal diarisation
US11924624B2 (en) Multi-channel speech compression system and method
US20220254358A1 (en) Multi-channel speech compression system and method
EA041269B1 (en) METHOD AND DEVICE FOR AUDIO SIGNAL DIARIZATION
US11631411B2 (en) System and method for multi-microphone automated clinical documentation
US20240071396A1 (en) System and Method for Watermarking Audio Data for Automated Speech Recognition (ASR) Systems
US20230230580A1 (en) Data augmentation system and method for multi-microphone systems
US20230230582A1 (en) Data augmentation system and method for multi-microphone systems
US20230230581A1 (en) Data augmentation system and method for multi-microphone systems
US20230230599A1 (en) Data augmentation system and method for multi-microphone systems
WO2024091378A1 (en) System and method for single channel distant speech processing