EA002728B1

EA002728B1 - Method for forming phonogram of voice information

Info

Publication number: EA002728B1
Application number: EA200100511A
Authority: EA
Inventors: Мария Валериевна Женило; Валерий Романович Женило; Светлана Валерьевна Женило; Вячеслав Иванович Кирин
Original assignee: Закрытое Акционерное Общество "Марат-С"
Priority date: 2001-05-18
Filing date: 2001-05-18
Publication date: 2002-08-29
Also published as: EA200100511A1

Abstract

1. A method for forming a phonogram of voice information, wherein voice and control marking signals are recorded simultaneously on the media in order to determine the integrity of the phonogram as result of its time and frequency vizualization, characterized in that a continuous sequence of sonofilm images are formed synchronously with the phonogram of voice information, a spectral analysis is performed in each its image using a number of parallel blocks for forming harmonica of control marking signals within audio frequency band, a spectral power of each image is determined, harmonicas are modulated by amplitude by the level of spectral power of each sonofilm image with a random distribution of their phases so that the power of each harmonica of the control marking signals is weaker the most powerful time and frequency component by at least 10 dB, and sum up said harmonicas of the control marking signals and voice signal prior to their recording on the media. 2. The method according to claim 1, wherein audio frequency band is 100 to 4000 Hz. 3. The method according to claims 1 or 2, wherein said number of blocks for forming harmonicas of the control marking signals comprises from 5 to 20 blocks.

Description

Изобретение относится к области передачи и записи аудио, видео и мультимедийной информации и, в частности, может быть использовано для контроля записи основного речевого (аудио) сигнала при его записи совместно с контрольным маркировочным сигналом, записываемым на том же носителе, что и основной сигнал. Речевые сигналы могут быть записаны на любых известных носителях информации, например магнитных, оптических, в ячейках памяти и т.п., для их дальнейшего использования, например, при доказательстве факта того или иного события, отраженного в зафиксированном сигнале. Подлинность и достоверность фонограммы после ее записи подтверждается наличием специально формируемых контрольных маркировочных сигналов, которыми она помечается (маркируется).The invention relates to the field of transmission and recording of audio, video and multimedia information, and, in particular, can be used to control the recording of the main speech (audio) signal when it is recorded together with the control marking signal recorded on the same medium as the main signal. Speech signals can be recorded on any known information carriers, for example magnetic, optical, in memory cells, etc., for their further use, for example, when proving the fact of an event reflected in a recorded signal. The authenticity and reliability of the phonogram after its recording is confirmed by the presence of specially formed control marking signals with which it is marked (marked).

В настоящее время существует проблема, связанная с обнаружением и идентификацией контрольных маркировочных сигналов, нанесенных на тот же носитель, что и основной сигнал, для установления подлинности самой фонограммы.Currently, there is a problem associated with the detection and identification of control marking signals printed on the same medium as the main signal to establish the authenticity of the phonogram itself.

Из уровня техники известны системы обнаружения признаков монтажа фонограмм, которые базируются на случайных или специальных добавленных частотно постоянных фоновых помехах, и не привязанных к оригинальной структуре контролируемого речевого сигнала.The prior art systems for detecting signs of mounting phonograms, which are based on random or special added frequency constant background noise, and not tied to the original structure of the controlled speech signal.

Известен способ записи информации на носитель, при котором перед записью основных и управляющих данных в виде кадров на носителе записи формируют файл управляющих данных в виде Ν-идентичных групп в каждом пакете данных (патент РФ № 2073913, 20.02.97).A known method of recording information on a medium, in which before recording the main and control data in the form of frames on the recording medium, a control data file is formed in the form of Ν-identical groups in each data packet (RF patent No. 2073913, 02.20.97).

Способ направлен на перенос обработки записанных данных со специализированной материальной части на программную.The method is aimed at transferring the processing of recorded data from specialized material to software.

Известен также способ размещения на носителе проверочных символов кода для исправления ошибок в информационных данных, таким образом, что каждая компонента информации и проверочных символов записываются на интервалах каждого сектора, чтобы рассредоточить вышеуказанные проверочные символы в каждом секторе (патент РФ № 2154897,There is also known a method of placing on the media verification characters for correcting errors in the information data, so that each component of the information and verification characters are recorded at intervals of each sector to disperse the above verification characters in each sector (RF patent No. 2154897,

20.08.00).08.20.00).

В данном патенте решается проблема помехозащищенного кодирования данных. Если при кодировании передачи или чтении этих данных происходят сбои, то они исправляются с помощью предложенного в данном патенте способа.This patent solves the problem of interference-free encoding of data. If failures occur when encoding a transmission or reading this data, they are corrected using the method proposed in this patent.

В патенте РФ № 2095857 (10.11.97) описан способ передачи звуковой и/или видеоинформации с использованием носителя данных, при котором форматируют данные с добавлением к основной информации цифровых субкодовых данных, которые перед форматированием разделяют на пакеты информации и производят их перемежение. После переформатирования выбранные пакеты выделяют из субкодовой информации.RF patent No. 2095857 (11/10/97) describes a method for transmitting audio and / or video information using a data carrier, in which data is formatted with digital sub-code data added to the main information, which is divided into information packets and formatted before being formatted. After reformatting, the selected packets are extracted from the subcode information.

Способ, согласно данному патенту, предусматривает использование дополнительных дорожек цифровых записей с разноязычными текстами. Эти дополнительные данные не смешиваются с полезным сигналом.The method according to this patent provides for the use of additional tracks of digital recordings with multilingual texts. This additional data is not mixed with the desired signal.

В публикации 8есиге 8ргеаб 8рее1гит \Уа1егтагктд £ог МиШтеФа, 1пдетаг 1. Сох, е! а1. (ΙΕΕΕ Тгапз. оп 1таде Ргосеззтд, 6,12, 16731697, (1997)) описан способ нанесения маркировочных (водяных) знаков на носители при записи аудио, видео и мультимедийной информации. В указанном способе используют водяные знаки для установления факта недобросовестного использования и распространения записи. Маркировочные (водяные) знаки, содержащие информацию об авторских правах оригинала, формируют на основе случайного гауссовского шума при передаче и записи в основной сигнал.In the publication 8cig 8rgeab 8re1git \ ya1egtagktd e og MIShteFa, 1detag 1. Soh, e! a1. (ΙΕΕΕ Tgapz. Op 1tade Rgosezztd, 6.12, 16731697, (1997)) describes a method of applying marking (watermark) to media when recording audio, video and multimedia information. In this method, watermarks are used to establish the fact of unfair use and distribution of the record. Marks (watermarks) containing the copyright information of the original are formed on the basis of random Gaussian noise during transmission and recording to the main signal.

Факт недобросовестного использования записи устанавливают путем сравнения извлеченного из записи водяного знака с эталонным, хранящимся у автора оригинала. Указанная публикация, по мнению заявителя, является наиболее близким аналогом, известным из уровня техники.The fact of unfair use of the record is established by comparing the watermark extracted from the record with the reference stored by the original author. The specified publication, according to the applicant, is the closest analogue known from the prior art.

Недостатком вышеописанных способов является то, что используемые в них маркировочные сигналы можно достаточно просто выявлять, удалять, заменять или добавлять при манипуляциях с монтируемой фонограммой с помощью цифровой или аналоговой техники звукозаписи. В случае с водяным знаком при контроле записи необходимо постоянно хранить эталонный маркировочный сигнал. Целью настоящего изобретения является устранение указанных недостатков.The disadvantage of the above methods is that the marking signals used in them can be quite simply identified, deleted, replaced or added during manipulations with the mounted phonogram using digital or analog recording techniques. In the case of a watermark, it is necessary to constantly store the reference marking signal during recording control. The aim of the present invention is to remedy these disadvantages.

Основная задача настоящего изобретения заключается в создании способа формирования фонограммы речевой информации с записью на носителе, который при изменении записи позволяет обнаружить внесенные корректировки, или монтаж фонограммы, а в случае их отсутствия подтвердить достоверность оригинальной записи.The main objective of the present invention is to create a method of forming a phonogram of voice information with a recording on the medium, which, when changing the recording, allows you to detect the corrections made or the installation of the phonogram, and if they are absent, confirm the authenticity of the original recording.

Согласно настоящему изобретению поставленная задача решается и технический результат достигается за счет внесения в основной речевой сигнал контрольного маркировочного сигнала, модулированного спектральной мощностью кадров сонофильма по гармоникам со случайным распределением их фаз. В результате, сигнал фонограммы со следами речи помечается специальной дополнительной сигнальной структурой, располагающейся в том же частотном диапазоне, что и сам речевой сигнал, что не позволяет бесследно менять или удалять фрагменты фонограммы.According to the present invention, the problem is solved and the technical result is achieved by introducing into the main speech signal a control marking signal modulated by the spectral power of the sonophile frames over harmonics with a random distribution of their phases. As a result, the phonogram signal with traces of speech is marked with a special additional signal structure located in the same frequency range as the speech signal itself, which does not allow changing or deleting fragments of the phonogram without a trace.

Способ формирования фонограммы речевой информации согласно изобретению заклю3 чается в том, что на носитель одновременно записывают речевые и контрольные маркировочные сигналы для определения целостности фонограммы по результатам ее частотновременной визуализации, для чего синхронно с фонограммой речевой информации формируют непрерывную последовательность кадров сонофильма, проводят в каждом его кадре спектральный анализ с использованием ряда параллельных блоков формирования гармоник контрольных маркировочных сигналов в диапазоне звуковых частот, определяют спектральную мощность каждого кадра, гармоники модулируют по амплитуде уровнем спектральной мощности каждого кадра сонофильма со случайным распределением их фаз таким образом, что мощность каждой гармоники контрольных маркировочных сигналов оказывается слабее самых мощных частотно-временных компонентов речевого сигнала, по крайней мере, на 10 дБ, и суммируют указанные гармоники контрольных маркировочных сигналов и речевой сигнал перед их записью на носитель.The method for generating a phonogram of voice information according to the invention 3 consists in the fact that voice and control marking signals are simultaneously recorded on the medium to determine the integrity of the phonogram according to the results of its frequency-time visualization, for which a continuous sequence of sonophilic frames is formed simultaneously with the phonogram of the speech information, carried out in each of its frames spectral analysis using a number of parallel blocks for the formation of harmonics of the control marking signals in the range At the same time, the spectral power of each frame is determined, the harmonics are modulated in amplitude by the level of the spectral power of each frame of the sonofilm with a random distribution of their phases so that the power of each harmonic of the control marking signals is weaker than the most powerful time-frequency components of the speech signal, at least 10 dB, and summarize the indicated harmonics of the control marking signals and the speech signal before recording them on the medium.

При этом, диапазон звуковых частот составляет от 100 до 4000 Гц, а указанный ряд блоков формирования гармоник контрольных маркировочных сигналов включает от 5 до 20 блоков.At the same time, the range of sound frequencies is from 100 to 4000 Hz, and the indicated number of blocks for the formation of harmonics of control marking signals includes from 5 to 20 blocks.

Сущность способа, согласно данному изобретению, заключается в том, что помимо полезного речевого сигнала в структуру сигнала вносится дополнительная структура контрольных маркировочных сигналов, синхронная речевому сигналу и незаметная на слух, но надежно выделяемая в шумах. С одной стороны, структура контрольных маркировочных сигналов, т. е. частотно модулированные гармоники с некратными частотами модуляций и случайно меняющимися фазами, достаточно регулярна для того, чтобы контрольные маркировочные сигналы можно было обнаружить спектральными методами. С другой стороны, фазовая структура контрольных маркировочных сигналов меняется случайным образом так, чтобы ее нельзя было точно вычислить для удаления или подмены. Контрольные маркировочные сигналы модулируются по амплитуде уровнем мощности речевого сигнала в соответствующих полосах частот таким образом, чтобы, во-первых, благодаря психоакустическому эффекту маскировки звуков быть незаметными, во-вторых, быть уникальными в привязке к меняющейся спектральной мощности речевого сигнала и, в-третьих, быть достаточно слабыми для возможности использования помеченного речевого сигнала в экспертно-криминалистической идентификации личности по речи.The essence of the method according to this invention is that in addition to a useful speech signal, an additional structure of control marking signals is introduced into the signal structure, synchronous to the speech signal and invisible to the ear, but reliably emitted in noise. On the one hand, the structure of control marking signals, i.e., frequency-modulated harmonics with multiple modulation frequencies and randomly varying phases, is sufficiently regular so that control marking signals can be detected by spectral methods. On the other hand, the phase structure of the control marking signals changes randomly so that it cannot be accurately calculated for deletion or substitution. The control marking signals are modulated in amplitude by the power level of the speech signal in the corresponding frequency bands so that, firstly, due to the psychoacoustic effect of masking sounds, they are invisible, secondly, they are unique in relation to the changing spectral power of the speech signal, and thirdly , be weak enough for the possibility of using the labeled speech signal in forensic identification of a person by speech.

По сравнению с известными способами маркировки записи отличительными особенностями предлагаемого способа формирования фонограммы речевой информации являются следующие:Compared with the known methods of marking recordings, the distinguishing features of the proposed method of forming a phonogram of speech information are the following:

- формирование синхронно с фонограммой речевой информации непрерывной последовательности кадров сонофильма;- the formation simultaneously with the phonogram of speech information of a continuous sequence of frames of the sonophile;

- проведение в каждом кадре сонофильма спектрального анализа с использованием с использованием ряда параллельных блоков формирования гармоник контрольных маркировочных сигналов в диапазоне звуковых частот;- conducting in each frame a sonofilm of spectral analysis using a number of parallel blocks for the formation of harmonics of the control marking signals in the range of sound frequencies;

- определение спектральной мощности каждого кадра сонофильма;- determination of the spectral power of each frame of the sonophile;

- модулирование гармоник по амплитуде уровнем спектральной мощности каждого кадра сонофильма со случайным распределением фаз каждой из гармоник таким образом, что мощность каждой гармоники оказывается слабее самых мощных частотно-временных компонентов речевого сигнала, по крайней мере, на 10 дБ;- modulation of harmonics in amplitude by the level of spectral power of each sonophilic frame with a random phase distribution of each harmonic in such a way that the power of each harmonic is weaker than the most powerful frequency-time components of the speech signal by at least 10 dB;

- суммирование указанных гармоник контрольных маркировочных сигналов и речевого сигнала перед их записью на носитель.- summation of the indicated harmonics of the control marking signals and the speech signal before they are recorded on the medium.

Указанные отличительные признаки предложенного способа формирования речевой информации являются существенными, поскольку каждый из них отдельно и совместно направлены на решение поставленной задачи и достижение нового технического результата.These distinctive features of the proposed method for the formation of speech information are significant, since each of them is separately and jointly aimed at solving the problem and achieving a new technical result.

Контроль речевого сигнала, представленного в любой известной форме, заключается в частотно-временном анализе запомненного речевого сигнала и добавлении к нему группы частотно модулированных гармоник, перекрывающих своими колебаниями по частоте весь частотный диапазон речевого сигнала, амплитуда которых, с одной стороны, никогда не опускается ниже допустимого максимального уровня помех в фиксируемом речевом сигнале, а, с другой стороны, на самых мощных частотновременных участках речевого сигнала амплитуда контрольных маркировочных сигналов должна быть меньше их на 10 - 40 дБ. На остальных частотно-временных участках контрольные маркировочные сигналы может существенно превышать по уровню спектральной мощности компоненты речевого сигнала, но лишь в том случае, если эти участки располагаются в непосредственной близости (по времени и частоте), из-за чего они, в силу эффекта психоакустической маскировки частотно-временных компонентов сигналов, оказываются практически незаметными на слух.The control of the speech signal, presented in any known form, consists in the time-frequency analysis of the stored speech signal and adding to it a group of frequency-modulated harmonics that cover the entire frequency range of the speech signal with its frequency oscillations, the amplitude of which, on the one hand, never drops below permissible maximum level of interference in a fixed speech signal, and, on the other hand, at the most powerful frequency-time sections of the speech signal, the amplitude of the control marking with ignals should be less than them by 10 - 40 dB. In other frequency-time sections, control marking signals can significantly exceed the components of the speech signal in terms of spectral power, but only if these sections are located in close proximity (in time and frequency), which is why, due to the psychoacoustic effect masking the time-frequency components of the signals are almost invisible to the ear.

Для контроля фонограммы, представленной в любой известной, например, цифровой форме, она запоминается в полном объеме на носителе. Параллельно с этой фонограммой формируется контрольный маркировочный сигнал в подобной же форме, состоящий из набора частотно модулированных гармоник постоянной амплитуды, частотный диапазон которых перекрывает весь частотный диапазон контролируемого речевого сигнала, и которые сами с собой никогда не пересекаются по частоте. Структура частотной модуляции контрольных маркировочных сигналов выбирается такой, чтобы она никогда не повторялась и содержала информацию о времени, типе и номере устройства звукозаписи. Начальная амплитуда всех маркировочных частотно модулированных гармоник устанавливается равной максимально допустимой амплитуде помех, принятой в выбранной технологии цифровой звукозаписи фонограммы. Затем на разных частотно-временных участках контрольного маркировочного сигнала он модулируется по амплитуде синхронно контролируемому речевому сигналу следующим образом.To control the phonogram presented in any known, for example, digital form, it is stored in full on the medium. In parallel with this phonogram, a control marking signal is formed in a similar form, consisting of a set of frequency-modulated harmonics of constant amplitude, the frequency range of which covers the entire frequency range of the controlled speech signal, and which themselves never intersect in frequency. The structure of the frequency modulation of the control marking signals is chosen so that it never repeats and contains information about the time, type and number of the sound recorder. The initial amplitude of all labeling frequency modulated harmonics is set equal to the maximum allowable noise amplitude adopted in the selected technology of digital sound recording of a phonogram. Then, at different time-frequency sections of the control marking signal, it is modulated in amplitude by a synchronously controlled speech signal as follows.

Весь речевой сигнал нарезается на отдельные кадры, составляющие сонофильм. Периодичность кадров составляет примерно Т_к = 7 мс. Каждый кадр сонофильма речевого сигнала имеет свою спектральную мощность. Синхронно с этими кадрами сонофильма речевого сигнала создаются кадры сонофильма контрольного маркировочного сигнала. Спектральная мощность кадров контрольного маркировочного сигнала устанавливается за два прохода анализа кадров речевого сигнала в прямом и обратном направлении времени смены кадров.The entire speech signal is cut into individual frames that make up the sonofilm. The frame rate is approximately T _k = 7 ms. Each frame of the sonophile of a speech signal has its own spectral power. Synchronously with these frames of the sonophile of the speech signal, frames of the sonophile of the control marking signal are created. The spectral power of the frames of the control marking signal is set in two passes of the analysis of the frames of the speech signal in the forward and reverse directions of the frame change time.

При прямом проходе по кадрам сонофильма амплитуда контрольного маркировочного сигнала Р(с,£) в полосе частот £ в кадре с устанавливается следующим образом:With a direct pass through the frames of the sonofilm, the amplitude of the control marking signal P (s, £) in the frequency band £ in frame c is set as follows:

Р(с,£) = шах{Ы(£); 8(с-1,£)-М(£)-Э(£); С(с,£)}, где Ν(£) - максимально допустимый уровень помех в полосе частот £ в фиксируемой фонограмме;P (c, ξ) = check {Ы (ξ); 8 (c-1, £) -M (£) -E (£); C (s, £)}, where Ν (£) is the maximum allowable level of interference in the frequency band £ in a fixed phonogram;

8(с,£) - спектральная плотность речевого сигнала в кадре с в полосе частот £;8 (s, £) is the spectral density of the speech signal in frame c in the frequency band £;

М(£) - на сколько ниже должна быть спектральная плотность контрольного маркировочного сигнала относительно самого мощного по спектральной плотности частотно-временного участка речевого сигнала;M (£) - how much lower should the spectral density of the control marking signal be relative to the most powerful spectral frequency frequency-time section of the speech signal;

Ό(£) - на сколько ниже должна быть спектральная мощность контрольного маркировочного сигнала в следующем кадре, чтобы эффект психоакустической маскировки сигналов сработал в полной мере;Ό (£) - how much lower should the spectral power of the control marking signal be in the next frame so that the effect of psychoacoustic masking of the signals fully works;

С(с,£) - начальная спектральная мощность контрольного маркировочного сигнала во всех кадрах с и каналах частот £.C (s, £) is the initial spectral power of the control marking signal in all frames c and frequency channels £.

При обратном проходе по кадрам фильма амплитуда контрольного маркировочного сигнала Р(с,£) в полосе частот £ в кадре с устанавливается следующим образом:When passing back through the frames of the film, the amplitude of the control marking signal P (c, £) in the frequency band £ in frame c is set as follows:

Р(с,£) = ™αχ{Ν(£); 8(с+1,£)-М(£)-Э(£); Р(с,£)}.P (c, £) = ™ αχ {Ν (£); 8 (c + 1, £) -M (£) -E (£); P (c, £)}.

Контрольные маркировочные сигналы это ряд частотно модулированных гармоник с непересекающимися частотами и со случайно меняющейся начальной фазой (в среднем один раз в секунду). Динамика амплитуды каждого из контрольных маркировочных сигналов меняется в зависимости от изменения динамики уровня мощности речевого сигнала в полосе частот £. Причем, динамика амплитуды каждого кон трольного маркировочного сигнала на пиковых по мощности частотно-временных участках речевого сигнала в полосе частот £ ниже последнего на 10 - 40 дБ. А после пикового участка амплитуда контрольных маркировочных сигналов экспоненциально снижается (с рекомендуемой скоростью 6 дБ за 10 мс). Это свойство приводит к тому, что из-за эффекта маскировки контрольные маркировочные сигналы практически не слышны, но их уровень чаще всего оказывается выше текущего уровня регистрируемого речевого сигнала (на участках звуковых пауз в речевом сигнале в разных частотных диапазонах). Благодаря этому контрольную маркировочную структуру сигнала можно визуализировать с помощью динамических спектральных фильмов или сонофильмов.The control marking signals are a series of frequency-modulated harmonics with disjoint frequencies and with a randomly changing initial phase (on average once per second). The dynamics of the amplitude of each of the control marking signals varies depending on changes in the dynamics of the power level of the speech signal in the frequency band £. Moreover, the dynamics of the amplitude of each control marking signal at the power frequency-time sections of the speech signal peak in power in the frequency band £ below the last by 10 - 40 dB. And after the peak portion, the amplitude of the control marking signals decreases exponentially (with a recommended speed of 6 dB in 10 ms). This property leads to the fact that due to the masking effect, control marking signals are practically inaudible, but their level most often turns out to be higher than the current level of the recorded speech signal (in areas of sound pauses in the speech signal in different frequency ranges). Due to this, the control marking structure of the signal can be visualized using dynamic spectral films or sonophiles.

Поскольку на самых мощных частотновременных участках речевого сигнала контрольные маркировочные сигналы всегда ниже по амплитуде на 10 - 40 дБ, то контролируемый речевой сигнал остается пригодным для проведения экспертно-криминалистических идентификации личности по следам речевого сигнала. По требованию официально применяемой в России методике идентификации личности по речевому сигналу «Диалект» уровень помех не должен превышать -15 дБ следов речевого сигнала во всех диапазонах частот.Since at the most powerful frequency-time sections of the speech signal the control marking signals are always lower in amplitude by 10 - 40 dB, the controlled speech signal remains suitable for conducting forensic identification of the person following the traces of the speech signal. At the request of the officially used in Russia method of identifying a person using the “Dialect” speech signal, the level of interference should not exceed -15 dB of speech signal traces in all frequency ranges.

Из-за малой мощности сигналов контрольной маркировочной структуры частота, амплитуда и фаза которых постоянно меняется, их практически невозможно вычислить с достаточной точностью и бесследно удалить.Due to the low power of the signals of the control marking structure, the frequency, the amplitude and phase of which is constantly changing, it is almost impossible to calculate with sufficient accuracy and remove it without a trace.

Если в фонограмме, помеченной таким образом, попытаться бесследно выделить и удалить некоторый фрагмент речи, то вместе с этим фрагментом речевого сигнала удаляется и контрольная маркировочная структура, нарушение которой проявляется и обнаруживается на сонофильмах в силу высокой информационной избыточности, не повторяемости взаимного расположения элементов контрольной маркировочной структуры.If in a phonogram marked in such a way we try to isolate and delete a certain fragment of speech without leaving a trace, then along with this fragment of the speech signal the control marking structure is deleted, the violation of which is manifested and detected on sonophiles due to the high information redundancy, the non-repeatability of the relative positions of the control marking elements structure.

Если попытаться внести в помеченную фонограмму посторонний непомеченный речевой сигнал, то на участке монтажа маркировочная структура окажется не модулирована этим речевым сигналом, что тоже обнаруживается с помощью сонофильма.If you try to add an unmarked extraneous speech signal to the marked phonogram, then the marking structure in the editing area will not be modulated by this speech signal, which is also detected using the sonofilm.

Если попытаться переставить местами фрагменты помеченной фонограммы с наложением или без ее отдельных частей, то произойдет такая же перестановка и наложение и контрольной маркировочной структуры, что также обнаруживается с помощью сонофильма.If you try to rearrange the fragments of the marked phonogram with or without overlapping of its individual parts, then the same permutation and superposition of the control marking structure will occur, which is also detected with the help of a sonofilm.

Далее приводится описание изобретения со ссылками на прилагаемые чертежи.The following is a description of the invention with reference to the accompanying drawings.

Фиг. 1 - общая схема устройства для формирования фонограмм речевой информации.FIG. 1 is a general diagram of a device for generating phonograms of speech information.

Фиг. 2 - схема блока формирования гармоники контрольного маркировочного сигнала.FIG. 2 is a diagram of a harmonics forming unit of a control marking signal.

Фиг. 3 - сонофильм оригинала фонограммы.FIG. 3 - sonofilm of the original soundtrack.

Фиг. 4 - сонофильм фонограммы после её монтажа.FIG. 4 - sonophilic soundtrack after its installation.

Общая схема устройства для формирования фонограмм речевой информации, показанная на фиг. 1, содержит ряд однотипных блоков Н для формирования гармоник контрольных маркировочных сигналов и сумматор сигналов Σ. В устройство информационной маркировки поступает входной речевой сигнал и без искажений поступает на сумматор контрольных маркировочных сигналов. Формирование контрольных маркировочных сигналов управляется речевым сигналом. Входной речевой сигнал поступает на ряд параллельных блоков Н формирования гармоник контрольных маркировочных сигналов, перекрывающих диапазон частот от 100 до 4000 Гц. Указанный диапазон с запасом надежно перекрывает известный диапазон, применяемый в проводной телефонной связи.The general circuit of the device for generating phonograms of speech information shown in FIG. 1, contains a number of blocks of the same type H for forming harmonics of the control marking signals and an adder of signals Σ. The input speech signal enters the information marking device and without distortion enters the adder of control marking signals. The formation of control marking signals is controlled by a speech signal. The input speech signal is fed to a number of parallel blocks H of the formation of harmonics of the control marking signals that span the frequency range from 100 to 4000 Hz. The specified range with a margin reliably covers the known range used in wire telephone communication.

Контрольные маркировочные сигналы формируется с помощью нескольких однотипных блоков следующим образом. Амплитуда выходного сигнала каждого из блоков уменьшается на 10 - 40 дБ и сравнивается с пороговым значением максимально допустимого для данного класса записывающего устройства амплитуды гармонической помехи. Большее значение этих амплитуд задает амплитуду генерируемой частотно модулированной гармоники, которая является составной частью контрольного маркировочного сигнала. Частота этой гармоники постоянно меняется в пределах полосы пропускания соответствующего блока, а ее начальная фаза случайно в среднем один раз в секунду сбрасывается до нуля. Получаемые таким образом в разных полосах частот маркировочные частотно-модулированные гармоники со случайной фазой отражают структуру входного речевого сигнала. Все маркировочные частотномодулированные гармоники вместе с входным речевым сигналом поступают на сумматор сигналов, на выходе которого образуется выходной речевой сигнал, помеченный аддитивной структурой слабых частотно и амплитудно-модулированных гармоник.Control marking signals are formed using several blocks of the same type as follows. The amplitude of the output signal of each of the blocks decreases by 10 - 40 dB and is compared with the threshold value of the maximum harmonic noise amplitude acceptable for a given recording device class. A larger value of these amplitudes sets the amplitude of the generated frequency modulated harmonic, which is an integral part of the control marking signal. The frequency of this harmonic is constantly changing within the bandwidth of the corresponding block, and its initial phase is randomly reset to zero on average once per second. The random-phase marking frequency-modulated harmonics obtained in different frequency bands thus reflect the structure of the input speech signal. All labeling frequency-modulated harmonics, together with the input speech signal, go to the signal adder, at the output of which an output speech signal is generated, marked by the additive structure of weak frequency and amplitude-modulated harmonics.

Схема каждого из указанных блоков Н формирования гармоник контрольных маркировочных сигналов приведена на фиг. 2. Входной речевой сигнал поступает на вход фильтра частот 1 (полоса частот фильтра равна полосе частот соответствующей гармоники). Полученный узкополосный сигнал ослабляется в атеньюатере 2. Детектор сигнала 3 выделяет из поступающего на его вход амплитудную огибающую сигнала. Полученный сигнал, отражающий динамику изменения амплитуды речевого сигнала в полосе частот соответствующей гармоники, поступает на вход интегратора 4, который обеспечивает плавное затухание сигнала с декрементом затухания 10 мс. В амплитудном селек торе 5 происходит сравнение уровней сигналов, выходящих из детектора сигналов 3 и интегратора 4, при этом на выход амплитудного селектора 5 пропускается максимальный из них. В пороговом блоке 8 задаётся начальный уровень контрольного маркировочного сигнала в соответствии с требованиями уровня гармонических помех, максимально допустимых в системе звукозаписи (для телефонии этот уровень равен -35 дБ, для магнитофонов -48 дБ и т.п.). В амплитудном селекторе 6 происходит сравнение уровней сигналов с выхода блоков 5 и 8 и на выход амплитудного селектора 6 пропускается максимальный из них. Генератор качающей частоты 7 формирует сигнал с амплитудой, задаваемой выходом амплитудного селектора 6. Блок 9 в случайный момент времени (в среднем один раз в секунду) сбрасывает до нуля начальную фазу генератора качающей частоты 7. Генератор случайных импульсов 10 вырабатывает импульсы со средним временем появления импульса - 1с и стандартным отклонением - 0,1с. На выходе с блока генератора качающей частоты 7 образуется выходной контрольный маркировочный сигнал. Выходной контрольный маркировочный сигнал от генератора качающей частоты 7 поступает на сумматор сигналов Σ. Каждый контрольный маркировочный сигнал, полученный из блоков Н формирования гармоник, поступает на сумматор сигналов Σ и суммируется с входным речевым сигналом. На выходе сумматора сигналов Σ формируется помеченный речевой сигнал, содержащий количество гармоник, соответствующее количеству используемых блоков Н.The circuit of each of these blocks H of the formation of harmonics of the control marking signals is shown in FIG. 2. The input speech signal is fed to the input of the frequency filter 1 (the frequency band of the filter is equal to the frequency band of the corresponding harmonic). The received narrow-band signal is attenuated in the attenuator 2. The signal detector 3 extracts the amplitude envelope of the signal from the signal arriving at its input. The received signal, which reflects the dynamics of the amplitude of the speech signal in the frequency band of the corresponding harmonic, is fed to the input of the integrator 4, which provides a smooth attenuation of the signal with a damping decrement of 10 ms. In the amplitude selector 5, the levels of the signals output from the signal detector 3 and the integrator 4 are compared, while the maximum of them is passed to the output of the amplitude selector 5. In threshold block 8, the initial level of the control marking signal is set in accordance with the requirements of the level of harmonic interference, the maximum permissible in the recording system (for telephony this level is -35 dB, for tape recorders -48 dB, etc.). In the amplitude selector 6, the signal levels are compared from the output of blocks 5 and 8 and the maximum of them is passed to the output of the amplitude selector 6. The oscillating frequency generator 7 generates a signal with the amplitude specified by the output of the amplitude selector 6. Block 9 at a random time (on average once per second) resets to zero the initial phase of the oscillating frequency generator 7. The random pulse generator 10 generates pulses with an average pulse appearance time - 1s and standard deviation - 0.1s. At the output of the oscillating frequency generator unit 7, an output control marking signal is generated. The output control marking signal from the oscillating frequency generator 7 is supplied to the signal adder Σ. Each control marking signal obtained from the harmonic generation blocks H is supplied to the signal adder Σ and summed with the input speech signal. At the output of the signal adder Σ, a labeled speech signal is generated containing the number of harmonics corresponding to the number of N. blocks used.

Осуществление способа согласно настоящему изобретения иллюстрируется на примере варианта его воплощения.The implementation of the method according to the present invention is illustrated by the example of a variant of its embodiment.

Входной речевой сигнал поступает на входы восьми (фиг. 1) однотипных блоков формирования частотно и амплитудно-модулированных гармоник, составляющих контрольные маркировочные сигналы. Количество блоков и, соответственно, гармоник контрольных маркировочных сигналов выбирают в зависимости от требуемой степени надежности маркировки фонограммы. Минимальное количество блоков равно 2. Из-за проблем надежного выделения контрольных маркировочных сигналов из шумов максимальное количество блоков не может превысить 20.The input speech signal is fed to the inputs of eight (Fig. 1) of the same type of blocks for the formation of frequency and amplitude-modulated harmonics that make up the control marking signals. The number of blocks and, accordingly, the harmonics of the control marking signals are selected depending on the required degree of reliability of the phonogram marking. The minimum number of blocks is 2. Due to problems with the reliable separation of control marking signals from noise, the maximum number of blocks cannot exceed 20.

Частотно модулированные гармоники маркировочного сигнала выбираются таким образом, чтобы они перекрывали весь частотный диапазон речевого сигнала и их частоты модуляции не были взаимно кратными. Начиная с количества гармоник, равного 2, при условии не кратности частот модуляции гармоник контрольных маркировочных сигналов, любая вырезка внутренней части фрагмента фонограммы может проявиться в разрыве динамики частот гармоник контрольных маркировочных сигналов. Однако из-за слабости гармоник контрольных маркировочных сигналов в большинстве случаев двух гармоник оказывается мало. Поэтому, чтобы гарантировать большую защищенность фонограммы, число гармоник контрольных маркировочных сигналов следует увеличивать. В настоящем примере осуществления данного изобретения таких гармоник выбрано 8.Frequency modulated harmonics of the marking signal are selected so that they cover the entire frequency range of the speech signal and their modulation frequencies are not mutually multiple. Starting from the number of harmonics equal to 2, provided that the frequency of the modulation of harmonics of the control marking signals is not a multiple of frequencies, any clipping of the internal part of the phonogram fragment can occur in the break in the dynamics of the frequencies of harmonics of the control marking signals. However, due to the weak harmonics of the control marking signals, in most cases two harmonics are few. Therefore, in order to guarantee greater security of the phonogram, the number of harmonics of the control marking signals should be increased. In the present embodiment of the present invention, 8 such harmonics are selected.

Каждый блок Н в полосах частот, перекрывающих общий диапазон частот от 100 до 4000 Гц, формирует контрольный маркировочный сигнал. Контрольный маркировочный сигнал - это частотно и амплитудно-модулированная гармоника с частотой, не выходящей за границы полосы блока, и со случайно меняющейся начальной фазой (в среднем один раз в секунду). Сформированные гармоники маркировочных сигналов поступают на сумматор, где суммируются с входным речевым сигналом и на выходе устройства образует выходной помеченный речевой сигнал, который теперь можно контролировать для определения признаков его умышленного изменения.Each block N in the frequency bands overlapping the total frequency range from 100 to 4000 Hz forms a control marking signal. The control marking signal is a frequency and amplitude-modulated harmonic with a frequency that does not go beyond the boundaries of the block band and with a randomly changing initial phase (on average once per second). The generated harmonics of the marking signals are fed to the adder, where they are summed with the input speech signal and at the output of the device forms an output labeled speech signal, which can now be controlled to determine the signs of its intentional change.

Визуализация гармоник маркировочного сигнала показана на фиг. 3, где приведен частотно-временной образ фонодокумента (сонофильм), полученного с помощью способа, согласно данному изобретению. Стрелки указывают на следы гармоник маркировочных сигналов на сонофильме фонограммы. Если у такого фонодокумента попытаться удалить какой-либо фрагмент, то следы от этой манипуляции проявятся в нарушении структуры маркировочного сигнала на сонофильме. В качестве примера на фиг. 4 показан сонофильм с результатами монтажа этого фонодокумента - в нем на участках речевых пауз вырезан небольшой фрагмент с 4ой по 6-тую секунду. Стрелки указывают на участки с признаками монтажа фонограммы. Следует отметить, что динамика спектра шумов на выбранных участках монтажа такова, что, если бы не было маркировочных сигналов, то обнаружить нарушение однородности этих шумов было бы невозможно. По этой причине бесследный перенос и/или наложение любых фрагментов внутри одного и того же фонодокумента оказывается практически невозможным.Visualization of the harmonics of the marking signal is shown in FIG. 3, which shows the time-frequency image of a phonographic document (sonofilm) obtained using the method according to this invention. The arrows indicate traces of harmonics of the marking signals in the sonophilic soundtrack. If such a phonographic document tries to remove a fragment, then traces of this manipulation will manifest itself in a violation of the structure of the marking signal on the sonofilm. As an example in FIG. Figure 4 shows a sonofilm with the results of editing this phonographic document - a small fragment from the 4th to the 6th second is cut out in sections of speech pauses in it. Arrows indicate areas with signs of phonogram editing. It should be noted that the dynamics of the noise spectrum in the selected sections of the installation is such that if there were no marking signals, it would be impossible to detect a violation of the homogeneity of these noises. For this reason, the traceless transfer and / or imposition of any fragments inside the same phonographic document is practically impossible.

Невозможным оказывается и добавление к имеющемуся фонодокументу чистых речевых сигналов из других фонограмм. Дело в том, что защитные сигналы структурно привязаны к входному речевому сигналу. И если эта привязка не произошла, то этот факт обнаруживается при более тщательном спектрально временном анализе фонодокумента.It is also impossible to add pure speech signals from other phonograms to the existing sound document. The fact is that the protective signals are structurally tied to the input speech signal. And if this binding did not occur, then this fact is revealed during a more thorough spectral-temporal analysis of the phono-document.

С учетом вышеизложенного отличительные признаки предлагаемого способа являются новыми, так как их использование в известном уровне техники не обнаружены.In view of the foregoing, the distinguishing features of the proposed method are new, since their use in the prior art has not been detected.

Совокупность существенных признаков позволяет решить поставленную задачу и достичь нового технического результата по сравнению с известными из уровня техники решениями. Новый способ формирования фонограммы речевой информации является изобретательским шагом в данной области техники как результат теоретических и экспериментальных разработок.The combination of essential features allows us to solve the problem and achieve a new technical result in comparison with solutions known from the prior art. A new way of forming phonograms of speech information is an inventive step in this technical field as a result of theoretical and experimental developments.

Специалисту в данной области понятно, что настоящее изобретение не ограничивается приведенным в описании вариантом воплощения с использованием аудиосигнала в указанном частотном диапазоне и количеством блоков для формирования гармоник контрольных маркировочных сигналов, и может использоваться для контроля подлинности не только аудио, но и видео и мультимедийного сигнала.One skilled in the art will understand that the present invention is not limited to the embodiment described in the description using an audio signal in a specified frequency range and the number of blocks for generating harmonics of the control marking signals, and can be used to verify the authenticity of not only audio but also video and multimedia signals.

Claims

1. A method of forming a phonogram of speech information, in which both voice and control marking signals are recorded on a medium with the possibility of determining the integrity of the phonogram according to the results of its time-frequency visualization, characterized in that a continuous sequence of sonophilic frames is formed simultaneously with the phonogram of the speech information, each his frame is a spectral analysis using a series of parallel units for the formation of harmonics of the control marking signals in the sound range frequency frequencies, determine the spectral power of each frame, the harmonics are modulated in amplitude by the level of the spectral power of each frame of the sono film with a random distribution of their phases so that the power of each harmonic of the control marking signals is weaker than the most powerful frequency-time components of the speech signal by at least 10 dB , and summarize the indicated harmonics of the control marking signals and the speech signal before they are recorded on the medium.

2. The method according to claim 1, characterized in that the range of sound frequencies is 100-4000 Hz.

3. The method according to PP. 1 and 2, characterized in that the specified number of blocks for the formation of harmonics of the control marking signals includes from 5 to 20 blocks.